🍇

Harsh Vasisht HarshVasisht

🍇

HarshVasisht / grpo_demo.py

Created January 31, 2025 15:58 — forked from willccbb/grpo_demo.py

GRPO Llama-1B

	# train_grpo.py
	import re
	import torch
	from datasets import load_dataset, Dataset
	from transformers import AutoTokenizer, AutoModelForCausalLM
	from peft import LoraConfig
	from trl import GRPOConfig, GRPOTrainer

	# Load and prep dataset

HarshVasisht / Turing_machine.py

Created December 23, 2021 19:16

	def transition (input_char, replace_with, move, new_state):
	global tapehead, state
	if tape[tapehead] == input_char:
	tape[tapehead] = replace_with
	state = new_state
	if move == 'L':
	tapehead -= 1
	else:
	tapehead += 1
	return True