haihui yang yanghh2000

MS student, Sun Yat-Sen University

yanghh2000 / grpo_demo.py

Created April 23, 2025 19:23 — forked from willccbb/grpo_demo.py

GRPO Llama-1B

	# train_grpo.py
	#
	# See https://github.com/willccbb/verifiers for ongoing developments
	#
	import re
	import torch
	from datasets import load_dataset, Dataset
	from transformers import AutoTokenizer, AutoModelForCausalLM
	from peft import LoraConfig
	from trl import GRPOConfig, GRPOTrainer