Juan G. juangon

Software engineer, Oracle Certified Enterprise Architect for Java EE 5 and 6. Java EE passionate developer.

juangon / grpo_demo.py

Created January 31, 2025 10:40 — forked from willccbb/grpo_demo.py

GRPO Llama-1B

	# train_grpo.py
	import re
	import torch
	from datasets import load_dataset, Dataset
	from transformers import AutoTokenizer, AutoModelForCausalLM
	from peft import LoraConfig
	from trl import GRPOConfig, GRPOTrainer

	# Load and prep dataset