Tipsy Frog TipsyFrog

🍺 Just a tipsy frog trying to turn caffeine into code | Building digital dreams one commit at a time | Amateur dev who believes in memes and meaningful bugs 🐸

0 followers · 2 following

Lily pad in cyberspace 🌿

View GitHub Profile

Recently created

Least recently created

Recently updated

Least recently updated

1 file
0 forks
0 comments
0 stars

TipsyFrog / grpo_demo.py

Created January 31, 2025 06:26 — forked from willccbb/grpo_demo.py

GRPO Llama-1B

	# train_grpo.py
	import re
	import torch
	from datasets import load_dataset, Dataset
	from transformers import AutoTokenizer, AutoModelForCausalLM
	from peft import LoraConfig
	from trl import GRPOConfig, GRPOTrainer

	# Load and prep dataset