Focusing

amulil

Focusing

庾信平生无萧瑟，暮年诗赋动江关。

amulil / grpo_demo.py

Created February 18, 2025 15:18 — forked from willccbb/grpo_demo.py

GRPO Llama-1B

	# train_grpo.py
	#
	# See https://github.com/willccbb/verifiers for ongoing developments
	#
	import re
	import torch
	from datasets import load_dataset, Dataset
	from transformers import AutoTokenizer, AutoModelForCausalLM
	from peft import LoraConfig
	from trl import GRPOConfig, GRPOTrainer

amulil / gist:dd96ce654634f7a9dac176d5b23fd7aa

Created November 12, 2023 10:13

slurm.conf

	ClusterName=config your cluster name
	SlurmctldHost=config your host name

	MpiDefault=pmix
	ProctrackType=proctrack/linuxproc

	ReturnToService=1
	SlurmctldPidFile=/var/run/slurmctld.pid
	SlurmctldPort=8086
	SlurmdPidFile=/var/run/slurmd.pid