Skip to content

Instantly share code, notes, and snippets.

View KurovDenis's full-sized avatar
🎯
Focusing

KurovDenis

🎯
Focusing
View GitHub Profile
@KurovDenis
KurovDenis / grpo_demo.py
Created July 18, 2025 11:36 — forked from willccbb/grpo_demo.py
GRPO Llama-1B
# train_grpo.py
#
# See https://github.com/willccbb/verifiers for ongoing developments
#
"""
citation:
@misc{brown2025grpodemo,
title={Granular Format Rewards for Eliciting Mathematical Reasoning Capabilities in Small Language Models},
author={Brown, William},
@KurovDenis
KurovDenis / Deep Dive into LLMs like ChatGPT (Andrej Karpathy).md
Created July 14, 2025 11:11 — forked from postpersonality/Deep Dive into LLMs like ChatGPT (Andrej Karpathy).md
Andrej Karpathy - Deep Dive into LLMs like ChatGPT (конспект youtu.be/7xTGNNLPyMI на русском языке)

За кулисами ChatGPT: Как создаются и "мыслят" большие языковые модели

Большие языковые модели (LLM), такие как ChatGPT, поражают своими способностями: они пишут тексты, отвечают на вопросы, генерируют код. Но что скрывается за этим текстовым полем, куда мы вводим запросы? Как они работают, на что способны, а где их слабые стороны? Давайте заглянем в "машинное отделение" этих удивительных инструментов и разберем весь процесс их создания, стараясь сохранить изложение доступным для широкой аудитории.

Этап 1: Предварительное обучение — Поглощение Интернета и рождение базовой модели

Все начинается с колоссального этапа, называемого предварительным обучением (pre-training). Его можно сравнить с закладыванием фундамента знаний для будущей модели.

1.1. Сбор и фильтрация текстовых данных