Александр Голубев - Воркшоп по LLM + RLHF

Опубликовано: 06 Ноябрь 2025
на канале: ML Trainings
6,702
264

Для чего нужен RLHF
Примеры работы модели в диалоговом режиме без SFT и RL fine-tuning
Как тюнить большие модели на одной карте
SFT fine-tuning
Обучение RM
Дообучение модели с PPO
Демонстрация результатов было vs стало
Разбор концепций, которые использовали в ходе обучения (LoRA adapters, Int8 quantization, PPO, RM training loss, …)

Cсылка на ноутбук: https://colab.research.google.com/dri...

Data Fest 2023:
https://ods.ai/events/datafestonline2023
Трек "Instruct Models":
https://ods.ai/tracks/df23-instruct-m...

Наши соц.сети:
Telegram: https://t.me/datafest
Вконтакте: https://vk.com/datafest