RWKV workshop

Опубликовано: 03 Июнь 2026
на канале: Cherry Pie
162
9

#gpt4 #rwkv #transformers

Запись воркшопа, на котором я рассказал про новую модель для языкового моделирования - Receptance Weighted Key Value, RWKV. В презентации разобран линейный механизм внимания (attention), то как он используется в модели RWKV, общая структура модели RWKV, графики её перформанса и сравнение с более традиционными трансформерными моделями. Дополнительно показаны примеры генерации и диалога с этой новой RWKV моделью.

Содержание воркшопа:
0:00:00: Введение и RNNs
0:02:44: Линейный Attention
0:27:52: Модель RWKV
0:30:25: Channel & Time mixing
0:36:09: Полная архитектура модели
0:38:00: Рекуррентность в RWKV
0:44:27: Эксперименты из статьи
1:03:28: Эксперимент с переобучением
1:14:30: RWKV inference
1:18:43: Сообщество RWKV
1:21:38: Эксперименты с ChatRWKV
1:25:00: 1-ый эксп - вероятность
1:27:08: 2-ой эксп. - путешествия
1:29:30: 3-ий эксп. карандаш или ботинок
1:30:25: 4-ый эксп. сборка компьютера
1:35:08: 5-ый эксп. секрет
1:37:36: 6-ой эксп. рекомендация фильма
1:41:30: Заключение
1:45:15: Обсуждение