Let's build GPT from scratch, in code, spelled out (перевод)
Описание
Оригинал: https://www.youtube.com/watch?v=kCc8FmEb1nY
Мы строим Generatively Pretrained Transformer (GPT), следуя статье "Attention is All You Need" и моделям OpenAI GPT-2/GPT-3. Обсуждаем связи с ChatGPT, который покорил мир. Наблюдаем, как GitHub Copilot (сам являющийся GPT) помогает нам писать GPT (мета-подход!). Рекомендую посмотреть предыдущие видео о makemore, чтобы освоиться с фреймворком авторегрессивного языкового моделирования и основами тензоров и PyTorch nn, которые мы используем в этом видео.
## Ссылки:
- Google Colab для видео: https://colab.research.google.com/dri...
- GitHub-репозиторий для видео: https://github.com/karpathy/ng-video-...
- Плейлист всей серии "Zero to Hero": • The spelled-out intro to neural netwo...
- Репозиторий nanoGPT: https://github.com/karpathy/nanoGPT
- Мой веб-сайт: https://karpathy.ai
- Мой Twitter: / karpathy
- Наш канал Discord: / discord
## Дополнительные ссылки:
- Статья "Attention is All You Need": https://arxiv.org/abs/1706.03762
- Статья OpenAI GPT-3: https://arxiv.org/abs/2005.14165
- Блог-пост OpenAI о ChatGPT: https://openai.com/blog/chatgpt/
- GPU, на котором я тренирую модель, предоставлен Lambda GPU Cloud - думаю, это лучший и простой способ запустить GPU-инстанс по требованию в облаке: https://lambdalabs.com. Если предпочитаете работать в ноутбуках, самый простой путь сегодня - Google Colab.
## Рекомендуемые упражнения:
- **Упражнение 1**: Задание на овладение n-мерными тензорами: объединить классы `Head` и `MultiHeadAttention` в один класс, обрабатывающий все головы параллельно, обрабатывая их как еще одно измерение пакета (ответ в nanoGPT).
- **Упражнение 2**: Обучите GPT на своем собственном наборе данных! Какие еще данные было бы интересно моделировать?
- **Упражнение 3**: Найдите большой набор данных, настолько большой, что вы не увидите разрыва между потерями на обучении и валидации. Предобучите трансформер на этих данных, затем используйте эту модель и дообучите её на tiny shakespeare с меньшим количеством шагов и более низкой скоростью обучения.
- **Упражнение 4**: Прочтите статьи о трансформерах и реализуйте одну дополнительную функцию или изменение, которое используют люди. Улучшает ли это производительность вашего GPT?
## Разделы видео:
[список разделов, который я не буду переводить полностью из-за ограничений длины ответа]
## Исправления:
00:57:00 Ошибка: "токены из будущего не могут общаться", а не "из прошлого". Извините! :)
01:20:05 Ошибка: я должен использовать head_size для нормализации, а не C.
Рекомендуемые видео

















![[Тим Тин] - Барби и Кен Стали Родителями! Как Помирить Родителей?](/images/video/2026-05-14/b9/c4/b9c40263c3253555e07d87d77501f37b.jpg?width=640)

