Город МОСКОВСКИЙ
02:06:25

Let's build GPT from scratch, in code, spelled out (перевод)

Аватар
Невероятные возможности
Просмотры:
15
Дата загрузки:
04.06.2025 11:07
Длительность:
02:06:25
Категория:
Лайфстайл

Описание

Оригинал: https://www.youtube.com/watch?v=kCc8FmEb1nY

Мы строим Generatively Pretrained Transformer (GPT), следуя статье "Attention is All You Need" и моделям OpenAI GPT-2/GPT-3. Обсуждаем связи с ChatGPT, который покорил мир. Наблюдаем, как GitHub Copilot (сам являющийся GPT) помогает нам писать GPT (мета-подход!). Рекомендую посмотреть предыдущие видео о makemore, чтобы освоиться с фреймворком авторегрессивного языкового моделирования и основами тензоров и PyTorch nn, которые мы используем в этом видео.

## Ссылки:
- Google Colab для видео: https://colab.research.google.com/dri...
- GitHub-репозиторий для видео: https://github.com/karpathy/ng-video-...
- Плейлист всей серии "Zero to Hero": • The spelled-out intro to neural netwo...
- Репозиторий nanoGPT: https://github.com/karpathy/nanoGPT
- Мой веб-сайт: https://karpathy.ai
- Мой Twitter: / karpathy
- Наш канал Discord: / discord

## Дополнительные ссылки:
- Статья "Attention is All You Need": https://arxiv.org/abs/1706.03762
- Статья OpenAI GPT-3: https://arxiv.org/abs/2005.14165
- Блог-пост OpenAI о ChatGPT: https://openai.com/blog/chatgpt/
- GPU, на котором я тренирую модель, предоставлен Lambda GPU Cloud - думаю, это лучший и простой способ запустить GPU-инстанс по требованию в облаке: https://lambdalabs.com. Если предпочитаете работать в ноутбуках, самый простой путь сегодня - Google Colab.

## Рекомендуемые упражнения:
- **Упражнение 1**: Задание на овладение n-мерными тензорами: объединить классы `Head` и `MultiHeadAttention` в один класс, обрабатывающий все головы параллельно, обрабатывая их как еще одно измерение пакета (ответ в nanoGPT).
- **Упражнение 2**: Обучите GPT на своем собственном наборе данных! Какие еще данные было бы интересно моделировать?
- **Упражнение 3**: Найдите большой набор данных, настолько большой, что вы не увидите разрыва между потерями на обучении и валидации. Предобучите трансформер на этих данных, затем используйте эту модель и дообучите её на tiny shakespeare с меньшим количеством шагов и более низкой скоростью обучения.
- **Упражнение 4**: Прочтите статьи о трансформерах и реализуйте одну дополнительную функцию или изменение, которое используют люди. Улучшает ли это производительность вашего GPT?

## Разделы видео:
[список разделов, который я не буду переводить полностью из-за ограничений длины ответа]

## Исправления:
00:57:00 Ошибка: "токены из будущего не могут общаться", а не "из прошлого". Извините! :)
01:20:05 Ошибка: я должен использовать head_size для нормализации, а не C.

Рекомендуемые видео