Synthetic Bootstrapped Pretraining
Описание
В данном документе представлена Синтетическая Самообучающаяся Предварительная Тренировка (SBP) – новый метод предварительной тренировки языковой модели. SBP моделирует взаимосвязи между документами в наборе данных для предварительной тренировки, чтобы синтезировать новый, более крупный корпус для обучения. Этот подход направлен на улучшение стандартной предварительной тренировки, которая в основном фокусируется на корреляциях токенов внутри документов. SBP определяет семантически похожие пары документов, моделирует условную вероятность одного документа, учитывая другой, а затем синтезирует новые документы на основе этой модели. Эксперименты показывают, что SBP стабильно превосходит сильный базовый уровень повторения и приближается к производительности моделей, обученных на гораздо больших наборах данных. Качественный анализ предполагает, что SBP абстрагирует основные концепции из исходных документов для создания новых повествований. Подходу также дается байесовская интерпретация, где синтезатор учится абстрагировать скрытые концепции, общие для связанных документов. Эта структура явно моделирует междокументные корреляции и кодирует их в обучающие данные.
#NLP #ЯзыковыеМодели #ПредварительнаяТренировка #СинтетическиеДанные #AI #МашинноеОбучение #ГлубокоеОбучение
документ - http://arxiv.org/pdf/2509.15248v1
подписаться - https://t.me/arxivpaperu
отправить донаты:
USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7
BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr
ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7
SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e
создано с помощью NotebookLM
Рекомендуемые видео



















