Андрей Кулунчаков: Ранжирующие функции для задач информационного поиска
Описание
В данном тезисе разрабатывается подход к построению новых ранжирующих функций для задачи Информационного Поиска. Ранжирующая функция зависит от представления документа, которое включает в себя частоты слов и частоты документов. Модель ранжирует документы согласно пользовательским запросам. Качество модели определяется с помощью mean average precision. Чтобы предложить новые ранжирующие модели, предлагается модифицированный генетический алгоритм. Он порождает модели как суперпозиции примитивных функций и выбирает лучшую согласно критерию качества.
Главный вклад исследования состоит в решении проблемы стагнации и контроля структурной сложности последовательно порождаемых моделей. Для решения этих проблем предлагается новый критерий отбора моделей. Он использует регуляризаторы, штрафующие сложность функций, и структурные метрики, позволяющие определять момент начала стагнации. Чтобы показать превосходство новых порожденных моделей над современными ранжирующими функциями, мы проводим эксперимент на коллекциях TREC. Эксперимент показывает, что 1) предложенный алгоритм значительно быстрее переборного, 2) он отбирает функции, которые лучше эталонных на всех рассматриваемых коллекциях. Полученные модели значительно проще, чем отбираемые стандартным генетическим алгоритмом. Предложенная процедура важна для разработки систем информационного поиска, основанных на экспертных оценках релевантности документов запросам.
Рекомендуемые видео




















