Detecting Adversarial Fine-Tuning with Auditing Agents
Описание
Обнаружение враждебной донастройки с помощью агентов аудита
В данной статье представлен метод обнаружения враждебного использования API донастройки для больших языковых моделей (LLM). Ключевая идея заключается в использовании агента аудита донастройки, который оценивает риск, связанный с задачей донастройки. Этот агент имеет доступ к набору данных донастройки, предварительно донастроенной модели и донастроенной модели. Агент присваивает оценку риска, чтобы определить, привнес ли процесс донастройки вредоносное поведение. Оценка включала разнообразный набор известных атак и безвредных донастроенных моделей. Агент аудита показал значительную частоту обнаружения, особенно для скрытых атак, которые обходят стандартные методы модерации контента. Работа подчеркивает проблемы обнаружения незначительных ухудшений безопасности, но устанавливает базовый уровень для будущих исследований и выпускает инструмент агента аудита.
#LLMбезопасность #враждебныйИИ #донастройка #аудит #языковыемодели #безопасностьИИ #обнаружение
документ - http://arxiv.org/pdf/2510.16255v1
подписаться - https://t.me/arxivpaperu
отправить донаты:
USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7
BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr
ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7
SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e
создано с помощью NotebookLM
Рекомендуемые видео




















