Тонкая настройка против контекстного обучения: новое исследование предлагает лучшую настройку LLM для реальных задач

Подпишитесь на наши ежедневные и еженедельные рассылки, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли материалах об ИИ. Узнать больше
Два популярных подхода к настройке больших языковых моделей (LLM) для задач ниже по потоку — это тонкая настройка и контекстное обучение (ICL). В недавнем исследовании исследователи из Google DeepMind и Стэнфордского университета изучили возможности обобщения этих двух методов. Они обнаружили, что ICL обладает большей способностью к обобщению (хотя это связано с более высокими затратами на вычисления во время вывода). Они также предлагают новый подход, позволяющий получить лучшее из обоих миров.
Полученные результаты могут помочь разработчикам принимать важные решения при создании приложений LLM для индивидуальных корпоративных данных.
Тонкая настройка подразумевает использование предварительно обученного LLM и его дальнейшее обучение на меньшем специализированном наборе данных. Это корректирует внутренние параметры модели, чтобы научить ее новым знаниям или навыкам. С другой стороны, контекстное обучение (ICL) не изменяет базовые параметры модели. Вместо этого оно направляет LLM, предоставляя примеры желаемой задачи непосредственно в подсказке ввода. Затем модель использует эти примеры, чтобы выяснить, как обрабатывать новый, похожий запрос.
Исследователи решили тщательно сравнить, насколько хорошо модели обобщаются для новых задач с использованием этих двух методов. Они построили «контролируемые синтетические наборы данных фактических знаний» со сложными, самосогласованными структурами, такими как воображаемые генеалогические древа или иерархии вымышленных концепций.
Чтобы убедиться, что они проверяют способность модели усваивать новую информацию, они заменили все существительные, прилагательные и глаголы бессмысленными терминами, избегая любого совпадения с данными, с которыми могли столкнуться LLM во время предварительного обучения.
Затем модели были протестированы на различных задачах обобщения. Например, один тест включал простые перестановки . Если модель была обучена тому, что «femp более опасны, чем glon», могла ли она правильно сделать вывод, что «glon менее опасны, чем femp»? Другой тест был сосредоточен на простых силлогизмах , форме логической дедукции. Если было сказано «All glon are yomp» и «All troff are glon», могла ли модель сделать вывод, что «All troff are yomp»? Они также использовали более сложный «бенчмарк семантической структуры» с более богатой иерархией этих выдуманных фактов для проверки более тонкого понимания.
«Наши результаты в первую очередь сосредоточены на параметрах того, как модели обобщаются в выводы и обратные выводы из тонкой настройки новых структур знаний, с очевидными последствиями для ситуаций, когда тонкая настройка используется для адаптации модели к специфической для компании и конфиденциальной информации», — рассказал Эндрю Лампинен, научный сотрудник Google DeepMind и ведущий автор статьи, изданию VentureBeat.
Для оценки производительности исследователи настроили Gemini 1.5 Flash на этих наборах данных. Для ICL они передали весь обучающий набор данных (или большие подмножества) в качестве контекста в модель с настраиваемыми инструкциями перед тем, как задать тестовые вопросы.
Результаты последовательно показали, что в сопоставленных с данными условиях ICL приводит к лучшему обобщению, чем стандартная тонкая настройка. Модели, использующие ICL, в целом лучше справлялись с такими задачами, как изменение отношений или логические выводы из предоставленного контекста. Предварительно обученные модели без тонкой настройки или ICL работали плохо, что указывает на новизну тестовых данных.
«Одним из основных компромиссов, которые следует учитывать, является то, что, хотя ICL не требует тонкой настройки (что экономит затраты на обучение), он, как правило, более затратен в вычислительном отношении при каждом использовании, поскольку требует предоставления дополнительного контекста для модели», — сказал Лампинен. «С другой стороны, ICL имеет тенденцию лучше обобщать для наборов данных и моделей, которые мы оценивали».
Основываясь на наблюдении, что ICL преуспевает в гибком обобщении, исследователи предложили новый метод улучшения тонкой настройки: добавление контекстных выводов к данным тонкой настройки. Основная идея заключается в использовании собственных возможностей ICL LLM для генерации более разнообразных и богато выведенных примеров, а затем добавлении этих дополненных примеров в набор данных, используемый для тонкой настройки.
Они изучили две основные стратегии дополнения данных:
- Локальная стратегия : этот подход фокусируется на отдельных фрагментах информации. LLM предлагается перефразировать отдельные предложения из обучающих данных или сделать из них прямые выводы, например, генерировать инверсии.
- Глобальная стратегия : LLM получает полный набор обучающих данных в качестве контекста, а затем ему предлагается сгенерировать выводы, связав конкретный документ или факт с остальной предоставленной информацией, что приводит к более длинному пути рассуждений соответствующих выводов.
Когда модели были настроены на этих дополненных наборах данных, прирост был значительным. Эта дополненная тонкая настройка значительно улучшила обобщение, превзойдя не только стандартную тонкую настройку, но и простой ICL.

«Например, если в одном из документов компании указано, что «XYZ — это внутренний инструмент для анализа данных», наши результаты показывают, что ICL и расширенная тонкая настройка будут более эффективны для того, чтобы модель могла отвечать на связанные вопросы, например: «Какие существуют внутренние инструменты для анализа данных?»», — сказал Лампинен.
Этот подход предлагает предприятиям убедительный путь вперед. Инвестируя в создание этих дополненных ICL наборов данных, разработчики могут создавать тонко настроенные модели, которые демонстрируют более сильные возможности обобщения.
Это может привести к созданию более надежных и устойчивых приложений LLM, которые лучше работают с разнообразными реальными входными данными, не неся при этом непрерывных затрат времени на вывод, связанных с большими контекстными подсказками.
«Расширенная тонкая настройка, как правило, делает процесс тонкой настройки модели более дорогим, поскольку для этого требуется дополнительный шаг ICL для дополнения данных, за которым следует тонкая настройка», — сказал Лампинен. «Оправданы ли эти дополнительные затраты улучшенным обобщением, будет зависеть от конкретного варианта использования. Однако это вычислительно дешевле, чем применение ICL каждый раз при использовании модели, если амортизировать за многократные использования модели».
Хотя Лампинен отметил, что необходимы дальнейшие исследования, чтобы увидеть, как изученные ими компоненты взаимодействуют в различных условиях, он добавил, что их результаты указывают на то, что разработчикам следует рассмотреть возможность использования расширенной тонкой настройки в тех случаях, когда они видят недостаточную производительность при использовании только тонкой настройки.
«В конечном итоге мы надеемся, что эта работа внесет вклад в науку понимания обучения и обобщения в базовых моделях, а также в практические аспекты их адаптации к последующим задачам», — сказал Лампинен.
Если вы хотите произвести впечатление на своего босса, VB Daily вам поможет. Мы даем вам внутреннюю информацию о том, что компании делают с генеративным ИИ, от изменений в регулировании до практических развертываний, чтобы вы могли поделиться идеями для максимальной окупаемости инвестиций.
Ознакомьтесь с нашей Политикой конфиденциальности
Спасибо за подписку. Ознакомьтесь с другими рассылками VB здесь .
Произошла ошибка.

venturebeat