Один слой вместо всех: как RL-дообучение свелось к одной настройке
Представьте: вы тратите часы и сотни долларов на дообучение большой языковой модели — и оказывается, что достаточно настроить один-единственный слой из шестидесяти четырёх. Звучит как упрощение. Но исследователи из команды Qwen нашли именно это.
Что показало исследование
Reinforcement Learning (RL) стал стандартным этапом дообучения современных LLM. После предобучения на триллионах токенов модели запускают через GRPO, GiGPO или Dr. GRPO — алгоритмы, которые учат модель рассуждать, писать код и принимать решения. Стандартная практика — обновлять все параметры сразу. Логика простая: больше настроек — лучше результат.
Исследование, охватившее семь моделей семейств Qwen3 и Qwen2.5, показало обратное. Оказалось, что достаточно настроить один слой — и результат сопоставим с полноparameterным RL-дообучением, а иногда даже превосходит его.
Почему один слой работает лучше
Авторы ввели метрику layer contribution — доля улучшения, которую конкретный слой восстанавливает при изолированной настройке. Выводы оказались контринтуитивными.
Оказывается, наибольший вклад в RL-дообучение вносят средние слои трансформера. Слои вблизи входа и выхода вносят существенно меньше. При этом одна и та же структурная закономерность стабильно повторяется на разных моделях, датасетах и алгоритмах.
Это объясняет, почему полноparameterное обучение часто избыточно: основная работа происходит в ограниченном подмножестве слоёв, а остальные параметры лишь шумят.
Что это значит на практике
Для индустрии результат критичен. Полноparameterное RL-дообучение требует огромных вычислительных ресурсов. Если можно достичь того же результата, обучая один слой, стоимость и время дообучения падают на порядки.
Конкретные цифры зависят от модели и задачи, но порядок величины понятен: вместо обновления 70 миллиардов параметров достаточно настроить несколько сотен миллионов. Это делает RL-дообучение доступным для компаний без доступа к кластерам уровня OpenAI или Anthropic.
Какие слои важнее
Исследование выявило устойчивый паттерн:
- Верхние слои (ближе к выходу) — хранят уже сформированные представления, их изменение часто вредит уже выученным навыкам
- Нижние слои (ближе к входу) — кодируют базовые статистики языка, общие для всех задач
- Средние слои — специализируются на задачах, которые RL-дообучение как раз и должно улучшать: рассуждения, код, агентурные решения
Именно средние слои становятся «центром принятия решений» при RL-дообучении. Один из них может быть настолько информативен, что изолированная настройка этого слоя даёт результат, близкий к полному обучению.
Ограничения и вопросы
Результат получен на моделях Qwen3 и Qwen2.5. Насколько он обобщается на другие архитектуры — Llama, Mistral, Claude — исследование напрямую не проверяет. Архитектурные различия могут влиять на распределение layer contribution.
Также неясно, как результат масштабируется с размером модели. У очень крупных моделей распределение ролей между слоями может быть более тонким.
Итог
Открытие, что RL-дообучение LLM сконцентрировано в одном слое трансформера, — это не просто академический факт. Это практический инструмент. Если индустрия научится идентифицировать критичные слои до начала обучения, процесс дообучения станет в разы дешевле и быстрее.
Вопрос теперь в том, как определить эти слои заранее — до того, как будет запущен дорогой эксперимент. Ответ на него определит, насколько быстро этот метод войдёт в стандартную практику.