02.07.2026 Исследования

AutoMem: память как навык, который можно выучить — и обучить

Claude Opus 4.5 запоминает контекст. GPT-4o — тоже. Gemini 3.1 Pro Thinking — и подавно. Но что если проблема не в размере контекстного окна, а в том, как именно агент решает, что сохранить, когда извлечь и как организовать то, что уже известно? Именно этот вопрос задаёт новая работа — AutoMem, опубликованная на ArXiv 1 июля 2026 года. Её ответ: память для LLM-агента это не инженерная деталь — это самостоятельный навык, который можно оптимизировать, как любой другой. Результат впечатляет: оптимизация только памяти, без изменения reasoning-весов, даёт 2x–4x улучшение на длинных задачах и позволяет 32-миллиардной модели обгонять Claude Opus 4.5.

Откуда взялась идея

В когнитивной науке это называется метапамять (metamemory) — способность понимать, что стоит запомнить, когда это понадобится и как связать новую информацию с уже известной. Концепция развивалась с 1970-х годов (Flavell, 1979; Nelson, 1990) и описывает то, что делает эксперта в любой области: не просто знания, а понимание границ собственной памяти. Исследователи из Stanford и FAR AI взяли эту рамку и применили к LLM-агентам.

Ключевой сдвиг: файловая система памяти была повышена до first-class memory action — действия агента наравне с действиями над игровым миром. Агент сам решает — записать ли текущее состояние, извлечь ли что-то из прошлого опыта, удалить ли устаревшую запись, переструктурировать ли файл. Никаких жёстких правил — только обучение через обратную связь. Это превращает работу с памятью из архитектурного решения в learnable skill.

Почему это важно: в длинных задачах (сотни и тысячи шагов) одна ошибка в работе с памятью может silently утопить весь прогресс. Агент сделал правильную вещь, но в неправильное время — или записал не то, что следовало. Человек не способен отследить полную траекторию — агент сам принимает решения о памяти, и только итоговый результат показывает, было ли решение правильным. Это создаёт фундаментальную проблему оптимизации: как улучшить что-то, что проявляется только косвенно, через тысячи шагов?

Как устроен AutoMem: два внешних цикла

Фреймворк состоит из двух последовательных внешних циклов, которые оптимизируют разные оси памяти. Оба работают поверх фиксированной базовой модели — Qwen2.5-32B-Instruct в экспериментах. Веса модели, отвечающие за решение задачи, не меняются. Меняется только то, как модель работает с памятью.

Цикл 1 — оптимизация структуры (scaffold). Сильная LLM (мета-LLM) выступает в роли внешнего рецензента: она просматривает полные траектории агента — все шаги от начала до конца эпизода — и выявляет паттерны провалов. Что именно пошло не так? Какие записи в памяти были бесполезны? Каких записей не хватало в нужный момент? Мета-LLM переписывает memory scaffold — промпты, схемы файлов и словарь действий с памятью. Агент запускается заново с обновлённым scaffold. Цикл повторяется до схождения: на практике для Crafter scaffold сошёлся к пятой версии, для MiniHack — к четвёртой, для NetHack — ко второй. Это означает, что мета-LLM способна эффективно диагностировать и исправлять memory-стратегию агента без участия человека.

Цикл 2 — оптимизация качества (memory proficiency). Из множества эпизодов выбираются примеры удачных решений о памяти — моменты, когда агент правильно записал важное или вовремя извлёк нужное. Это не просто reward shaping: авторы используют эти примеры как training signal для fine-tuning базовой модели. Но не на задачу — на память. После обучения модель сама, без внешнего scaffold, принимает более качественные решения о том, что worth remembering. Именно этот цикл даёт персистентное улучшение, которое переносится на новые эпизоды.

Результат: два направления оптимизации — структура памяти и качество решений о ней — работают синергично. Scaffold определяет интерфейс между агентом и памятью; memory training определяет, насколько хорошо агент этим интерфейсом пользуется. Оба цикла автоматизированы и не требуют human-in-the-loop после инициализации.

Почему игры — идеальный тест

Выбор Crafter, MiniHack и NetHack в качестве тестовых сред не случаен. Эти игры — процедурно-генерируемые: каждый эпизод создаёт уникальный мир с уникальными задачами. Это значит, что агент не может зависеть от заученных решений — он должен адаптироваться, а значит, правильно использовать память о прошлых эпизодах и о деталях конкретного мира. Длинные горизонты (тысячи шагов) и богатые информационные требования делают их идеальным полигоном для изучения memory-менеджмента.

Для NetHack характерна особая сложность: процедурная генерация означает, что стратегии, сработавшие в одном мире, не работают в другом. Агент должен помнить детали каждого конкретного мира — какие ресурсы доступны, какие угрозы встречены, какие действия предприняты — и адаптировать своё поведение соответственно. Это именно та ситуация, где метапамять критична. Мир не стоит на месте — он генерируется на ходу, и агенту приходится одновременно учиться и помнить.

Бенчмарки и числа

Результаты измеряются в progression rate — проценте достигнутых игровых достижений. Базовая модель — Qwen2.5-32B-Instruct. Для каждой игры свой scaffold и memory specialist, оптимизированные независимо:

Агент	Crafter	MiniHack	NetHack
AutoMem (Qwen2.5-32B + dual-loop)	57.3 ± 4.4	40.0 ± 7.7	6.8 ± 3.2
Gemini-3-Pro (frontier, proprietary)	57.3 ± 4.4	40.0 ± 7.7	6.8 ± 3.2
Gemini-3.1-Pro-Thinking	55.0 ± 6.4	27.5 ± 7.1	2.6 ± 0.3
Claude Opus 4.5	49.5 ± 3.1	27.5 ± 7.1	2.0 ± 0.5
Gemini-2.5-Pro	55.0 ± 6.0	17.5 ± 6.0	1.7 ± 0.2
DeepSeek-R1 (open-weight)	36.4 ± 3.8	25.0 ± 6.8	1.4 ± 0.5
Qwen2.5-72B-Instruct (base, no memory)	27.3	—	—
Qwen2.5-32B-Instruct (base, no memory)	27.3	—	—

Несколько наблюдений. Во-первых, 2x–4x улучшение относительно базовой Qwen2.5-32B-Instruct — без изменения весов модели, отвечающих за решение задачи. Во-вторых, AutoMem на 32-миллиардной модели обходит Claude Opus 4.5 на Crafter (57.3 vs 49.5) и MiniHack (40.0 vs 27.5), и в разы превосходит его на NetHack (6.8 vs 2.0). В-третьих, 72-миллиардная версия той же модели без AutoMem показывает те же 27.3% на Crafter — столько же, сколько 32B с AutoMem. Размер модели больше не главное.

Место в ландшафте: как AutoMem соотносится с существующими подходами

Идея external memory для LLM не нова. RAG coupling a retriever with a language model, fetching relevant passages from a document store at inference time; MemGPT pages information in and out of context using OS-inspired memory management; Generative Agents maintain a timestamped memory stream from which they retrieve, reflect, and plan; A-MEM equips LLMs with active decisions on what to retain and forget; MemoryBank maintains a persistent long-term store across sessions; MemLLM trains models to interact with a dedicated read-write memory module; Self-Notes trains models to interleave reasoning with memory tokens — все они работают в одном направлении.

AutoMem отличается от всех по двум ключевым параметрам. Первое: автоматизация оптимизации. Большинство существующих подходов требуют ручного проектирования схемы памяти и правил работы с ней. AutoMem автоматизирует этот процесс через мета-LLM: scaffold пересматривается без human-in-the-loop. Это снимает главный bottleneck — человеческую неспособность отследить полную траекторию длинного эпизода. Второе: разделение на две оси. Структура памяти и качество решений о ней — это не один и тот же навык. Memory skill improves along two axes — structure and proficiency — and AutoMem оптимизирует оба через отдельные циклы.

Почему это переломный результат

До сих пор основным направлением улучшения LLM-агентов были более мощные модели: чем больше параметров, тем лучше агент. Это следует из интуитивной метафоры «больше контекста — больше памяти». AutoMem показывает, что это тупик: модель с 72 миллиардами параметров без оптимизации памяти проигрывает модели с 32 миллиардами параметров с AutoMem. Дело не в размере, а в том, как агент обращается с тем, что уже знает.

Второй важный вывод — концептуальный. Результаты подтверждают метапамять как продуктивную рамку для дизайна LLM-агентов: квалифицированное использование памяти — это не инженерное решение архитектора, а навык, который модель приобретает через практику и обратную связь. Файловое хранилище, scaffold и memory specialist — всё это инструменты, через которые модель учится быть лучшим архивариусом. И как любой навык — память можно тренировать.

Третий вывод — практический. Снижение барьера для open-weight моделей: не нужно frontier-модели, чтобы достичь frontier-результатов на длинных задачах. 32B модель с AutoMem оказывается competitive with frontier systems such as Claude Opus 4.5 and Gemini 3.1 Pro Thinking — при том, что она в разы меньше и полностью открыта.

Ограничения

Текущая версия изучает только эпизодическую память: файловая система обнуляется в начале каждого эпизода. Персистентная память между эпизодами — очевидное направление развития. Эксперименты на играх хорошо подходят для изучения памяти — длинные горизонты, процедурная генерация, богатые требования к управлению информацией — но обобщение на реальные задачи требует отдельной валидации. Для каждой из трёх игр оптимизировался отдельный scaffold и memory specialist — общий оптимизатор для разных окружений остаётся открытым вопросом. Пока не ясно, насколько переносимы learned memory skills между доменами.

Что это значит для практики

AutoMem — пока research-фреймворк, но тренд очевиден. Индустрия постепенно переходит от «больше параметров» к «умнее использование контекста». Memory management как learnable skill — следующий шаг после RAG и MemGPT. Если модель может научиться быть лучше в работе с памятью без изменения её reasoning-ядер, это открывает дорогу специализированным memory-оптимизациям под конкретные домены: coding agents, research assistants, autonomous agents в реальном мире.

Публичный релиз кодовой базы ожидается. Пока же работа — мощный аргумент в пользу того, чтобы перестать мерить интеллект агента числом параметров и начать смотреть на то, как агент распоряжается ограниченным контекстом. В конце концов, настоящая проблема не в том, сколько модель может держать в голове, а в том, умеет ли она решать, что стоит помнить.

Часто задаваемые вопросы

Чем AutoMem отличается от MemGPT?

MemGPT странирует информацию в и из контекста по фиксированным правилам — аналогично виртуальной памяти в ОС. AutoMem идёт дальше: не просто управляет объёмом, а оптимизирует стратегию работы с памятью — что записывать, когда удалять, как структурировать. Это два разных уровня: MemGPT — про объём, AutoMem — про качество решений о памяти. Плюс AutoMem автоматизирует оптимизацию scaffold через мета-LLM, тогда как MemGPT требует ручного проектирования. И MemGPT, и AutoMem используют файловую систему как external memory, но первый делает это по правилам, второй — по стратегии.

Можно ли применить это к существующим моделям без переобучения?

Цикл 1 (оптимизация scaffold) не требует изменения весов — только переработки промптов и схем памяти. Это применимо к любой модели через few-shot prompting с мета-LLM. Цикл 2 требует fine-tuning, но направлен на memory proficiency, а не на основные reasoning-способности. Это существенно дешевле полного fine-tuning и может применяться к уже развёрнутым моделям в production. Однако важно понимать: scaffold, оптимизированный для игр, не переносится напрямую в coding environment или research workflow — домен matters.

Почему NetHack — самый сложный для всех моделей?

NetHack требует долгосрочного планирования и запоминания деталей процедурно-генерируемого мира на тысячи шагов. Даже Claude Opus 4.5 показывает там всего 2.0% progression — хуже, чем AutoMem на Qwen2.5-32B. Это иллюстрирует, почему frontier-модели всё ещё далеки от мастерства на длинных задачах, и почему память — critical bottleneck, а не reasoning. Главное ограничение здесь — не вычислительная мощность, а способность эффективно использовать ограниченное хранилище. Frontier-модели оперируют фиксированным контекстом, и на задачах с horizonte в тысячи шагов даже самый большой контекст — капля в море. AutoMem показывает, что проблема не в размере контекстного окна, а в стратегии.