AutoMem: память как навык, который можно выучить — и обучить
Claude Opus 4.5 запоминает контекст. GPT-4o — тоже. Gemini 3.1 Pro Thinking — и подавно. Но что если проблема не в размере контекстного окна, а в том, как именно агент решает, что сохранить, когда извлечь и как организовать то, что уже известно? Именно этот вопрос задаёт новая работа — AutoMem, опубликованная на ArXiv 1 июля 2026 года. Её ответ: память для LLM-агента это не инженерная деталь — это самостоятельный навык, который можно оптимизировать, как любой другой. Результат впечатляет: оптимизация только памяти, без изменения reasoning-весов, даёт 2x–4x улучшение на длинных задачах и позволяет 32-миллиардной модели обгонять Claude Opus 4.5.
Откуда взялась идея
В когнитивной науке это называется метапамять (metamemory) — способность понимать, что стоит запомнить, когда это понадобится и как связать новую информацию с уже известной. Концепция развивалась с 1970-х годов (Flavell, 1979; Nelson, 1990) и описывает то, что делает эксперта в любой области: не просто знания, а понимание границ собственной памяти. Исследователи из Stanford и FAR AI взяли эту рамку и применили к LLM-агентам.
Ключевой сдвиг: файловая система памяти была повышена до first-class memory action — действия агента наравне с действиями над игровым миром. Агент сам решает — записать ли текущее состояние, извлечь ли что-то из прошлого опыта, удалить ли устаревшую запись, переструктурировать ли файл. Никаких жёстких правил — только обучение через обратную связь. Это превращает работу с памятью из архитектурного решения в learnable skill.
Почему это важно: в длинных задачах (сотни и тысячи шагов) одна ошибка в работе с памятью может silently утопить весь прогресс. Агент сделал правильную вещь, но в неправильное время — или записал не то, что следовало. Человек не способен отследить полную траекторию — агент сам принимает решения о памяти, и только итоговый результат показывает, было ли решение правильным. Это создаёт фундаментальную проблему оптимизации: как улучшить что-то, что проявляется только косвенно, через тысячи шагов?
Как устроен AutoMem: два внешних цикла
Фреймворк состоит из двух последовательных внешних циклов, которые оптимизируют разные оси памяти. Оба работают поверх фиксированной базовой модели — Qwen2.5-32B-Instruct в экспериментах. Веса модели, отвечающие за решение задачи, не меняются. Меняется только то, как модель работает с памятью.
Цикл 1 — оптимизация структуры (scaffold). Сильная LLM (мета-LLM) выступает в роли внешнего рецензента: она просматривает полные траектории агента — все шаги от начала до конца эпизода — и выявляет паттерны провалов. Что именно пошло не так? Какие записи в памяти были бесполезны? Каких записей не хватало в нужный момент? Мета-LLM переписывает memory scaffold — промпты, схемы файлов и словарь действий с памятью. Агент запускается заново с обновлённым scaffold. Цикл повторяется до схождения: на практике для Crafter scaffold сошёлся к пятой версии, для MiniHack — к четвёртой, для NetHack — ко второй. Это означает, что мета-LLM способна эффективно диагностировать и исправлять memory-стратегию агента без участия человека.
Цикл 2 — оптимизация качества (memory proficiency). Из множества эпизодов выбираются примеры удачных решений о памяти — моменты, когда агент правильно записал важное или вовремя извлёк нужное. Это не просто reward shaping: авторы используют эти примеры как training signal для fine-tuning базовой модели. Но не на задачу — на память. После обучения модель сама, без внешнего scaffold, принимает более качественные решения о том, что worth remembering. Именно этот цикл даёт персистентное улучшение, которое переносится на новые эпизоды.
Результат: два направления оптимизации — структура памяти и качество решений о ней — работают синергично. Scaffold определяет интерфейс между агентом и памятью; memory training определяет, насколько хорошо агент этим интерфейсом пользуется. Оба цикла автоматизированы и не требуют human-in-the-loop после инициализации.
Почему игры — идеальный тест
Выбор Crafter, MiniHack и NetHack в качестве тестовых сред не случаен. Эти игры — процедурно-генерируемые: каждый эпизод создаёт уникальный мир с уникальными задачами. Это значит, что агент не может зависеть от заученных решений — он должен адаптироваться, а значит, правильно использовать память о прошлых эпизодах и о деталях конкретного мира. Длинные горизонты (тысячи шагов) и богатые информационные требования делают их идеальным полигоном для изучения memory-менеджмента.
Для NetHack характерна особая сложность: процедурная генерация означает, что стратегии, сработавшие в одном мире, не работают в другом. Агент должен помнить детали каждого конкретного мира — какие ресурсы доступны, какие угрозы встречены, какие действия предприняты — и адаптировать своё поведение соответственно. Это именно та ситуация, где метапамять критична. Мир не стоит на месте — он генерируется на ходу, и агенту приходится одновременно учиться и помнить.
Бенчмарки и числа
Результаты измеряются в progression rate — проценте достигнутых игровых достижений. Базовая модель — Qwen2.5-32B-Instruct. Для каждой игры свой scaffold и memory specialist, оптимизированные независимо:
| Агент | Crafter | MiniHack | NetHack |
|---|---|---|---|
| AutoMem (Qwen2.5-32B + dual-loop) | 57.3 ± 4.4 | 40.0 ± 7.7 | 6.8 ± 3.2 |
| Gemini-3-Pro (frontier, proprietary) | 57.3 ± 4.4 | 40.0 ± 7.7 | 6.8 ± 3.2 |
| Gemini-3.1-Pro-Thinking | 55.0 ± 6.4 | 27.5 ± 7.1 | 2.6 ± 0.3 |
| Claude Opus 4.5 | 49.5 ± 3.1 | 27.5 ± 7.1 | 2.0 ± 0.5 |
| Gemini-2.5-Pro | 55.0 ± 6.0 | 17.5 ± 6.0 | 1.7 ± 0.2 |
| DeepSeek-R1 (open-weight) | 36.4 ± 3.8 | 25.0 ± 6.8 | 1.4 ± 0.5 |
| Qwen2.5-72B-Instruct (base, no memory) | 27.3 | — | — |
| Qwen2.5-32B-Instruct (base, no memory) | 27.3 | — | — |
Несколько наблюдений. Во-первых, 2x–4x улучшение относительно базовой Qwen2.5-32B-Instruct — без изменения весов модели, отвечающих за решение задачи. Во-вторых, AutoMem на 32-миллиардной модели обходит Claude Opus 4.5 на Crafter (57.3 vs 49.5) и MiniHack (40.0 vs 27.5), и в разы превосходит его на NetHack (6.8 vs 2.0). В-третьих, 72-миллиардная версия той же модели без AutoMem показывает те же 27.3% на Crafter — столько же, сколько 32B с AutoMem. Размер модели больше не главное.
Место в ландшафте: как AutoMem соотносится с существующими подходами
Идея external memory для LLM не нова. RAG coupling a retriever with a language model, fetching relevant passages from a document store at inference time; MemGPT pages information in and out of context using OS-inspired memory management; Generative Agents maintain a timestamped memory stream from which they retrieve, reflect, and plan; A-MEM equips LLMs with active decisions on what to retain and forget; MemoryBank maintains a persistent long-term store across sessions; MemLLM trains models to interact with a dedicated read-write memory module; Self-Notes trains models to interleave reasoning with memory tokens — все они работают в одном направлении.
AutoMem отличается от всех по двум ключевым параметрам. Первое: автоматизация оптимизации. Большинство существующих подходов требуют ручного проектирования схемы памяти и правил работы с ней. AutoMem автоматизирует этот процесс через мета-LLM: scaffold пересматривается без human-in-the-loop. Это снимает главный bottleneck — человеческую неспособность отследить полную траекторию длинного эпизода. Второе: разделение на две оси. Структура памяти и качество решений о ней — это не один и тот же навык. Memory skill improves along two axes — structure and proficiency — and AutoMem оптимизирует оба через отдельные циклы.
Почему это переломный результат
До сих пор основным направлением улучшения LLM-агентов были более мощные модели: чем больше параметров, тем лучше агент. Это следует из интуитивной метафоры «больше контекста — больше памяти». AutoMem показывает, что это тупик: модель с 72 миллиардами параметров без оптимизации памяти проигрывает модели с 32 миллиардами параметров с AutoMem. Дело не в размере, а в том, как агент обращается с тем, что уже знает.
Второй важный вывод — концептуальный. Результаты подтверждают метапамять как продуктивную рамку для дизайна LLM-агентов: квалифицированное использование памяти — это не инженерное решение архитектора, а навык, который модель приобретает через практику и обратную связь. Файловое хранилище, scaffold и memory specialist — всё это инструменты, через которые модель учится быть лучшим архивариусом. И как любой навык — память можно тренировать.
Третий вывод — практический. Снижение барьера для open-weight моделей: не нужно frontier-модели, чтобы достичь frontier-результатов на длинных задачах. 32B модель с AutoMem оказывается competitive with frontier systems such as Claude Opus 4.5 and Gemini 3.1 Pro Thinking — при том, что она в разы меньше и полностью открыта.
Ограничения
Текущая версия изучает только эпизодическую память: файловая система обнуляется в начале каждого эпизода. Персистентная память между эпизодами — очевидное направление развития. Эксперименты на играх хорошо подходят для изучения памяти — длинные горизонты, процедурная генерация, богатые требования к управлению информацией — но обобщение на реальные задачи требует отдельной валидации. Для каждой из трёх игр оптимизировался отдельный scaffold и memory specialist — общий оптимизатор для разных окружений остаётся открытым вопросом. Пока не ясно, насколько переносимы learned memory skills между доменами.
Что это значит для практики
AutoMem — пока research-фреймворк, но тренд очевиден. Индустрия постепенно переходит от «больше параметров» к «умнее использование контекста». Memory management как learnable skill — следующий шаг после RAG и MemGPT. Если модель может научиться быть лучше в работе с памятью без изменения её reasoning-ядер, это открывает дорогу специализированным memory-оптимизациям под конкретные домены: coding agents, research assistants, autonomous agents в реальном мире.
Публичный релиз кодовой базы ожидается. Пока же работа — мощный аргумент в пользу того, чтобы перестать мерить интеллект агента числом параметров и начать смотреть на то, как агент распоряжается ограниченным контекстом. В конце концов, настоящая проблема не в том, сколько модель может держать в голове, а в том, умеет ли она решать, что стоит помнить.
Часто задаваемые вопросы
Чем AutoMem отличается от MemGPT?
MemGPT странирует информацию в и из контекста по фиксированным правилам — аналогично виртуальной памяти в ОС. AutoMem идёт дальше: не просто управляет объёмом, а оптимизирует стратегию работы с памятью — что записывать, когда удалять, как структурировать. Это два разных уровня: MemGPT — про объём, AutoMem — про качество решений о памяти. Плюс AutoMem автоматизирует оптимизацию scaffold через мета-LLM, тогда как MemGPT требует ручного проектирования. И MemGPT, и AutoMem используют файловую систему как external memory, но первый делает это по правилам, второй — по стратегии.
Можно ли применить это к существующим моделям без переобучения?
Цикл 1 (оптимизация scaffold) не требует изменения весов — только переработки промптов и схем памяти. Это применимо к любой модели через few-shot prompting с мета-LLM. Цикл 2 требует fine-tuning, но направлен на memory proficiency, а не на основные reasoning-способности. Это существенно дешевле полного fine-tuning и может применяться к уже развёрнутым моделям в production. Однако важно понимать: scaffold, оптимизированный для игр, не переносится напрямую в coding environment или research workflow — домен matters.
Почему NetHack — самый сложный для всех моделей?
NetHack требует долгосрочного планирования и запоминания деталей процедурно-генерируемого мира на тысячи шагов. Даже Claude Opus 4.5 показывает там всего 2.0% progression — хуже, чем AutoMem на Qwen2.5-32B. Это иллюстрирует, почему frontier-модели всё ещё далеки от мастерства на длинных задачах, и почему память — critical bottleneck, а не reasoning. Главное ограничение здесь — не вычислительная мощность, а способность эффективно использовать ограниченное хранилище. Frontier-модели оперируют фиксированным контекстом, и на задачах с horizonte в тысячи шагов даже самый большой контекст — капля в море. AutoMem показывает, что проблема не в размере контекстного окна, а в стратегии.