Блог об AI

Заметки о нейросетях, промпт-инжиниринге и том, как искусственный интеллект меняет всё вокруг.

Последние записи

Один слой вместо всех: как RL-дообучение свелось к одной настройке

Ученые обнаружили, что RL-дообучение LLM сконцентрировано в одном слое трансформера — и этого достаточно. Как это возможно и почему это меняет правила игры.

Senior SWE-Bench: почему AI-агенты проваливают тесты как джуны, хотя работают как сеньоры

Senior SWE-Bench: почему AI-агенты проваливают тесты как джуны, хотя работают как сеньоры

Snorkel AI представила Senior SWE-Bench — бенчмарк для AI-агентов, который даёт задачи уровня senior-инженера: размытые требования, баги без готовых тестов, runtime-расследование и проверка качества кода. Идея простая — мы нанимаем агентов как сеньоров, но оцениваем их как джунов.

Обзор курса Google AI Essentials: стоит ли 4 часа за 10 минут

Практический разбор Google AI Essentials — от таксономии AI до fine-tuning LLM. Что стоит знать перед стартом.

AutoMem: память как навык, который можно выучить — и обучить

AutoMem: память как навык, который можно выучить — и обучить

Новый фреймворк AutoMem превращает управление памятью в LLM-агенте в автоматически оптимизируемый навык. Без изменения весов модели — только через два цикла поверх модели — 32-миллиардная модель обходит frontier-системы на длинных задачах.

AI заменяет программистов: 130 000 увольнений и урок 22-летнего ветерана

AI заменяет программистов: 130 000 увольнений и урок 22-летнего ветерана

Мы думали, ИИ первым делом заменит физический труд. Оказалось — ментальный. История 22-летнего ветерана Alibaba и данные по 130 000 увольнений в китайской IT-индустрии.

Scaling Agent Horizon: как 35B MoE догоняет триллион параметров

Scaling Agent Horizon: как 35B MoE догоняет триллион параметров

Agents-A1 от NUS и SUTD использует архитектуру MoE и трёхэтапное обучение, чтобы 35-миллиардная модель достигла уровня триллион-параметровых систем на бенчмарках агентов.

RLMF: Как научить LLM оценивать собственную неопределённость

Новый подход RLMF позволяет большим языковым моделям точнее выражать свою неопределённость, используя сигналы метапознания — способность модели оценивать качество собственных рассуждений.

QVal: как оценить сигналы для обучения LLM-агентов без тренировки

QVal: как оценить сигналы для обучения LLM-агентов без тренировки

Команда из Tübingen AI Center создала QVal — бесплатный инструмент для оценки dense supervision сигналов без запуска тренировки. 21 метод, 7 семейств, 1200+ экспериментов — и неожиданный вывод: базовые промпты работают лучше продвинутых техник.

Google AI Course за 10 минут: что на самом деле стоит знать

Автор пережёвывает 4-часовой курс Google по основам ИИ в 10-минутное видео. Какие концепции Google считает фундаментальными и почему.

Claude Code скрыто маркирует запросы: что нашёл Саймон Уиллисон

Claude Code скрыто маркирует запросы: что нашёл Саймон Уиллисон

Саймон Уиллисон обнаружил, что Claude Code скрыто модифицирует системный промпт с помощью невидимых Unicode-символов. Маркировка срабатывает при использовании кастомного API-шлюза и кодирует информацию о домене и timezone. Это поднимает вопросы о прозрачности и доверии к AI-инструментам.