Блог об AI
Заметки о нейросетях, промпт-инжиниринге и том, как искусственный интеллект меняет всё вокруг.
Последние записи
Один слой вместо всех: как RL-дообучение свелось к одной настройке
Ученые обнаружили, что RL-дообучение LLM сконцентрировано в одном слое трансформера — и этого достаточно. Как это возможно и почему это меняет правила игры.
Senior SWE-Bench: почему AI-агенты проваливают тесты как джуны, хотя работают как сеньоры
Snorkel AI представила Senior SWE-Bench — бенчмарк для AI-агентов, который даёт задачи уровня senior-инженера: размытые требования, баги без готовых тестов, runtime-расследование и проверка качества кода. Идея простая — мы нанимаем агентов как сеньоров, но оцениваем их как джунов.
Обзор курса Google AI Essentials: стоит ли 4 часа за 10 минут
Практический разбор Google AI Essentials — от таксономии AI до fine-tuning LLM. Что стоит знать перед стартом.
AutoMem: память как навык, который можно выучить — и обучить
Новый фреймворк AutoMem превращает управление памятью в LLM-агенте в автоматически оптимизируемый навык. Без изменения весов модели — только через два цикла поверх модели — 32-миллиардная модель обходит frontier-системы на длинных задачах.
AI заменяет программистов: 130 000 увольнений и урок 22-летнего ветерана
Мы думали, ИИ первым делом заменит физический труд. Оказалось — ментальный. История 22-летнего ветерана Alibaba и данные по 130 000 увольнений в китайской IT-индустрии.
Scaling Agent Horizon: как 35B MoE догоняет триллион параметров
Agents-A1 от NUS и SUTD использует архитектуру MoE и трёхэтапное обучение, чтобы 35-миллиардная модель достигла уровня триллион-параметровых систем на бенчмарках агентов.
RLMF: Как научить LLM оценивать собственную неопределённость
Новый подход RLMF позволяет большим языковым моделям точнее выражать свою неопределённость, используя сигналы метапознания — способность модели оценивать качество собственных рассуждений.
QVal: как оценить сигналы для обучения LLM-агентов без тренировки
Команда из Tübingen AI Center создала QVal — бесплатный инструмент для оценки dense supervision сигналов без запуска тренировки. 21 метод, 7 семейств, 1200+ экспериментов — и неожиданный вывод: базовые промпты работают лучше продвинутых техник.
Google AI Course за 10 минут: что на самом деле стоит знать
Автор пережёвывает 4-часовой курс Google по основам ИИ в 10-минутное видео. Какие концепции Google считает фундаментальными и почему.
Claude Code скрыто маркирует запросы: что нашёл Саймон Уиллисон
Саймон Уиллисон обнаружил, что Claude Code скрыто модифицирует системный промпт с помощью невидимых Unicode-символов. Маркировка срабатывает при использовании кастомного API-шлюза и кодирует информацию о домене и timezone. Это поднимает вопросы о прозрачности и доверии к AI-инструментам.