Обзор курса Google AI Essentials: стоит ли 4 часа за 10 минут
Автор этого видео взял четырёхчасовой курс Google AI Essentials и уместил ключевые идеи в десять минут. Это редкий случай, когда мета-обзор интереснее самого курса — главный вопрос: что именно выживает при 24-кратном сжатии?
Иерархия AI: от физики до чат-бота
Самый неожиданный факт из видео — даже опытные пользователи не знают базовую таксономию. AI — это целое поле науки, наравне с физикой. Machine Learning — подобласть AI, как термодинамика относится к физике. Deep Learning — часть ML. Large Language Models — часть deep learning, и только они стоят на пересечении генеративных моделей и языковых задач, которые обслуживают ChatGPT и Google Bard.
Эта лестница — не академическая формальность. Она объясняет, почему AI-инструменты делают то, что делают. Когда вы понимаете, что ChatGPT — это LLM, а не «какой-то AI», вы начинаете точнее формулировать запросы и понимать ограничения. Без этой таксономии вы не понимаете, почему Midjourney умеет рисовать, но не умеет вести диалог, а ChatGPT наоборот. Без неё вы не можете осмысленно обсуждать с коллегами, какой тип модели выбрать для задачи.
Два типа машинного обучения: с учителем и без
Самый практичный концепт в курсе. Supervised learning работает с размеченными данными: исторические точки показывают сумму чека и размер чаевых, и модель учится предсказывать чаевые для новых заказов — с учётом того, был ли заказ забран или доставлен. Unsupervised learning находит группы в неразмеченных данных: сотрудники с высоким доходом относительно стажа работы образуют отдельный кластер от тех, кто получает мало при большом стаже. Модель сама находит структуру без подсказок, без готовых меток.
Автор приводит живой пример: банк размечает 5% транзакций как мошеннические или нет, а остальные 95% оставляет без меток. Глубокая модель учится на размеченных примерах, а затем применяет знания к оставшимся. Это semi-supervised подход — и он объясняет, почему фрод-детекция работает даже при малом количестве ручной разметки. Банку не нужно размечать все миллионы транзакций — достаточно тысячи примеров. Этот же принцип работает в медицине (разметка рентгеновских снимков), в модерации контента, в любой задаче, где ручная разметка дорогая.
Дискриминативные и генеративные модели: классификация vs создание
Здесь большинство новичков спотыкается. Дискриминативная модель классифицирует: показали картинку — она говорит «кошка» или «собака». Модель учится на метках, и её выход — класс или вероятность. Никакого творчества, никакой генерации новых примеров.
Генеративная модель создаёт новое: она изучает паттерны в данных (две руки, четыре ноги, хвост, лает) и генерирует новую картинку собаки, которой не было в обучающей выборке. Правило из видео: если на выходе число, класс или вероятность — это не генеративный AI. Если на выходе текст, картинка, аудио или видео — это генеративный AI.
Это разделение критически важно для выбора инструмента. Для фильтрации спама нужна дискриминативная модель. Для создания маркетинговых текстов или иллюстраций — генеративная. Если вы пытаетесь использовать ChatGPT для классификации документов, вы используете не тот инструмент не по назначению. Если просите Midjourney написать текст — аналогично.
Типы генеративных моделей: не только текст и картинки
Курс выделяет пять категорий, и три из них новички обычно не рассматривают:
Text-to-text — ChatGPT, Google Bard, Claude. Самый известный класс, но не единственный.
Text-to-image — Midjourney, DALL-E, Stable Diffusion. Генерируют и редактируют изображения по текстовому описанию. Сегодня это основной инструмент для маркетинга, концепт-арта и прототипирования дизайна. Adobe Firefly уже интегрирован в Photoshop.
Text-to-video — Google's Veo, CogVideo, Make-A-Video, Runway. Генерация и монтаж видео по тексту. Эта область быстро догоняет image-генерацию по качеству и уже применяется в рекламе, образовательном контенте и кинопроизводстве.
Text-to-3D — OpenAI Shap-E, Luma AI, Tripo3D. Генерируют 3D-модели из текста. Используется в геймдеве, архитектурной визуализации, промышленном дизайне. Это наименее зрелая, но быстро растущая категория.
Text-to-task — Google Bard, который читает почту и суммирует непрочитанные письма, ChatGPT, который создаёт таблицы в Notion. Модель выполняет конкретное действие, а не генерирует контент.
Последняя категория недооценена: text-to-task модели — это следующий этап развития персональных ассистентов, когда AI не просто отвечает на вопрос, а действует от имени пользователя в Gmail, календаре, таблицах, CRM-системах. Agentic AI — это именно про это.
LLM — это не синоним генеративного AI
Важное уточнение из курса: LLM (Large Language Models) и GenAI — не одно и то же. LLM — это подмножество deep learning, которое специализируется на языковых задачах. Генеративный AI включает модели, которые создают изображения, видео, 3D-объекты. LLM может быть генеративной моделью (если генерирует текст), но не все генеративные модели — LLM.
Понимание этого различия объясняет, почему ChatGPT хорош в тексте, но не умеет рисовать, а Midjourney наоборот. Это также объясняет, почему open-source модели вроде LLaMA фокусируются на языковых задачах, а не на мультимодальности, и почему GPT-4o с Vision — это гибрид, а не чистая LLM.
Предобучение и дообучение: собака-пример
Самый понятный пример в курсе. Представьте собаку, которая знает базовые команды: сидеть, лежать, место. Это предобученная модель — общие навыки, решает типичные языковые задачи: классификация текста, ответы на вопросы, суммаризация документов, генерация текста.
Когда та же собака становится полицейской, поводырём или охотничьей — это fine-tuning (дообучение). Собака получает специализированные данные и адаптируется под конкретную область. То же происходит с LLM: медицинская модель дообучается на медицинских текстах, финансовая — на отчётах и новостях, юридическая — на документах и прецедентах.
Практический вывод: компании берут предобученные LLM от больших корпораций и дообучают на своих данных. Большие корпорации тратят миллиарды на предобучение, а маленькие клиники и банки платят за доступ и дообучение на своих специфичных данных. Это модель дистрибуции AI-возможностей, которая уже формирует рынок: AWS, Google Cloud, Microsoft Azure продают доступ к предобученным моделям с возможностью fine-tuning. Amazon Bedrock, Google Vertex AI, Azure OpenAI Service — это всё про это.
Что выживает при 24-кратном сжатии
Видео — хороший ускоряющий курс, но оно не может заменить интерактивные элементы курса: проверочные тесты (нужно 80% для прохождения), практические задания, возможность пересмотреть конкретный модуль. Курс обещает пять модулей и бейдж за каждый пройденный. Бейджи — это геймификация, которая мотивирует дойти до конца.
Курс также не показывает, как именно формулировать промпты — а это главный практический навык. Автор справедливо отправляет зрителей к отдельному видео про промптинг. Без понимания zero-shot, few-shot и chain-of-thought промптинга курс даёт только теорию, но не практику. Промптинг — это отдельная дисциплина, и один курс по AI Fundamentals не может покрыть всё.
Кому подойдёт, а кому — нет
Подойдёт: тем, кто хочет понять ландшафт AI-терминологии за один вечер, разработчикам смежных специальностей, которые сталкиваются с AI в работе, но не программируют модели напрямую, менеджерам и маркетологам, которым нужно разговаривать с техническими командами на одном языке.
Не подойдёт: тем, кто уже работает с AI-инструментами и понимает разницу между LLM и GAN, кто ищет практические навыки промптинга, кто хочет глубоко разобраться в архитектуре трансформеров — для этого нужны другие ресурсы, более технические и более длинные.
Бесплатно или за деньги?
Курс Google AI Essentials доступен бесплатно через Coursera при наличии учётной записи Google. При желании можно получить сертификат за дополнительную плату — это может быть полезно для резюме, особенно в контексте трудоустройства на позиции, связанные с AI-проектами. Сертификат от Google — это не просто строчка в резюме, это понимание того, как компания-разработчик инструментов видит рынок.
Главная техническая рекомендация из видео: используйте видеоплеер, который позволяет копировать URL в текущей временной точке — это упрощает навигацию при повторном просмотре отдельных модулей. Это мелочь, но экономит время при работе с длинным курсом.
Четыре часа оригинала сжались в десять минут — и это правильный формат для знакомства с ландшафтом. Но для реального использования нужны дополнительные ресурсы: практика промптинга, понимание архитектуры конкретных моделей, и опыт работы с инструментами. Курс даёт карту — идти по ней каждый должен сам.
Почему эта таксономия важна уже сейчас
Понимание иерархии AI → ML → DL → LLM — это не академическая игра. Это практический фильтр для принятия решений. Когда вы знаете, что Midjourney — это дискриминативная модель, вы не будете пытаться использовать её для текстовых задач. Когда вы знаете, что fine-tuning — это специализация уже обученной модели, вы поймёте, почему медицинские AI-системы не работают на общих данных и требуют дообучения на специфичных датасетах.
Курс не делает вас инженером. Но он даёт достаточно контекста, чтобы задавать правильные вопросы при найме AI-специалистов, при выборе инструментов для проекта, при оценке предложений от вендоров. Это критический навык для любого продуктового менеджера, маркетолога или операционного директора в 2026 году.
Когда я смотрю на предложения от AI-стартапов, я всегда спрашиваю: это supervised или unsupervised? Какая модель используется под капотом? Был ли fine-tuning на специфичных данных? Эти вопросы выявляют, понимает ли вендор предметную область или просто продаёт модный термин. Google AI Essentials — хорошая база для того, чтобы задавать такие вопросы осмысленно.