Google AI Course за 10 минут: что на самом деле стоит знать

Четыре часа видео — это много или мало? Для глубокого погружения в машинное обучение — капля в море. Для знакомства с основами — уже прилично. На YouTube появилась 10-минутная переработка курса Google AI Essentials, и если вы думаете, что за это время невозможно уложить хоть что-то полезное — эта статья для вас.

Я посмотрел видео, потому что мне было интересно, какой минимум Google считает достаточным для "понимания AI". Оказалось — есть что взять не только новичкам, но и практикам, которые работают с языковыми моделями и хотят уложить интуитивное понимание в систему.

Таксономия: ИИ, ML, DL и LLM — где что живёт

Видео начинается с вопроса, который звучит тривиально, но ставит в тупик даже опытных специалистов: чем отличается искусственный интеллект от машинного обучения? Ответ оказался неожиданным.

Искусственный интеллект — это вся область, целое поле исследований, сравнимое с физикой. Машинное обучение — подраздел ИИ, точно так же как термодинамика — подраздел физики. Двигаемся глубже: глубокое обучение — подмножество машинного обучения. И уже внутри глубокого обучения появляются дискриминативные и генеративные модели, а большие языковые модели (LLM) — отдельный класс, расположенный на пересечении генеративного обучения и языковых задач.

Эта вертикаль — AI → ML → DL → генеративные модели → LLM — встречается практически в любом техническом объяснении, но именно её отсутствие в голове создаёт путаницу, когда вы читаете статью об LLM и не можете понять, почему автор постоянно ссылается на "глубокое обучение". Это не синонимы, а вложенные множества. LLM — всегда глубокое обучение, но глубокое обучение — не всегда LLM. GPT, Claude, Gemini построены на трансформерах, которые относятся к архитектурам глубокого обучения, но существуют и глубокие нейросети, не порождающие текст — например, модели для классификации изображений или распознавания речи.

Supervised vs Unsupervised: размеченные и неразмеченные данные

После таксономии курс переходит к практической классификации алгоритмов машинного обучения. Первый критерий — наличие разметки.

Supervised learning (контролируемое обучение) работает с размеченными данными: вы показываете модели пары "вход — правильный ответ", и она учится воспроизводить паттерн. Данные уже промаркированы человеком, и модель на этом массиве "видит" связь между входом и выходом. Когда вы обучаете модель отличать спам от нормальных писем, вы даёте ей тысячи примеров, где каждое письмо уже имеет метку "спам" или "не спам". Модель находит закономерности и применяет их к новым письмам.

Unsupervised learning (неконтролируемое) получает сырые данные без меток и самостоятельно ищет в них группы и структуры. Модель не знает заранее, какие категории существуют — она выявляет их сама.

Пример из видео: представьте базу данных ресторана, где каждый заказ содержит сумму чека, размер чаевых и статус доставки (забрали сами или курьер привёз). Если вы пометите каждую точку цветом (синий — самовывоз, жёлтый — доставка), supervised-модель сможет предсказывать размер чаевых для нового заказа на основе чека и способа получения. Она видит паттерн и экстраполирует его на новые данные. На вопрос "сколько дадут чаевых при заказе на 45 долларов с доставкой?" модель ответит на основе того, что она видела в исторических данных.

Unsupervised-модель получает ту же таблицу, но без меток. Она смотрит на данные и обнаруживает, что точки естественным образом группируются: здесь сотрудники с высоким доходом относительно стажа, там — с низким. Модель не знает, что это означает, но видит структуру. Это позволяет решать задачи категоризации без предварительной разметки — достаточно просто спросить: "новый сотрудник ближе к группе A или группе B?"

Ключевое отличие, которое видео подчёркивает: supervised-модель после предсказания сверяется с обучающей выборкой и пытается уменьшить разрыв между предсказанием и реальным значением (этот процесс называется gradient descent — спуск по градиенту). Unsupervised-модель не делает этого "вниз по стеку" — она только находит группы, но не оценивает правильность своего разделения. Именно поэтому unsupervised задачи сложнее валидировать: у вас нет заранее известного "правильного ответа", с которым можно сравнить результат.

Semi-supervised learning: как банки ловят мошенников

Одна из самых практичных частей видео — объяснение semi-supervised learning. Это гибридный подход, где модель обучается на небольшом количестве размеченных данных и большом объёме неразмеченных. Зачем это нужно?

Банк хочет обнаруживать мошеннические транзакции. Разметить все транзакции вручную невозможно — их миллионы в день. Но 5% транзакций можно пометить: вот эти точно мошеннические, вот эти точно легитимные. Модель изучает базовые паттерны на этих 5%, а затем применяет их ко всем 95% неразмеченных транзакций. Это называется "self-training" или "pseudo-labeling" — модель генерирует метки для данных, которые никто не размечал, а затем учится на всём массиве.

Результат: банк получает модель, работающую на всех данных, хотя размеченных было меньшинство. Это экономит огромное количество ручного труда и позволяет обучать модели на реальных, а не синтетических данных. Проблема в том, что если начальные 5% разметки содержат систематическую ошибку (например, мошенники уже научились обходить эти паттерны), то модель будет распространять эту ошибку на все 95%.

Этот же принцип работает в языковых моделях: GPT и Claude обучаются на текстах из интернета, где подавляющее большинство слов не имеют никаких меток. Модель учится предсказывать следующее слово, и это обучение не требует разметки — только массив текста. Именно поэтому масштаб данных так важен: чем больше текста модель видит, тем лучше она понимает структуру языка.

Исторически именно прорыв в semi-supervised learning в 2010-х позволил индустрии перейти от узкоспециализированных моделей к универсальным. Раньше каждая задача требовала отдельного набора размеченных данных и отдельной модели. Появление возможности использовать неразмеченные данные в масштабе радикально снизило стоимость и время разработки.

Нейросети и глубокое обучение

Видео объясняет глубокое обучение через его биологическую метафору: искусственные нейронные сети вдохновлены устройством человеческого мозга — слои нейронов, связанных между собой. Каждый нейрон получает входные данные, выполняет над ними простое вычисление и передаёт результат дальше. Чем больше слоёв, тем "глубже" сеть и тем более абстрактные паттерны она способна улавливать.

На первом слое нейросеть может обнаруживать простые формы — края и границы. На втором — комбинации этих краёв в более сложные структуры. На третьем — уже целые объекты. Именно эта иерархия абстракций позволяет глубоким нейросетям делать то, что не под силу классическим алгоритмам: распознавать лица, понимать речь, переводить текст.

Ключевое свойство нейросетей, которое видео подчёркивает особо: возможность обучаться на смеси размеченных и неразмеченных данных (semi-supervised). Это снимает главное ограничение supervised learning — потребность в больших объёмах ручной разметки. Именно благодаря этому глубокое обучение масштабируется: чем больше данных вы собираете, тем точнее модель, даже если размечать вручную физически невозможно.

Дискриминативные и генеративные модели

Финальный уровень таксономии в видео — разделение моделей на дискриминативные и генеративные. Дискриминативные модели классифицируют: определяют, к какой категории относится вход. Генеративные модели создают: синтезируют новые данные, похожие на те, на которых обучались.

ChatGPT и Claude — генеративные модели. Они создают текст, которого не существовало до этого. Midjourney и DALL-E создают изображения. GPT-4o умеет генерировать и текст, и изображения. Все они обучаются на массивах данных и затем воспроизводят паттерны в новых комбинациях.

Модель, которая определяет тональность отзыва (позитивный или негативный) — дискриминативная. Она не создаёт новый отзыв, а классифицирует существующий. Модель, которая предсказывает стоимость недвижимости по характеристикам — тоже дискриминативная. И та, и другая могут быть построены на глубоком обучении, но решают принципиально разные задачи.

Где LLM в этой картине

Большие языковые модели — это генеративные модели, построенные на архитектуре трансформер (transformer), которая является разновидностью глубокого обучения. Они обучаются на текстах из интернета и способны порождать новый текст, похожий на тот, что видели в процессе обучения.

То, что отличает LLM от более ранних генеративных моделей — масштаб и способность к few-shot обучению. LLM могут обучаться новым задачам (перевод, суммаризация, ответы на вопросы) без отдельного fine-tuning, просто получая несколько примеров в промпте. Это свойство называется "in-context learning" — и именно оно делает языковые модели такими гибкими в практическом использовании. Вам не нужно переобучать модель для каждой новой задачи; достаточно сформулировать задачу в тексте и приложить несколько примеров.

Что из этого стоит вашего времени

Десятиминутное видео — не замена курсу Google. Это его обзорная карта. После просмотра вы будете понимать, где находится ваш текущий уровень знаний относительно общей структуры, и сможете выбрать, куда копать глубже.

Для человека без технического бэкграунда, который хочет понять, о чём вообще речь в разговорах об AI, — это хорошая стартовая точка. Видео даёт работающие примеры (ресторан, банк, сотрудники), которые остаются в голове.

Для практика, который уже работает с ChatGPT и хочет систематизировать интуитивное понимание, — видео даст несколько недостающих связок. Особенно полезно понимание semi-supervised learning: именно на этом принципе основана работа с большими массивами неразмеченных данных, которые иначе пришлось бы размечать вручную.

Четыре часа оригинального курса Google AI Essentials стоят того, если вы планируете глубоко разбираться в ML. Там есть интерактивные упражнения, более подробные объяснения и возможность задавать вопросы. Десятиминутная версия — для тех, кому достаточно общей картины и работающих примеров, а не формул и кода.

Итог

Главная ценность этого видео — последовательная таксономия AI → ML → DL → LLM и три работающих примера (ресторанные чаевые, группировка сотрудников, банковское мошенничество), которые объясняют разницу между supervised, unsupervised и semi-supervised обучением без единой формулы. Если вы давно хотели уложить эти концепции в голову раз и навсегда — 10 минут потрачены не зря.

← Все записи
← Все записи