Задача оптимизации как философия машинного обучения
Сергей Марков, управляющий директор, начальник управления экспериментальных систем машинного обучения в департаменте общих сервисов «Салют», ПАО Сбербанк в подкасте отвечает на вопросы Алексея Михайловича Семихатова и Владимира Георгиевича Сурдина. Был затронут вопрос машинного обучения.
А именно задача распознавания котиков на фотографиях. Цель — создать систему, включающую 10 тысяч фотографий с котиками и без, которые преобразуются в наборы чисел. Задача системы — выдавать 1 для фото с котиком и 0 для фото без котика.
Используются искусственные нейроны для обучения системы на основе примеров. Формула нейрона: F(x0, x1, …, xn) = x0w0 + x1w1 + … + xn*wn, где w — параметры. Задача — подобрать параметры так, чтобы минимизировать ошибку распознавания.
Для этого применяется метод обратного распространения ошибки и методы оптимизации. Процесс происходит в десятитысячемерном пространстве параметров. Оптимизация учитывает форму целевой функции и избегает локальных минимумов. Когда задача машинного обучения сводится к выбору формы функции и оптимизации параметров для минимизации ошибки.
Сергей Марков, доступно излагает фундаментальные принципы, лежащие в основе современных искусственных нейронных сетей. Его объяснение строится на простом примере — задаче бинарной классификации изображений на те, что содержат кота, и те, что не содержат. Однако за этим примером скрывается глубокое методологическое ядро машинного обучения как научной дисциплины. По мнению Маркова, суть процесса обучения машины сводится к двум взаимосвязанным задачам: выбору адекватной математической модели и последующей оптимизации её параметров для минимизации ошибки предсказания.
Иными словами Сергей Марков, раскрывает фундаментальную парадигму современного искусственного интеллекта на примере, казалось бы, простой задачи — распознавания кошек на фотографиях. Где, суть машинного обучения сводится не к явному программированию правил, а к созданию системы, способной самостоятельно найти закономерности в данных и минимизировать свою ошибку через процесс оптимизации в высокоразмерном пространстве параметров.
Анализ высказывания и его связь с научным дискурсом
Изложение Сергея Маркова полностью соответствует принципам научного дискурса. Он последовательно переходит от постановки практической задачи к её формализации, а затем к описанию метода решения, что является стандартом в научном объяснении. Ключевой тезис Маркова заключается в том, что исследователь не программирует систему явными правилами, а создаёт алгоритм, способный самостоятельно найти закономерности в данных. Этот подход, известный как обучение с учителем, является краеугольным камнем современного ИИ.
Он начинает с постановки классической задачи бинарной классификации: создание системы, которая корректно идентифицирует наличие или отсутение объекта на изображении. Ключевой момент, который подчеркивает Марков, — это отказ от «жесткого» задания правил. Вместо этого система должна обучиться на размеченных данных — тысячах примеров, уже разделенных человеком на два класса. Такой подход напрямую перекликается с идеями первых теоретиков искусственного интеллекта. Как утверждал один из пионеров AI, Артур Сэмюэл, машинное обучение — это «область исследований, которая дает компьютерам способность учиться «не будучи явно запрограммированным». Именно этот принцип и лежит в основе примера, приведенного Марковым.
Марков точно описывает процесс преобразования реального объекта (фотографии) в числовой вектор (пиксели), что представляет собой этап извлечения признаков. Далее он вводит понятие «формулы» — функции со множеством параметров (весов), которую необходимо настроить. Важнейшим элементом его объяснения является концепция ошибки и её использование в качестве обратной связи для настройки модели. Описанный им метод обратного распространения ошибки — это не просто алгоритм, а вычислительный фундамент, позволивший нейронным сетям выйти из академического тупика 1970-х годов.
Обьяснение математической формализации задачи. Изображение преобразуется в числовой вектор признаков (пикселей), который подается на вход функции — искусственному нейрону. Как рассматривал это основоположник теории искусственных нейронных сетей Уоррен Мак-Каллок вместе с Уолтером Питтсом, отдельный нейрон является вычислительной единицей, выполняющей взвешенную сумму входов с последующей нелинейной активацией. Именно эта модель, предложенная ими ещё в 1943 году, легла в основу современных глубоких сетей. Формула, которую приводит Марков (F(x) = x0*w0 + x1*w1 + … + xn*wn), является прямой отсылкой к их работе.
Сергей Марков акцентирует внимание на том, что такая функция содержит множество параметров (весов), и цель обучения — найти их оптимальные значения, минимизирующие ошибку на всех примерах. По мнению авторитетных специалистов, по глубокому обучению, эта задача является центральной проблемой ИИ: найти способ эффективно настраивать миллионы и даже миллиарды параметров в сложных моделях. Решение этой проблемы, как отмечает Марков, стало возможным благодаря методу обратного распространения ошибки, который позволяет эффективно вычислять градиент ошибки по всем весам сети.
Идея о том, что обучение — это оптимизация в многомерном пространстве, является центральной. Марков прав, акцентируя внимание на сложности этого процесса: поиск глобального минимума в высокоразмерном пространстве сопряжен с риском застревания в локальных минимумах, для избежания чего и были разработаны утонченные-методы оптимизации с моментом и адаптивным шагом.
Авторитетные мнения и исторический контекст
Фундаментальные идеи, описанные Марковым, имеют глубокие корни в истории науки. Концепция искусственного нейрона, которую он кратко описывает, была впервые математически формализована в 1943 году нейрофизиологом Уорреном Мак-Каллоком и логиком Уолтером Питтсом. Как утверждали Мак-Каллок и Питтс, их работа «Логическое исчисление идей, относящихся к нервной активности» демонстрировала, что сети из упрощенных нейронов способны выполнять любые логические и арифметические вычисления, заложив теоретическую базу для всех последующих разработок в области нейросетей.
Не менее важно упомянуть Фрэнка Розенблатта, создателя перцептрона (1958). По мнению Розенблатта, его устройство было не просто калькулятором, а «первой машиной, способной мыслить так, как мыслит человек». Хотя его утверждения были излишне оптимистичными, он был пионером в создании системы, которая могла «учиться на примерах» с помощью корректировки весов, что прямо соответствует описанию Маркова.
В заключительной части фрагмента автор представляет всю задачу машинного обучения как проблему оптимизации в многомерном пространстве. Процесс обучения — это движение по поверхности функции ошибки в поисках глобального минимума с использованием сложных методов оптимизации, учитывающих инерцию для избежания локальных минимумов. Алан Тьюринг в своем труде «Вычислительные машины и разум» (1950) предвосхитил эту идею, утверждая, что создание «мыслящих машин» будет скорее инженерной задачей по конструированию и настройке сложных обучаемых систем, нежели чисто алгоритмической.
Анализ на соответствие принципам научного дискурса:
Представленное высказывание Сергея Маркова полностью соответствует принципам научного дискурса. Оно:
- Объективно и рационально: Изложение ведется в технически нейтральном ключе, без эмоциональных оценок.
- Основано на эмпиризме: В основе лежит принцип обучения на данных (примерах).
- Структурировано и логично: Аргументация выстроена последовательно: от постановки задачи к ее формализации и методологии решения.
- Использует точную терминологию: Употребляются корректные научные термины — «градиент», «оптимизация», «параметры», «обратное распространение ошибки».
- Верифицируемо: Описанные методы (нейронные сети, обратное распространение) являются общепризнанными и широко применяемыми в научном сообществе и индустрии.
Заключение
Таким образом, на примере задачи о «распознавании котиков» Сергей Марков точно и лаконично описывает основные принципы машинного обучения, которые, будучи подкреплены авторитетом ключевых фигур в истории развития ИИ, представляют собой не просто технический экскурс, а изложение фундаментальной научной парадигмы нашей эпохи.
Это означает что можно, на примере простой задачи о распознавании котов обьяснить универсальные принципы машинного обучения. Высказывание Сергея Маркова является строго научным, последовательным и отражает общепринятую в научном сообществе парадигму. Анализ показывает, что его взгляды находятся в русле идей, высказанных такими авторитетными фигурами, как Мак-Каллок, Питтс, Розенблатт и др. Основной вывод, который следует из объяснения Маркова, заключается в том, что создание искусственного интеллекта — это в большей степени инженерная задача кропотливой оптимизации сложных моделей, нежели попытка буквально воссоздать работу биологического мозга. И успех в этой области зависит от решения двух главных задач: выбора корректной модели и нахождения оптимального пути в фантастически многомерном пространстве её параметров.
© Блог Игоря Ураева

