Закат культа параметров: что на самом деле определяет лидерство в гонке искусственного интеллекта?

Эволюция парадигмы в развитии искусственного интеллекта: от культа параметров к экономике вычислений

В докладе «Искусственный интеллект в эпоху больших языковых моделей» Сергей Марков, управляющий директор Управления экспериментальных систем машинного обучения SberDevices, обсуждает развитие искусственного интеллекта.

«Несколько лет назад в лекциях часто показывали экспоненциальный рост количества параметров моделей. Однако этот показатель не всегда информативен. Можно создать модель с миллиардами параметров, но если она не обучается должным образом, она не будет эффективной.

В 2022 году исследовательская группа DeepMind, которая разработала Chinchilla AI, задалась вопросом: как выбрать оптимальный размер модели, чтобы минимизировать потери? Они построили кривые масштабирования и показали, что топовые модели того времени, такие как языковая модель GPT-3 от OpenAI [с 175 миллиардами параметров] и Pathways Language Model (PaLM) [с 540 миллиардами параметров] от Google AI Research, были недообучены. Это означало, что их нужно было обучать дольше или делать модели меньше.

С появлением Chat GPT и массового инференса трансформеров ситуация изменилась. Теперь при выборе оптимальной точки нужно учитывать не только затраты на обучение, но и все затраты на инференс. Для массовых инференс-моделей нужно делать модели ещё меньше, чтобы сэкономить на вычислениях.

Поэтому сегодня модели, конечно, не такие большие. Но, опять же, сегодня топовые модельки добрались до числа параметров GPT-3, но при этом вычислительные бюджеты на их обучение гораздо больше».

В своем выступлении Сергей Марков, обозначил грандиозный сдвиг в парадигме развития искусственного интеллекта, в частности, больших языковых моделей (LLM). Его ключевой тезис заключается в том, что первоначальная гонка за количество параметров модели сменилась более комплексным подходом, где центральное место занимает оптимизация вычислительного бюджета на всех этапах жизненного цикла модели — от обучения до эксплуатации (инференса). Этот анализ находит отклик и развитие в мнениях ведущих международных экспертов отрасли.

По мнению Ильи Суцкевера, сооснователя и ведущего ученого компании OpenAI, сама по себе масштабность модели не является гарантией ее эффективности. Его работы, как и работы его коллег, были сфокусированы на поиске закономерностей масштабирования, которые предсказывают, как именно увеличение размера модели, объема данных и вычислительных ресурсов влияет на качество результата. Это напрямую перекликается с упомянутыми Марковым исследованиями инженеров DeepMind над моделью Chinchilla, которые показали, что многие флагманские модели прошлого, такие как GPT-3, были «недообучены»: в рамках того же вычислительного бюджета более высокое качество могла бы обеспечить модель с меньшим числом параметров, но обученная на большем объеме данных.

Ведущие эксперты по глубокому обучению, часто предупреждают об экспоненциальном росте затрат на ИИ. Они отмечают, что текущие достижения в значительной степени обусловлены колоссальными вычислительными мощностями, что делает область доступной лишь для узкого круга корпораций и государств. Это наблюдение служит фундаментом для тезиса Маркова о том, что именно вычислительный бюджет, а не абстрактное число параметров, является истинным показателем прогресса и инвестиций в сфере ИИ.

Анализируя высказывание Сергея Маркова на соответствие принципам научного дискурса, следует отметить его высокую степень обоснованности. Утверждение о том, что количество параметров является «бессмысленным показателем» без контекста вычислительного бюджета, подтверждается вышеупомянутым исследованием Chinchilla (2022 г.), которое стало поворотным моментом в индустрии и была широко принята научным сообществом. Выводы этого исследования, опубликованные в рецензируемой статье, демонстрируют, что для заданного бюджета вычислений FLOPs существует оптимальное количество параметров и объем данных для обучения, и что современные на тот момент модели не соответствовали этому оптимуму.

Далее Марков экстраполирует эти данные на новую реальность — экономику инференса. Его гипотеза о необходимости смещения оптимума в сторону еще меньших моделей при планировании массового обслуживания пользователей является логическим развитием идей масштабирования. Хотя это утверждение носит более стратегический и экономический характер, оно базируется на строгих математических и инженерных принципах: большая модель не только дороже в обучении, но и существенно дороже в содержании, требуя гигантских мощностей для каждого запроса. Это подтверждается практикой таких компаний, как OpenAI и Google, которые активно инвестируют в разработку более эффективных и компактных моделей (например, путем дистилляции знаний) для снижения стоимости инференса.

Таким образом, позиция, изложенная Сергеем Марковым, не противоречит текущему научному консенсусу, а скорее аккуратно синтезирует его с практическими экономическими реалиями. Она отражает переход отрасли от чистых исследований к коммерциализации, где на первый план выходит не только производительность, но и совокупная стоимость владения технологией. Как отмечал Сэм Альтман, будущее ИИ будет определяться не столько прорывами в архитектурах моделей, сколько прогрессом в эффективности вычислений и снижении их стоимости. Именно этот комплексный, экономически взвешенный подход, учитывающий полный жизненный цикл системы, и становится новой парадигмой в гонке искусственного интеллекта.


© Блог Игоря Ураева