Сколько стоит дообучить LLM?
Категория:  ИИ
Дата:  
Автор:  Команда SmartSeven

Сегодня мы поговорим о деньгах в мире ИИ. Пока одни компании тратят на обучение нейросетей бюджеты, сопоставимые с ВВП небольших стран, другие находят способы получить передовые технологии за гораздо меньшие деньги. Давайте разберемся, сколько стоит «воспитать» LLM с нуля и во что обойдется «дообучение» уже готовой модели.

Гонка на миллиарды: экспоненциальный рост затрат

Стоимость обучения передовых LLM растет по экспоненте, удваиваясь примерно каждые 9 месяцев. Если в 2017 году обучение трансформера стоило менее $1 тыс., то сегодня мы видим совершенно другие цифры:

  • GPT-3 (2020): $4,3 млн
  • GPT-4 (2023): $80 млн
  • Grok-2 (2024): $107 млн
  • Llama 3.1-405B (2024): $170 млн (с оценками до $650 млн, включая доп. оборудование)
  • Gemini 1.0 Ultra (2023): $192 млн

Прогноз от CEO Anthropic Дарио Амодея звучит еще более ошеломляюще: к 2027-2028 годам стоимость обучения флагманских моделей может достигнуть $100 млрд.

Из чего складывается цена?

Основной вклад в стоимость вносят:

✔️ Аренда GPU/TPU: 40–50% бюджета. Для обучения GPT-4 потребовалось около 8 тыс. чипов NVIDIA H100 на 3 месяца. Для будущего GPT-5, по оценкам, понадобится уже не менее 50 тыс. таких ускорителей.

✔️ Обработка и подготовка данных: 15–20%

✔️ Персонал и инженеры: 10–15%

✔️ Электроэнергия и охлаждение: 10–15%

Ключевые технические факторы, влияющие на цену, — это количество параметров модели и размер контекстного окна. Механизм внимания масштабируется квадратично: увеличение контекста в 8 раз приводит к росту стоимости вычислений примерно в 64 раза.

Запад vs. Восток: разные стратегии

На фоне американских гигантов китайские компании демонстрируют иной подход, делая ставку на алгоритмическую эффективность:

  • Qwen 2.5-Max (Alibaba): Стоимость обучения оценивается в $12–20 млн. Благодаря архитектуре Mixture-of-Experts (MoE), вычислительные затраты снижены на 30% по сравнению с монолитными моделями.

  • DeepSeek V3: Заявленная стоимость в $6 млн вызвала споры в сообществе, подчеркнув проблему непрозрачности в отчетности о затратах на обучение LLM.

Спасение для остальных — fine-tuning (тонкая настройка)

Полный цикл обучения с нуля — удел корпораций. Но для решения прикладных задач существует гораздо более доступный путь — дообучение готовых open-source моделей. Это в 100-1000-1 000 000 раз дешевле.

Примеры стоимости дообучения:

  • Llama 3 8B (LoRA адаптация): $500–$1500

  • Llama 3 70B (полное дообучение): $10 000–$30 000

Сверхбюджетный вариант: В июне 2024 года эксперты смогли дообучить Mistral 7B всего за 4 часа, потратив менее $10 на вычисления (на одном GPU NVIDIA A10G).

Итоговая цена зависит от размера модели, объема ваших данных и выбранного алгоритма настройки.

Вывод

Создать свою GPT-5 в гараже не получится. Но дообучить мощную open-source модель под ваши уникальные задачи — более чем реально. Учитывая, что час аренды передового чипа H100 стоит около $10, кастомизация ИИ становится доступной практически для любой компании или даже энтузиаста.

Так что, возможно, на собственный LLM накопить проще, чем на обучение ребенка в престижном вузе.