
Сегодня мы поговорим о деньгах в мире ИИ. Пока одни компании тратят на обучение нейросетей бюджеты, сопоставимые с ВВП небольших стран, другие находят способы получить передовые технологии за гораздо меньшие деньги. Давайте разберемся, сколько стоит «воспитать» LLM с нуля и во что обойдется «дообучение» уже готовой модели.
Гонка на миллиарды: экспоненциальный рост затрат
Стоимость обучения передовых LLM растет по экспоненте, удваиваясь примерно каждые 9 месяцев. Если в 2017 году обучение трансформера стоило менее $1 тыс., то сегодня мы видим совершенно другие цифры:
- GPT-3 (2020): $4,3 млн
- GPT-4 (2023): $80 млн
- Grok-2 (2024): $107 млн
- Llama 3.1-405B (2024): $170 млн (с оценками до $650 млн, включая доп. оборудование)
- Gemini 1.0 Ultra (2023): $192 млн
Прогноз от CEO Anthropic Дарио Амодея звучит еще более ошеломляюще: к 2027-2028 годам стоимость обучения флагманских моделей может достигнуть $100 млрд.
Из чего складывается цена?
Основной вклад в стоимость вносят:
✔️ Аренда GPU/TPU: 40–50% бюджета. Для обучения GPT-4 потребовалось около 8 тыс. чипов NVIDIA H100 на 3 месяца. Для будущего GPT-5, по оценкам, понадобится уже не менее 50 тыс. таких ускорителей.
✔️ Обработка и подготовка данных: 15–20%
✔️ Персонал и инженеры: 10–15%
✔️ Электроэнергия и охлаждение: 10–15%
Ключевые технические факторы, влияющие на цену, — это количество параметров модели и размер контекстного окна. Механизм внимания масштабируется квадратично: увеличение контекста в 8 раз приводит к росту стоимости вычислений примерно в 64 раза.
Запад vs. Восток: разные стратегии
На фоне американских гигантов китайские компании демонстрируют иной подход, делая ставку на алгоритмическую эффективность:
-
Qwen 2.5-Max (Alibaba): Стоимость обучения оценивается в $12–20 млн. Благодаря архитектуре Mixture-of-Experts (MoE), вычислительные затраты снижены на 30% по сравнению с монолитными моделями.
-
DeepSeek V3: Заявленная стоимость в $6 млн вызвала споры в сообществе, подчеркнув проблему непрозрачности в отчетности о затратах на обучение LLM.
Спасение для остальных — fine-tuning (тонкая настройка)
Полный цикл обучения с нуля — удел корпораций. Но для решения прикладных задач существует гораздо более доступный путь — дообучение готовых open-source моделей. Это в 100-1000-1 000 000 раз дешевле.
Примеры стоимости дообучения:
-
Llama 3 8B (LoRA адаптация): $500–$1500
-
Llama 3 70B (полное дообучение): $10 000–$30 000
Сверхбюджетный вариант: В июне 2024 года эксперты смогли дообучить Mistral 7B всего за 4 часа, потратив менее $10 на вычисления (на одном GPU NVIDIA A10G).
Итоговая цена зависит от размера модели, объема ваших данных и выбранного алгоритма настройки.
Вывод
Создать свою GPT-5 в гараже не получится. Но дообучить мощную open-source модель под ваши уникальные задачи — более чем реально. Учитывая, что час аренды передового чипа H100 стоит около $10, кастомизация ИИ становится доступной практически для любой компании или даже энтузиаста.
Так что, возможно, на собственный LLM накопить проще, чем на обучение ребенка в престижном вузе.