
Ранее мы уже писали о мыслящих нейросетях. Если вкратце, то работает это следующим образом: в ответ на вопрос пользователя модель формирует цепочку рассуждений (Chain-of-Thought, CoT): сначала одно предположение, затем следующее, и в итоге выводит итоговый ответ. На первый взгляд это может выглядеть как осмысленный процесс мышления, близкий к человеческому.
Но вот что выяснили авторы статьи Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens из Университета Аризоны: часто эта “цепочка размышлений” — просто красиво выглядящая иллюзия, которая рушится, стоит чуть выйти за рамки того, что модель уже “видела” во время тренировки.
Что вообще такое “распределение данных” и “сдвиг”
Распределение данных — это просто совокупность примеров, на которых модель училась. Если тебе показывали много примеров определённого типа, модель будет в них “хорошо ориентироваться”. Сдвиг (distribution shift) — это когда на практике встречаются примеры, которые отличаются от тех, на которых модель обучалась: другой формат, другая сложность, другой “рецепт” рассуждений.
Какие “границы” CoT выявили
Исследование провели в специально контролируемой среде (называется DataAlchemy) — обучили модели “с нуля”, чтобы точно понимать, что к чему, без “наследства” из огромных наборов данных.
Проверили три параметра:
- Задача (task): если задача новая, с иными правилами — CoT начинает “спотыкаться”.
- Длина рассуждений (length): если просят рассуждать дольше или короче, чем модель привыкла — начинаются ошибки.
- Формат (format): если изменить только “обёртку” запроса, поменять слова-подсказки, чуть изменить структуру — производительность падает.
Вывод ученых из Аризоны: когда запрос похож на то, что было в обучении — CoT работает хорошо. Если чуть-чуть отклониться — всё трещит по швам.
Что думают об этом другие ученые
К похожим выводам пришёл и Yann LeCun, один из “крестных отцов ИИ”. В интервью он сказал, что большие языковые модели (LLM) всё больше подходят к пределу своих возможностей. Они хорошо справляются с тем, что уже “видели”, что шаблонно, где контекст совпадает, но как только требуется обобщение, планирование, предвидение — они начинают сдавать.
LeCun считает, что CoT-размышления — лишь одна из уловок: статистический “эхо-иллюзия” (то есть моделям кажется, что они рассуждают, но на деле они просто тянут из памяти похожие фрагменты, комбинируют вероятности). Он говорит, что настоящего понимания нет без “модели мира” — абстракций, которые позволяют не просто реагировать на слова, но представлять, как устроен мир, и делать прогнозы (“что будет, если...”).
По его прогнозу, лет через пять LLM в их нынешнем виде могут начать уступать место более “мировым”, более абстрактным системам, которые опираются не только на текст, но и на “зрительное”, сенсорное, динамическое восприятие, на опыт (движение, визуальный ввод и т.д.). При этом важно, чтобы эти системы имели “охранные границы” (guardrails), чтобы не сбиться с курса, и цели, которые не просто статистически вероятны, а осмысленны.
Так что если “цепочка мыслей” сейчас — как эффектное шоу фокусника, то LeCun говорит: шоу приятно смотреть, но чтобы серьёзно понять, что происходит за кулисами, нужно что-то более фундаментальное.
А что насчёт практики?
Если вы используете CoT, имейте в виду:
- Не стоит принимать цепочку рассуждений как доказательство, что модель “понимает”. Иногда она просто “слишком хорошо подмечает” шаблоны.
- Для новых задач, где нет похожих примеров — CoT может обмануть: рассуждения будут звучать логично, но ответ окажется неправильным.
- Чтобы повысить надёжность, нужно либо дообучать модель на похожих примерах (с аналогичными задачами / форматами / длинами), либо проектировать запросы (промпты) так, чтобы они были ближе к тому, что модель уже видела.
Не «мыслящий», а «декомпозирующий» ИИ?
Да, в научных кругах много критики: модели не рассуждают как люди, не понимают мир, а просто ловко подбирают паттерны. Но парадокс в том, что эти же модели сейчас показывают прорывные результаты в задачах, где раньше даже топовые ИИ пасовали.
В математике прогресс просто безумный: модели нового поколения показывают рост точности в 3–6 раз. На сложнейшем экзамене AIME GPT-4o еле-еле набирает 12%, а свежая модель OpenAI o1 — уже 74% с первой попытки.
В спортивном программировании картина такая же драматичная: GPT-4o плетётся на уровне 23-го перцентиля на Codeforces — примерно как новичок, — а DeepSeek R1 и OpenAI o1 сразу взлетают в 96-й перцентиль, то есть в элиту.
В научных задачах вообще фантастика: в тесте GPQA модель OpenAI o1 впервые обогнала экспертов-людей.
Получается любопытная ситуация. С одной стороны, ИИ явно не «мыслят», как человек, а всего лишь мастерски воспроизводят шаблоны. С другой — они уже умеют решать невероятно сложные задачи, просто потому что у них есть суперсила: декомпозиция.
Эти модели не открывают новые истины о мире, а превращают большую, запутанную проблему в цепочку маленьких и понятных шагов, а затем последовательно их решают.
Возможно, мы зря называем их reasoning-моделями. Более честно было бы назвать их «декомпозирующими сетями» — потому что именно это у них получается по-настоящему блестяще.
Напоследок
Но вот в чём загвоздка: такие мощные модели, как o1, — штука дорогая и медленная. В простых сценариях — вроде классификации текста или ответов на вопросы по общим знаниям — никакого роста нет. Например, o1 в шесть раз дороже и в тридцать раз медленнее, чем GPT-4o. То есть использовать такие модели повсюду пока невыгодно.
Поэтому ключ к эффективности — правильный выбор модели под конкретную задачу. Например, GPT-5 уже сама умеет определять, какую модель подключить: быструю и дешёвую — для простых операций, или продвинутую — для задач, где нужен глубокий анализ и разбиение на шаги. Такой подход называется mixture of experts — смесь специалистов, где каждый “эксперт” работает только там, где он действительно силён.
Если вы делаете ИИ-ассистента, который должен решать и простые, и сложные задачи, важно правильно “приготовить” такую архитектуру. А если не уверены, как это сделать — обращайтесь к нам, мы знаем, как смешивать эти ингредиенты так, чтобы ассистент работал быстро, точно и эффективно.