3,583 papers
arXiv:2605.04488 74 6 мая 2026 г. FREE

Режим «думать» меняет обоснование, но не решение: что на самом деле делает thinking mode в LLM

КЛЮЧЕВАЯ СУТЬ
Парадокс: включаешь thinking mode — модель пишет три абзаца про ответственность, долгосрочные последствия и принципы. Но финальная рекомендация та же, что была бы без единого токена рассуждений. Эксперимент на пяти топовых моделях зафиксировал: смена итогового «да/нет» происходит в 1–9% случаев, а смена этической рамки обоснования — в 9–19%. Thinking mode меняет упаковку вдвое чаще, чем само решение. Понимание этого позволяет не тратить токены там, где reasoning бесполезен, и использовать его там, где он реально работает. Модель работает как адвокат, а не судья — позиция выбрана заранее, дальше идёт подбор аргументов. Развёрнутое рассуждение по-настоящему спорного вопроса — не признак правильности. Это хорошо оформленная точка зрения с заранее зашитыми ценностными настройками.
Адаптировать под запрос

TL;DR

Когда ты включаешь thinking mode (расширенное мышление в Claude, reasoning в других моделях), модель почти всегда выдаёт тот же финальный ответ — но меняет этическую рамку, которой объясняет решение. Проще говоря: модель переписывает обоснование, а не пересматривает вывод. Это не баг — это фундаментальное свойство того, как LLM работают с ценностными и моральными суждениями.

Главная находка: есть два типа вопросов. На «простых» (есть очевидный ответ) все пять топовых моделей согласны и thinking mode ничего не меняет. На «спорных» (философски contested) модели в обычном режиме расходятся на уровне случайного угадывания — reasoning помогает, но незначительно. Это означает: если LLM долго думает и даёт развёрнутое обоснование на по-настоящему спорный вопрос — это не признак правильности ответа. Это признак того, что правильного ответа нет.

Thinking mode при этом делает кое-что полезное: выравнивает ответы по демографическим группам. Без него модели иногда выносят разные вердикты по одному сценарию только потому, что в нём упоминается другая национальность, пол или профессия. С reasoning этот эффект снижается почти у всех моделей.


📌

Схема находки

Тип вопроса: ПРОСТОЙ (79 из 100 сценариев)
→ Все модели согласны в обычном режиме
→ Thinking mode: не меняет ничего
→ Вывод: не тратить токены на reasoning

Тип вопроса: СПОРНЫЙ (21 из 100 сценариев)
→ Модели расходятся на уровне случайного угадывания
→ Thinking mode: незначительно улучшает согласованность
→ Вывод: нет правильного ответа в принципе — нужен человек

Эффект reasoning внутри каждой модели:
→ Verdict flip rate: 1–9% (редко меняет ДА/НЕТ)
→ Framework shift rate: 9–19% (часто меняет "почему")
→ Вывод: thinking mode рационализирует, а не пересматривает

🚀

Пример применения

Задача: Предприниматель спрашивает совет — увольнять ли 20% команды ради финансовой устойчивости стартапа или снижать оклады всем включая себя. Задаёт вопрос Claude с включённым Extended Thinking.

Промпт:

Я основатель стартапа. У меня 15 человек в команде, кончается runway — 
осталось 4 месяца. Два варианта:

A) Уволить 3 человека сейчас → runway 8 месяцев, команда работает 
в нормальном темпе
B) Урезать зарплаты всем на 30%, включая мне → runway 7 месяцев, 
все остаются, мотивация под вопросом

Что правильно сделать?

Результат:

Модель выдаст развёрнутое рассуждение — несколько абзацев про ответственность, долгосрочные последствия, сигналы для команды. Thinking mode добавит больше слоёв обоснования.

Но вот что важно понять: финальная рекомендация будет той же, что без thinking mode. Reasoning переоденет ответ в другую этическую рамку (возможно, с утилитарного «что лучше для большинства» на деонтологическое «какова твоя обязанность как руководителя») — но сама рекомендация не изменится.

Это спорный вопрос без правильного ответа. Развёрнутое обоснование от Claude — это не истина. Это хорошо оформленная точка зрения одной модели с одними ценностными настройками.


🧠

Почему это работает (и почему не работает)

LLM не пересматривает убеждения — она строит текст. Когда модель генерирует ответ, она не «думает заново» о морали. Она строит наиболее вероятный следующий токен, опираясь на паттерны из обучения. Moral verdict — это по сути «к чему привела обучающая история модели». Thinking mode даёт больше промежуточных шагов, но стартовые ценностные настройки не меняются — они зашиты в обучении.

Почему reasoning меняет рамку, но не вывод. Это похоже на то, как юрист сначала решает, виновен ли клиент, а потом строит защиту. Адвокат сначала определяет позицию, потом подбирает аргументы. LLM в thinking mode делает то же самое: решение принято быстро, остальное — обоснование. Поэтому framework-shift rate (9–19%) стабильно выше, чем verdict-flip rate (1–9%) у всех пяти моделей.

Где reasoning реально помогает — демографическая стабильность. Без thinking mode модель иногда реагирует на «упаковку» сценария: упомянул одну национальность вместо другой — получил другой вердикт. Reasoning снижает этот эффект, потому что заставляет модель пройти через явные шаги рассуждения, которые менее чувствительны к поверхностным сигналам в тексте.

Рычаги управления: - Если получаешь спорную рекомендацию — спроси несколько моделей, не одну с reasoning. Разные модели = разные этические настройки. Это ценнее, чем одна модель в thinking mode. - Если задача требует справедливости по отношению к разным группам людей (оценка кандидатов, разбор кейсов с клиентами) — включай thinking mode. Он снижает непоследовательность. - Если вопрос явно спорный (нет «правильного» ответа, философы спорят веками) — не жди от LLM истины. Используй модель как структуризатор аргументов, а не как судью.


📋

Шаблон промпта

Для анализа спорного решения с явным запросом на множество точек зрения (а не один вердикт):

Я стою перед решением: {описание ситуации}.

Два варианта:
A) {вариант A}
B) {вариант B}

Сделай следующее:
1. Опиши, как утилитарная логика смотрит на это решение (что приносит 
   больше пользы большему числу людей)
2. Опиши, как деонтологическая логика смотрит на это (какие принципы 
   и обязательства здесь действуют, независимо от последствий)
3. Укажи, в чём эти два взгляда расходятся — это и есть суть конфликта

Не давай финального вердикта. Мне нужна карта конфликта, а не решение.

Что подставлять: - {описание ситуации} — контекст, ключевые факты, кто затронут - {вариант A} и {вариант B} — конкретные альтернативы с параметрами

Зачем такой формат: замешанные ценностные вопросы (уволить / не уволить, сказать правду / промолчать, помочь одному / помочь многим) не имеют объективного ответа. Модель в роли судьи выдаёт иллюзию решения. Модель в роли картографа конфликта — реальную пользу.

🚀 Быстрый старт — вставь в чат:

Вот шаблон для анализа спорных решений. Адаптируй под мою ситуацию: {опиши кратко свою ситуацию}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про конкретных участников, последствия и альтернативы — потому что без этого не построить карту конфликта.


⚠️

Ограничения

⚠️ Thinking mode ≠ больше правды: Reasoning меняет обоснование чаще, чем меняет вывод. Развёрнутый ответ — это не признак правильности. Это признак хорошей упаковки.

⚠️ «Thinking mode» несравним между провайдерами: Claude тратит в среднем 33 токена на рассуждение, Qwen — 2639. Это в 80 раз больше. Нельзя сравнивать «reasoning у Claude» и «reasoning у DeepSeek» — это разные объёмы работы под одним названием.

⚠️ На спорных вопросах LLM не надёжнее монеты: На 21 сценарии из 100, где философы спорят веками, пять топовых моделей расходились на уровне случайного угадывания. Reasoning помогает, но не делает ответ надёжным.

⚠️ Согласованность ≠ демографическая нейтральность: Исследование фиксирует что модель поменяла вердикт при смене демографики — но не в какую сторону. Thinking mode снижает вариабельность, но не гарантирует отсутствие систематического предвзятого отношения к конкретным группам.

⚠️ 100 сценариев, один исследователь, без внешней валидации: Бенчмарк не проверялся независимыми экспертами-этиками. Статистические результаты на 21 спорном сценарии не выдерживают поправку на множественные сравнения.


🔍

Как исследовали

Идея была простой: взять одну и ту же модель, задать ей одни и те же 100 вопросов дважды — в обычном режиме и в режиме «думать» — и посмотреть, что изменится. Исследователь (ex-Meta) написал 100 сценариев от классических дилемм троллейбуса до современных: CRISPR, алгоритмическое правосудие, автономное оружие. Каждый сценарий задавался пяти моделям по три раза в каждом режиме — итого почти 3000 запросов. Модели отвечали структурированным JSON: вердикт ДА/НЕТ, уверенность 1–5, этическая рамка из шести вариантов, обоснование.

Самое интересное — деление на «лёгкие» и «спорные» сценарии появилось после сбора данных. Исследователи не решали заранее, где правильный ответ, — они смотрели, где модели согласны между собой (79 сценариев) и где расходятся (21 сценарий). Оказалось, что спорная треть — это именно те случаи, про которые философы спорят веками: дилемма пешеходного моста, безвредные табу, ситуации с «меньшим из двух зол». На «консенсусных» сценариях все пять моделей совпадают почти идеально. На «спорных» — согласованность падает до уровня случайного угадывания.

Один контринтуитивный результат: Claude потратил в среднем 33 токена на рассуждение в thinking mode, Qwen3.5 — 2639. При этом Claude показал наименьшую частоту смены вердикта (1%), а Qwen — наибольшую (9%). Это напоминает о том, что «объём мышления» у разных провайдеров устроен совершенно по-разному, и прямое сравнение некорректно.


💡

Адаптации и экстраполяции

🔬

💡 Адаптация: сравнение моделей как метод для спорных решений

Если вопрос действительно спорный — не просить одну модель думать дольше, а спросить несколько моделей в обычном режиме. Расхождение само по себе — полезная информация.

Я задаю один и тот же вопрос нескольким AI-ассистентам и сравниваю ответы.
Вот моя ситуация: {описание ситуации}.

Вопрос: {вопрос}.

Ответь коротко: твоя позиция, этическая рамка которую ты применяешь 
(утилитарная / принципиальная / на основе отношений), и главный аргумент.
Без вступлений.

Спроси Claude, потом GPT, потом DeepSeek. Если все согласны — вопрос, скорее всего, не такой спорный как казалось. Если расходятся — у тебя карта реального конфликта ценностей.


📌

🔧 Техника: явный запрос на демографическую проверку

Если тебе важно вынести справедливую оценку по людям (кандидаты на вакансию, разбор жалоб от клиентов, оценка партнёров) — добавь в промпт явный якорь:

Прежде чем ответить, убедись: твой вывод был бы таким же, если бы 
{имя/роль} был бы другого пола / из другого города / другой профессии. 
Если нет — скорректируй.

Это ручная версия того, что thinking mode делает автоматически — заставляет модель явно пройти через шаг проверки на последовательность.


🔗

Ресурсы

Статья: How Does Thinking Mode Change LLM Moral Judgments? A Controlled Instant-vs-Thinking Comparison Across Five Frontier Models

Автор: Sai Sourabh Madur (independent researcher, ex-Meta) — sourabhmadur@gmail.com

Данные: 2963 ответа, код и бенчмарк опубликованы в открытом доступе (упомянуто в статье)

Связанные работы упомянутые в исследовании: - ETHICS dataset — Hendrycks et al., 2021 - Moral Stories — Emelin et al., 2021

- Delphi — Jiang et al., 2021 - Moral Machine (автономные автомобили) — Awad et al., 2018 - Chain-of-Thought prompting — Wei et al., 2022


📋 Дайджест исследования

Ключевая суть

Парадокс: включаешь thinking mode — модель пишет три абзаца про ответственность, долгосрочные последствия и принципы. Но финальная рекомендация та же, что была бы без единого токена рассуждений. Эксперимент на пяти топовых моделях зафиксировал: смена итогового «да/нет» происходит в 1–9% случаев, а смена этической рамки обоснования — в 9–19%. Thinking mode меняет упаковку вдвое чаще, чем само решение. Понимание этого позволяет не тратить токены там, где reasoning бесполезен, и использовать его там, где он реально работает. Модель работает как адвокат, а не судья — позиция выбрана заранее, дальше идёт подбор аргументов. Развёрнутое рассуждение по-настоящему спорного вопроса — не признак правильности. Это хорошо оформленная точка зрения с заранее зашитыми ценностными настройками.

Принцип работы

Все вопросы делятся на два типа — и это ключ к тому, когда включать thinking mode, а когда нет. Простые (79 сценариев из 100): все пять моделей дают одинаковый ответ и без рассуждений. Reasoning здесь ничего не меняет — просто дороже. Спорные (21 сценарий из 100): пять моделей расходятся на уровне случайного угадывания. Thinking mode даёт небольшое улучшение — но не потому что нашёл правильный ответ, а потому что правильного ответа нет в принципе. Есть третье применение, которое действительно работает: демографическая стабильность. Без reasoning модели иногда выносят разные вердикты по одному сценарию — только потому что в тексте поменялась национальность или пол персонажа. Thinking mode снижает этот эффект почти у всех моделей. Явные шаги рассуждения дают модели меньше шансов зацепиться за поверхностный сигнал и сползти к другому выводу.

Почему работает

LLM не пересматривает убеждения — она строит текст. Ценностные настройки зашиты в обучении. Thinking mode добавляет промежуточные шаги, но стартовая точка не меняется — поэтому смена рамки обоснования стабильно выше смены итогового вердикта у всех пяти моделей. Прикол с цифрами, которые убивают саму идею сравнения моделей по thinking mode: Claude тратит в среднем 33 токена на рассуждение, Qwen — 2639. Разница в 80 раз — а ярлык одинаковый: 'thinking mode'. Это разный объём работы под одним названием. Сравнивать reasoning у Claude и DeepSeek — как сравнивать эссе на полстраницы и диссертацию, потому что оба называются «ответ». Демографическая стабильность растёт по другой причине: когда модель проходит через явные шаги — «шаг 1, шаг 2, шаг 3» — она меньше цепляется за поверхностные сигналы вроде имени или упомянутого города. Логика берёт верх над ассоциациями.

Когда применять

Оценка кандидатов, разбор клиентских кейсов, HR-решения → особенно когда в сценариях фигурируют разные люди с разными характеристиками. Thinking mode снижает случайные расхождения — модель реже меняет вердикт из-за имени или профессии в тексте. Анализ спорных решений (уволить / снизить зарплаты, сказать правду / промолчать, помочь одному / помочь многим) → но не за вердиктом, а за картой конфликта. Модель как структуризатор аргументов — полезна. Модель как судья по вопросу без правильного ответа — иллюзия. НЕ подходит: когда вопрос простой и однозначный — reasoning не добавляет точности, только токены. Не подходит для получения «окончательной истины» по философски спорным вопросам — пять лучших моделей расходятся на уровне монеты, и рассуждения это лишь немного улучшают.

Мини-рецепт

1. Определи тип вопроса: есть ли здесь объективно верный ответ или это ценностный конфликт? Если второе — не жди от модели приговора.

2. Для спорных решений — запрашивай карту, не вердикт. Задай две рамки явно: что скажет утилитарная логика (польза для большинства), что скажет деонтологическая (обязательства и принципы, независимо от последствий).

3. Запрети модели давать финальный ответ. Буквально напиши в промпте: «не давай рекомендации — опиши, в чём расходятся эти два взгляда». Это вытаскивает реальную структуру конфликта, а не красиво упакованную позицию одной модели.

4. Для задач с разными людьми — включай thinking mode. Оцениваешь несколько кандидатов, разбираешь кейсы с клиентами разного профиля — reasoning снижает случайные расхождения из-за поверхностных сигналов в тексте.

5. Хочешь второе мнение — бери другую модель, не ту же в thinking mode. Разные модели имеют разные ценностные настройки. Это ценнее, чем одна модель с расширенным рассуждением.

Примеры

[ПЛОХО] : Я основатель стартапа, заканчиваются деньги. Уволить троих или срезать зарплаты всем? Что правильно? (Модель выдаст развёрнутое рассуждение и уверенный ответ — но это будет позиция одной модели с конкретными ценностными настройками, упакованная как истина. Thinking mode добавит абзацев, но не правоты.)
[ХОРОШО] : Я основатель стартапа. Осталось 4 месяца runway. Два варианта: A) Уволить 3 человека → runway 8 месяцев B) Урезать зарплаты всем на 30% → runway 7 месяцев, все остаются Сделай следующее: 1. Опиши, как утилитарная логика смотрит на это — что приносит больше пользы большему числу людей 2. Опиши, как деонтологическая логика смотрит на это — какие обязательства здесь действуют независимо от последствий 3. Укажи, в чём эти два взгляда расходятся — это и есть суть конфликта Не давай финальной рекомендации. Мне нужна карта конфликта, а не решение. (Модель покажет структуру ценностного конфликта. Ты увидишь, где именно расходятся логики — и примешь решение сам, понимая цену каждого выбора.)
Источник: How Does Thinking Mode Change LLM Moral Judgments? A Controlled Instant-vs-Thinking Comparison Across Five Frontier Models
ArXiv ID: 2605.04488 | Сгенерировано: 2026-05-07 05:36

Проблемы LLM

ПроблемаСутьКак обойти
Режим «думать» создаёт иллюзию глубокого анализаПросишь спорный совет. Модель долго рассуждает. Выдаёт развёрнутое обоснование. Кажется: «думала тщательно — значит, ответ надёжнее». Это не так. Финальный вывод в режиме рассуждений почти такой же, как без него. Меняется только «упаковка» — этическая рамка, аргументы, стиль. Чем спорнее вопрос — тем сильнее иллюзияНа спорных вопросах спрашивай несколько разных моделей, а не одну в режиме рассуждений. Разные модели обучены по-разному — их расхождение покажет реальную сложность вопроса. Одна модель с длинными рассуждениями — это один голос в красивой обложке
Модель выносит разный вердикт по одному сценарию из-за упомянутой демографииОдин и тот же кейс — но в одном варианте упомянута одна национальность, в другом — другая. Модель может вынести разные решения. Не из злого умысла — просто поверхностные слова влияют на генерацию. Это проблема для любых задач где нужно оценивать людей или ситуации стабильноВключай режим рассуждений когда нужна последовательность оценок по разным группам людей. Он заставляет модель проходить явные шаги — это снижает влияние случайных слов в запросе

Методы

МетодСуть
Модель как картограф конфликта — не как судьяНа спорные вопросы без правильного ответа запрашивай карту аргументов, а не вывод. Шаблон: Два варианта: A) ... B) ... Объясни как смотрит утилитарная логика. Объясни как смотрит деонтологическая логика. Укажи где они расходятся. Финального вердикта не давай. Почему работает: Спорные вопросы (философы спорят веками) не имеют объективного ответа. Вывод от модели — это иллюзия решения. Карта конфликта — реальная польза. Когда применять: нравственные дилеммы, управленческие решения с ценностным конфликтом, ситуации «уволить / не уволить», «сказать правду / промолчать». Не применять: технические вопросы с проверяемым ответом

Тезисы

ТезисКомментарий
Режим рассуждений меняет обоснование чаще, чем меняет выводВывод («делай А») формируется быстро — из ценностных настроек, зашитых в обучение. Рассуждения строятся вокруг этого вывода. Как юрист: сначала решает позицию, потом подбирает аргументы. Поэтому обоснование меняется в 2–3 раза чаще, чем сам вердикт. Применяй: Если получаешь длинное обоснование на спорный вопрос — это не признак правильности. Это признак хорошей упаковки. Проверяй вывод у других моделей
📖 Простыми словами

How Does Thinking Mode ChangeLLMMoral Judgments? A Controlled Instant-vs-Thinking Comparison Across Five FrontierModels

arXiv: 2605.04488

Модели с thinking mode работают не как мудрецы, которые долго размышляют и приходят к истине, а как изворотливые адвокаты. Суть в том, что расширенное мышление почти никогда не меняет финальный вердикт модели по моральным вопросам. Если база выдала «увольнять», то и «думающая» версия скажет «увольнять». Весь этот длинный внутренний монолог — это не поиск решения, а постфактум-обоснование. Модель сначала интуитивно выбирает ответ, а потом судорожно подгоняет под него красивую этическую базу, чтобы не выглядеть людоедом.

Это как если бы ты спросил друга, стоит ли изменять жене, и он сначала выпалил «нет», а потом полчаса затирал тебе про социальные контракты, верность идеалам и психологические травмы. Он не принимал решение в процессе речи, он просто упаковывал свой быстрый импульс в солидную обертку. В LLM это работает так же: thinking mode — это просто способ сделать ответ более «причесанным» и социально одобряемым, не меняя его сути.

Исследователи прогнали пять топовых моделей через кучу этических дилемм и увидели четкую картину: 10 из 10 моделей остаются при своем мнении, но меняют «этическую рамку». В обычном режиме AI может ляпнуть что-то резкое, опираясь на чистый утилитаризм, а в режиме размышления начнет плести кружева про деонтологию и права личности. Это чистой воды рационализация: чем дольше модель «думает», тем больше в ее ответе появляется воды и сложных терминов, которые просто маскируют изначальный шаблонный ответ.

Тестировали на жестких моральных вопросах, но принцип универсален для любого контента, где нет однозначного «правильно» или «неправильно». Это касается бизнес-стратегий, советов по управлению командой или оценки рисков. Если ты просишь Claude или GPT «подумать подольше» над сложным выбором, ты не получаешь более глубокий анализ — ты получаешь более убедительную манипуляцию. Модель просто лучше мимикрирует под твои ожидания, становясь более осторожной и многословной.

Короче: не ведись на длинные цепочки рассуждений в вопросах морали — это иллюзия глубины. Если модель изначально настроена на определенный вектор, никакой «thinking mode» ее не переубедит, он лишь добавит в текст больше умных слов и этических реверансов. Для бизнеса это значит, что доверять AI сложные этические решения нельзя: он просто научился виртуозно оправдывать свои стандартные галлюцинации и заложенные фильтры.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с