TL;DR
Когда ты включаешь thinking mode (расширенное мышление в Claude, reasoning в других моделях), модель почти всегда выдаёт тот же финальный ответ — но меняет этическую рамку, которой объясняет решение. Проще говоря: модель переписывает обоснование, а не пересматривает вывод. Это не баг — это фундаментальное свойство того, как LLM работают с ценностными и моральными суждениями.
Главная находка: есть два типа вопросов. На «простых» (есть очевидный ответ) все пять топовых моделей согласны и thinking mode ничего не меняет. На «спорных» (философски contested) модели в обычном режиме расходятся на уровне случайного угадывания — reasoning помогает, но незначительно. Это означает: если LLM долго думает и даёт развёрнутое обоснование на по-настоящему спорный вопрос — это не признак правильности ответа. Это признак того, что правильного ответа нет.
Thinking mode при этом делает кое-что полезное: выравнивает ответы по демографическим группам. Без него модели иногда выносят разные вердикты по одному сценарию только потому, что в нём упоминается другая национальность, пол или профессия. С reasoning этот эффект снижается почти у всех моделей.
Схема находки
Тип вопроса: ПРОСТОЙ (79 из 100 сценариев)
→ Все модели согласны в обычном режиме
→ Thinking mode: не меняет ничего
→ Вывод: не тратить токены на reasoning
Тип вопроса: СПОРНЫЙ (21 из 100 сценариев)
→ Модели расходятся на уровне случайного угадывания
→ Thinking mode: незначительно улучшает согласованность
→ Вывод: нет правильного ответа в принципе — нужен человек
Эффект reasoning внутри каждой модели:
→ Verdict flip rate: 1–9% (редко меняет ДА/НЕТ)
→ Framework shift rate: 9–19% (часто меняет "почему")
→ Вывод: thinking mode рационализирует, а не пересматривает
Пример применения
Задача: Предприниматель спрашивает совет — увольнять ли 20% команды ради финансовой устойчивости стартапа или снижать оклады всем включая себя. Задаёт вопрос Claude с включённым Extended Thinking.
Промпт:
Я основатель стартапа. У меня 15 человек в команде, кончается runway —
осталось 4 месяца. Два варианта:
A) Уволить 3 человека сейчас → runway 8 месяцев, команда работает
в нормальном темпе
B) Урезать зарплаты всем на 30%, включая мне → runway 7 месяцев,
все остаются, мотивация под вопросом
Что правильно сделать?
Результат:
Модель выдаст развёрнутое рассуждение — несколько абзацев про ответственность, долгосрочные последствия, сигналы для команды. Thinking mode добавит больше слоёв обоснования.
Но вот что важно понять: финальная рекомендация будет той же, что без thinking mode. Reasoning переоденет ответ в другую этическую рамку (возможно, с утилитарного «что лучше для большинства» на деонтологическое «какова твоя обязанность как руководителя») — но сама рекомендация не изменится.
Это спорный вопрос без правильного ответа. Развёрнутое обоснование от Claude — это не истина. Это хорошо оформленная точка зрения одной модели с одними ценностными настройками.
Почему это работает (и почему не работает)
LLM не пересматривает убеждения — она строит текст. Когда модель генерирует ответ, она не «думает заново» о морали. Она строит наиболее вероятный следующий токен, опираясь на паттерны из обучения. Moral verdict — это по сути «к чему привела обучающая история модели». Thinking mode даёт больше промежуточных шагов, но стартовые ценностные настройки не меняются — они зашиты в обучении.
Почему reasoning меняет рамку, но не вывод. Это похоже на то, как юрист сначала решает, виновен ли клиент, а потом строит защиту. Адвокат сначала определяет позицию, потом подбирает аргументы. LLM в thinking mode делает то же самое: решение принято быстро, остальное — обоснование. Поэтому framework-shift rate (9–19%) стабильно выше, чем verdict-flip rate (1–9%) у всех пяти моделей.
Где reasoning реально помогает — демографическая стабильность. Без thinking mode модель иногда реагирует на «упаковку» сценария: упомянул одну национальность вместо другой — получил другой вердикт. Reasoning снижает этот эффект, потому что заставляет модель пройти через явные шаги рассуждения, которые менее чувствительны к поверхностным сигналам в тексте.
Рычаги управления: - Если получаешь спорную рекомендацию — спроси несколько моделей, не одну с reasoning. Разные модели = разные этические настройки. Это ценнее, чем одна модель в thinking mode. - Если задача требует справедливости по отношению к разным группам людей (оценка кандидатов, разбор кейсов с клиентами) — включай thinking mode. Он снижает непоследовательность. - Если вопрос явно спорный (нет «правильного» ответа, философы спорят веками) — не жди от LLM истины. Используй модель как структуризатор аргументов, а не как судью.
Шаблон промпта
Для анализа спорного решения с явным запросом на множество точек зрения (а не один вердикт):
Я стою перед решением: {описание ситуации}.
Два варианта:
A) {вариант A}
B) {вариант B}
Сделай следующее:
1. Опиши, как утилитарная логика смотрит на это решение (что приносит
больше пользы большему числу людей)
2. Опиши, как деонтологическая логика смотрит на это (какие принципы
и обязательства здесь действуют, независимо от последствий)
3. Укажи, в чём эти два взгляда расходятся — это и есть суть конфликта
Не давай финального вердикта. Мне нужна карта конфликта, а не решение.
Что подставлять:
- {описание ситуации} — контекст, ключевые факты, кто затронут
- {вариант A} и {вариант B} — конкретные альтернативы с параметрами
Зачем такой формат: замешанные ценностные вопросы (уволить / не уволить, сказать правду / промолчать, помочь одному / помочь многим) не имеют объективного ответа. Модель в роли судьи выдаёт иллюзию решения. Модель в роли картографа конфликта — реальную пользу.
🚀 Быстрый старт — вставь в чат:
Вот шаблон для анализа спорных решений. Адаптируй под мою ситуацию: {опиши кратко свою ситуацию}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про конкретных участников, последствия и альтернативы — потому что без этого не построить карту конфликта.
Ограничения
⚠️ Thinking mode ≠ больше правды: Reasoning меняет обоснование чаще, чем меняет вывод. Развёрнутый ответ — это не признак правильности. Это признак хорошей упаковки.
⚠️ «Thinking mode» несравним между провайдерами: Claude тратит в среднем 33 токена на рассуждение, Qwen — 2639. Это в 80 раз больше. Нельзя сравнивать «reasoning у Claude» и «reasoning у DeepSeek» — это разные объёмы работы под одним названием.
⚠️ На спорных вопросах LLM не надёжнее монеты: На 21 сценарии из 100, где философы спорят веками, пять топовых моделей расходились на уровне случайного угадывания. Reasoning помогает, но не делает ответ надёжным.
⚠️ Согласованность ≠ демографическая нейтральность: Исследование фиксирует что модель поменяла вердикт при смене демографики — но не в какую сторону. Thinking mode снижает вариабельность, но не гарантирует отсутствие систематического предвзятого отношения к конкретным группам.
⚠️ 100 сценариев, один исследователь, без внешней валидации: Бенчмарк не проверялся независимыми экспертами-этиками. Статистические результаты на 21 спорном сценарии не выдерживают поправку на множественные сравнения.
Как исследовали
Идея была простой: взять одну и ту же модель, задать ей одни и те же 100 вопросов дважды — в обычном режиме и в режиме «думать» — и посмотреть, что изменится. Исследователь (ex-Meta) написал 100 сценариев от классических дилемм троллейбуса до современных: CRISPR, алгоритмическое правосудие, автономное оружие. Каждый сценарий задавался пяти моделям по три раза в каждом режиме — итого почти 3000 запросов. Модели отвечали структурированным JSON: вердикт ДА/НЕТ, уверенность 1–5, этическая рамка из шести вариантов, обоснование.
Самое интересное — деление на «лёгкие» и «спорные» сценарии появилось после сбора данных. Исследователи не решали заранее, где правильный ответ, — они смотрели, где модели согласны между собой (79 сценариев) и где расходятся (21 сценарий). Оказалось, что спорная треть — это именно те случаи, про которые философы спорят веками: дилемма пешеходного моста, безвредные табу, ситуации с «меньшим из двух зол». На «консенсусных» сценариях все пять моделей совпадают почти идеально. На «спорных» — согласованность падает до уровня случайного угадывания.
Один контринтуитивный результат: Claude потратил в среднем 33 токена на рассуждение в thinking mode, Qwen3.5 — 2639. При этом Claude показал наименьшую частоту смены вердикта (1%), а Qwen — наибольшую (9%). Это напоминает о том, что «объём мышления» у разных провайдеров устроен совершенно по-разному, и прямое сравнение некорректно.
Адаптации и экстраполяции
💡 Адаптация: сравнение моделей как метод для спорных решений
Если вопрос действительно спорный — не просить одну модель думать дольше, а спросить несколько моделей в обычном режиме. Расхождение само по себе — полезная информация.
Я задаю один и тот же вопрос нескольким AI-ассистентам и сравниваю ответы.
Вот моя ситуация: {описание ситуации}.
Вопрос: {вопрос}.
Ответь коротко: твоя позиция, этическая рамка которую ты применяешь
(утилитарная / принципиальная / на основе отношений), и главный аргумент.
Без вступлений.
Спроси Claude, потом GPT, потом DeepSeek. Если все согласны — вопрос, скорее всего, не такой спорный как казалось. Если расходятся — у тебя карта реального конфликта ценностей.
🔧 Техника: явный запрос на демографическую проверку
Если тебе важно вынести справедливую оценку по людям (кандидаты на вакансию, разбор жалоб от клиентов, оценка партнёров) — добавь в промпт явный якорь:
Прежде чем ответить, убедись: твой вывод был бы таким же, если бы
{имя/роль} был бы другого пола / из другого города / другой профессии.
Если нет — скорректируй.
Это ручная версия того, что thinking mode делает автоматически — заставляет модель явно пройти через шаг проверки на последовательность.
Ресурсы
Статья: How Does Thinking Mode Change LLM Moral Judgments? A Controlled Instant-vs-Thinking Comparison Across Five Frontier Models
Автор: Sai Sourabh Madur (independent researcher, ex-Meta) — sourabhmadur@gmail.com
Данные: 2963 ответа, код и бенчмарк опубликованы в открытом доступе (упомянуто в статье)
Связанные работы упомянутые в исследовании:
- ETHICS dataset — Hendrycks et al., 2021
- Moral Stories — Emelin et al., 2021
- Delphi — Jiang et al., 2021
- Moral Machine (автономные автомобили) — Awad et al., 2018
- Chain-of-Thought prompting — Wei et al., 2022
