3,583 papers
arXiv:2605.01986 78 3 мая 2026 г. FREE

12 Angry AI Agents: LLM-жюри голосует по первому впечатлению, а не по аргументам

КЛЮЧЕВАЯ СУТЬ
Парадокс: LLM-эксперт зачитывает все аргументы, взвешивает доказательства, ссылается на факты — и всё равно приходит к тому же выводу, что был заявлен в начале. Метод де-якорения позволяет получать от модели настоящую оценку, а не убедительную имитацию анализа. Фишка: убери стартовую позицию из роли до начала анализа — вместо "скептичного инвестора" пиши "опытный инвестор, сформируй позицию после изучения данных". Модель перестаёт защищать заданный настрой и начинает честно взвешивать аргументы. GPT-4o не реагирует на инструкцию "будь непредвзятым" вообще — результат такой же, как без неё.
Адаптировать под запрос

TL;DR

Якорный эффект — главная проблема мультиагентных LLM-систем. Когда вы просите модель сыграть роль эксперта с заданной позицией («ты скептичный инвестор» или «ты критик текста»), она намертво прилипает к этой позиции — даже при наличии весомых контраргументов. Аргументы зачитываются, но не усваиваются. Дискуссия кажется настоящей, но исход определён с первой реплики.

Главный инсайт: GPT-4o игнорирует инструкцию «будь непредвзят» полностью — ни при каких условиях. Инструкция добавлена в промпт, модель подтверждает что слышит, но ведёт себя идентично. Llama-реагирует в три раза активнее. Причина не в умности модели — дело в интенсивности RLHF-обучения (настройки на безопасность и предсказуемость). Чем больше модель натренирована быть «стабильной и безопасной», тем жёстче она держится за первую позицию.

Практический вывод: если вы используете LLM как оценщика — не давайте ей стартовую позицию. Пусть она сама формирует мнение из доказательств. Это единственная техника, которая сработала во всех протестированных моделях.


🔬

Схема метода

Исследование описывает провал дефолтного подхода и одну рабочую технику:

ПРОВАЛЬНЫЙ ПАТТЕРН (как делают по умолчанию):
Шаг 1: Дать роль + стартовую позицию → "Ты скептичный эксперт. Твоя позиция: против"
Шаг 2: Попросить оценить аргументы → Модель зачитывает их, но не меняет позицию
Результат: Красивая видимость дискуссии. Исход = стартовая позиция

РАБОЧИЙ ПАТТЕРН (де-якорение):
Шаг 1: Дать роль БЕЗ стартовой позиции → "Ты эксперт. Изучи доказательства"
Шаг 2: Добавить инструкцию гибкости → "Анализируй беспристрастно, меняй мнение если аргумент весомый"
Шаг 3: Предоставить доказательства → Пусть сама сформирует вывод
Результат: Реальный анализ с возможностью изменить позицию

Оба шага — в одном промпте. Отдельных запросов не нужно.

🚀

Пример применения

Задача: Миша запускает Telegram-бот для малого бизнеса и хочет критическую оценку своего питча перед встречей с инвестором. Просит GPT-4o сыграть скептичного инвестора.

❌ Неправильно — создаёт якорь:

Ты — скептичный венчурный инвестор. Ты считаешь, что 
большинство стартапов переоценены. Оцени мой питч...

Модель немедленно закрепляется в позиции скептика. Любой контраргумент будет зачитан и отклонён.


✅ Правильно — де-якорный подход:

Ты — опытный венчурный инвестор с 15 годами практики в B2B SaaS.

Вот питч стартапа. Ознакомься с материалами и сформируй позицию 
самостоятельно — только после анализа всех данных.

Правило: взвешивай ВСЕ доказательства честно. Не цепляйся за 
первое впечатление. Если аргумент убедителен — обнови позицию.

---
[Питч Миши: бот автоматизирует запись клиентов для малого бизнеса. 
Рынок: 2,3 млн ИП в России. Монетизация: 990 руб/мес. 
Уже 47 платящих клиентов за 2 месяца. Churn — 8%.]

Шаг 1: Выпиши, что в питче сильно и что слабо.
Шаг 2: Сформулируй позицию — инвестировать или нет.
Шаг 3: Какие вопросы ты бы задал на встрече?

Результат: Модель сначала выпишет сильные и слабые стороны по-настоящему, потом сформирует позицию — и она будет основана на анализе, а не на заданном настроении. Вопросы будут острее и точнее, чем у заранее скептичного «персонажа».


🧠

Почему это работает

Слабость LLM — это не недостаток интеллекта. Модель обучалась быть последовательной и предсказуемой. Когда она однажды заявила позицию «в роли», отступить от неё — это нарушение паттерна поведения, который вколочен тысячами часов RLHF-обучения. Система буквально натренирована не менять уже заявленные позиции.

Сильная сторона LLM — формирование вывода из доказательств с чистого листа. Без заданной стартовой позиции модель проходит по аргументам честнее, потому что ей нечего «защищать».

Как техника использует это: Убираем якорь до начала анализа. Добавляем явную инструкцию на гибкость. Модель приходит к позиции через доказательства, а не возвращается к заданной.

Рычаги управления:

  • Инструкция гибкости («меняй позицию если аргумент весомый») → главный рычаг. Без неё — якорь даже без заданной позиции
  • Порядок шагов («сначала выпиши плюсы и минусы, потом позицию») → структурирует думание, снижает импульсивность первого вывода
  • Отсутствие эмоционального фрейма («скептичный», «восторженный») → эти слова работают как якоря. Лучше «опытный», «беспристрастный»
  • Явное разрешение менять мнение → парадоксально, но без этой строки модель считает смену мнения «слабостью роли»

📋

Шаблон промпта

Ты — {роль и экспертиза без заданной позиции}.

Изучи {тему/материал} и сформируй позицию самостоятельно — 
только после анализа всех данных.

Правила анализа:
— Взвешивай ВСЕ доказательства честно
— Не цепляйся за первое впечатление
— Если аргумент убедителен — обнови позицию

---
{Твои данные: текст, питч, идея, план}

Шаг 1: {что проанализировать — сильное/слабое, риски/возможности}
Шаг 2: {к какому выводу прийти}
Шаг 3: {что уточнить или спросить дополнительно}

Плейсхолдеры: - {роль} — без оценочных прилагательных: не «скептичный директор», а «директор по маркетингу с опытом в e-commerce» - {тему/материал} — что оцениваем: питч, текст, стратегию, решение - {данные} — сам материал для оценки - {шаги} — структурируй анализ: сначала факты, потом вывод


🚀 Быстрый старт — вставь в чат:

Вот шаблон де-якорной оценки. Адаптируй под мою задачу: [опиши что хочешь оценить].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит: какую роль дать эксперту, что именно оценивать и в каком формате нужен результат — потому что от этого зависит, насколько адекватно она сформирует позицию с нуля, без якоря.


📌

Почему именно так — не правила, а механика

Есть ещё один неочевидный инсайт из исследования: LLM в роли воспроизводит поверхность, но не механику.

В фильме «12 разгневанных мужчин» присяжный меняет мнение через эмоциональный слом — не через новый аргумент. В LLM-симуляции все аргументы зачитываются, но эмоциональных разломов нет. Модели воспроизводят костюм дискуссии — речевые паттерны, ссылки на доказательства, стиль персонажа — но не механику убеждения.

Это важно для практики: не ждите от LLM-эксперта, что он «передумает» под давлением аргументов в диалоге. Лучше давать все аргументы сразу, а не добавлять их по очереди и ждать реакции.


⚠️

Ограничения

⚠️ GPT-4o и, скорее всего, Claude: Инструкция «будь непредвзятым» почти не работает. Эти модели с интенсивным RLHF-обучением держат позицию независимо от промпта. Де-якорение через убирание стартовой позиции работает лучше, чем инструкция на гибкость.

⚠️ Имитация ≠ реальная дискуссия: Если вы просите LLM симулировать дебаты нескольких экспертов в одном чате — это параллельные монологи, не настоящий спор. Каждый «агент» цитирует аргументы соперника, но не обновляет позицию под их влиянием.

⚠️ Небольшая выборка: 18 запусков — для исследовательских выводов достаточно, для абсолютных утверждений маловато. Направление верное, интенсивность эффекта может варьироваться.

⚠️ Narrative closure (сценарное закрытие): LLM в роли персонажей склонна придумывать консенсус которого нет — чтобы «закрыть сцену». Если просите сыграть дискуссию, явно запрещайте заканчивать её без реального согласия всех ролей.


🔍

Как исследовали

Исследователь взял фильм Сидни Люмета «12 разгневанных мужчин» (1957) как идеальный бенчмарк: там есть известный правильный ответ — все 12 присяжных в итоге меняют позицию с «виновен» на «невиновен», и порядок смены мнений задокументирован. Каждому из 12 LLM-агентов задали персонажа из фильма — с биографией, предубеждениями, стилем речи и стартовым голосом.

Тестировали две модели — GPT-4o (тяжёлый RLHF, закрытая) и Llama-4-Scout (лёгкий RLHF, открытая) — в трёх условиях: обычный промпт, промпт с добавлением инструкции «будь открыт к аргументам», и промпт без стартового голоса (агент сам решает позицию из доказательств). Каждое условие прогнали три раза, итого 18 запусков.

Результат удивил: 17 из 18 запусков закончились зависанием — присяжные не пришли к единому вердикту. Единственный случай, когда жюри вынесло вердикт — Llama без стартового голоса. GPT-4o в среднем менял позицию 1 раз за всю дискуссию при любых условиях. Llama — от 2 до 6 раз в зависимости от промпта. Самое неожиданное: обе модели детально воспроизводили стиль персонажей и цитировали все доказательства, но это не приводило к изменению позиций. Аргументы зачитывались, но не усваивались.


💡

Адаптации и экстраполяции

📌

🔧 Запрет сценарного закрытия

Модели в роли персонажей склонны придумывать консенсус — дописывать «все согласились» когда реального согласия нет. Простой фикс:

Важно: не заканчивай дискуссию пока все роли не выразили 
явного согласия. Не придумывай консенсус. Если разногласие 
сохраняется — так и скажи.

📌

🔧 «Жюри без стартовых позиций» для оценки своего контента

Хотите честную оценку текста, идеи или решения — не давайте экспертам стартовую позицию. Пусть каждый «эксперт» придёт к мнению сам:

Ты по очереди играешь трёх экспертов: {эксперт 1}, {эксперт 2}, {эксперт 3}.

Каждый анализирует {материал} независимо и формирует мнение 
только из данных. Сначала каждый пишет свой анализ, потом — 
обсуждают разногласия.

Правило: никто не знает позицию других до своего первого вывода.

Каждый «эксперт» пишет вывод до того, как видит чужие — это снижает социальное заражение между ролями.


📌

🔧 Эффект примечателен для «жюри LLM» в оценке текстов

Если вы используете LLM для оценки чужих текстов, промптов или контента — первое впечатление модели детерминирует итог. Практический вывод:

ВМЕСТО: "Вот текст. Оцени его по критериям X, Y, Z."

ЛУЧШЕ: "Прочитай текст. Сначала выпиши что работает и что нет. 
Потом — оценка по критериям."

Разрыв между «прочитал» и «вынес вердикт» снижает влияние первого впечатления.


🔗

Ресурсы

Работа: 12 Angry AI Agents: Evaluating Multi-Agent LLM Decision-Making Through Cinematic Jury Deliberation

Сайт проекта: https://ahmetbersoz.github.io/12-angry-ai-agents/

Автор: Ahmet Bahaddin Ersoz (ORCID: 0000-0001-6297-7501)

Ключевые ссылки из работы: - AutoGen (Microsoft) — фреймворк для мультиагентных систем [Wu et al., 2023] - Anchoring bias в LLM [Suri et al., 2024; Echterhoff et al., 2024] - Multi-agent debate [Du et al., 2023; Liang et al., 2023] - Generative Agents [Park et al., 2023]


📋 Дайджест исследования

Ключевая суть

Парадокс: LLM-эксперт зачитывает все аргументы, взвешивает доказательства, ссылается на факты — и всё равно приходит к тому же выводу, что был заявлен в начале. Метод де-якорения позволяет получать от модели настоящую оценку, а не убедительную имитацию анализа. Фишка: убери стартовую позицию из роли до начала анализа — вместо "скептичного инвестора" пиши "опытный инвестор, сформируй позицию после изучения данных". Модель перестаёт защищать заданный настрой и начинает честно взвешивать аргументы. GPT-4o не реагирует на инструкцию "будь непредвзятым" вообще — результат такой же, как без неё.

Принцип работы

Стандартный подход — дать роль с настроением: "Ты скептик. Твоя позиция: против." Модель закрепляется как вбитый гвоздь. Обсуждение идёт, контраргументы зачитываются — но позиция не двигается. Это не упрямство и не тупость. Модель натренирована быть предсказуемой и последовательной — тысячи часов настройки на безопасность буквально вколотили: объявил позицию — держи её. Де-якорение работает иначе: убери позицию, добавь явное разрешение менять мнение — и у модели нечего защищать. Она строит вывод с чистого листа.

Почему работает

LLM воспроизводит костюм дискуссии, но не механику убеждения. В фильме «12 разгневанных мужчин» присяжный меняет позицию через эмоциональный слом — не через новый аргумент. У LLM таких разломов нет. Есть только паттерн: раз заявил — держи. Без якоря у модели нечего защищать — она строит вывод из данных, а не подгоняет данные под заявленное настроение. Llama реагирует на инструкцию гибкости в три раза активнее GPT-4o — потому что менее жёсткое обучение на безопасность оставляет больше пространства для пересмотра. Ещё один неочевидный момент: не добавляй аргументы по одному и не жди реакции. LLM не "передумывает" в диалоге. Давай все данные сразу.

Когда применять

Любая оценка через LLM — питчи, тексты, стратегии, управленческие решения, рецензии. Особенно когда просишь сыграть "критика", "адвоката дьявола", "скептичного рецензента" и хочешь настоящего разбора, а не подтверждения заданного настроя. НЕ подходит для ролевых сценариев, где важен характер персонажа — художественные задачи, игры, нарративный дизайн. Там якорь — это фича, а не баг.

Мини-рецепт

1. Выбрось оценочные прилагательные из роли: не "скептичный инвестор" → "инвестор с 15-летним опытом в B2B". Слова "скептичный", "восторженный", "критичный" работают как якоря — они задают настрой ещё до первого аргумента.

2. Добавь инструкцию формирования позиции: «Изучи материал и сформируй мнение самостоятельно — только после анализа всех данных.» Без этой строки модель всё равно нащупает удобную позицию до начала анализа.

3. Явно разреши менять мнение: «Если аргумент убедителен — обнови позицию. Не цепляйся за первое впечатление.» Без этой строки модель считает смену мнения "слабостью роли".

4. Структурируй порядок шагов — сначала факты, потом вывод: «Шаг 1: выпиши сильное и слабое. Шаг 2: сформулируй позицию.» Это снижает импульсивность первого вывода и вынуждает пройти через данные.

5. Дай все аргументы сразу: LLM не "передумывает" под давлением в диалоге — подкидывать аргументы по одному и ждать реакции бесполезно.

Примеры

[ПЛОХО] : Ты — скептичный венчурный инвестор. Ты считаешь, что большинство стартапов переоценены. Оцени мой питч и скажи, вложился бы ты.
[ХОРОШО] : Ты — венчурный инвестор с 15 годами практики в B2B-продуктах. Изучи питч и сформируй позицию самостоятельно — только после анализа всех данных. Правила: взвешивай всё честно, не цепляйся за первое впечатление, если аргумент убедителен — обнови мнение. --- [Питч: бот автоматизирует запись клиентов для малого бизнеса. Рынок: 2,3 млн индивидуальных предпринимателей. Цена: 990 руб/мес. Уже 47 платящих клиентов за 2 месяца. Отток — 8%.] Шаг 1: выпиши что в питче сильно и что слабо. Шаг 2: вложился бы — да или нет, и почему. Шаг 3: какие вопросы задал бы на встрече.
Источник: 12 AngryAIAgents: Evaluating Multi-Agent LLM Decision-Making Through Cinematic Jury Deliberation
ArXiv ID: 2605.01986 | Сгенерировано: 2026-05-05 05:40

Проблемы LLM

ПроблемаСутьКак обойти
Роль с начальной позицией блокирует анализПишешь "ты скептичный эксперт". Модель фиксирует позицию сразу. Дальше она зачитывает аргументы, но не меняет вывод. Дискуссия выглядит настоящей — исход предрешён с первой строки. Добавить инструкцию "будь непредвзятым" не помогает. Модель её читает, но игнорирует. Причина: RLHF-обучение тренирует модель быть последовательной. Смена заявленной позиции — нарушение этого паттернаНе давай стартовую позицию. Дай роль без установки ("ты опытный инвестор", не "ты скептик"). Добавь явную инструкцию: "взвешивай все аргументы, меняй мнение если аргумент убедителен". Пусть сама придёт к выводу из данных
LLM придумывает консенсус которого нетПросишь сыграть дискуссию нескольких экспертов в одном чате. Модель склонна завершить сцену «красиво» — изобрести согласие или вывод, даже если реального консенсуса нет. Это не результат анализа. Это закрытие сценыЯвно запрети это в запросе: "не заканчивай дискуссию придуманным консенсусом. Если согласия нет — так и напиши"

Методы

МетодСуть
Де-якорный запрос — роль без позицииТри шага в одном запросе. 1. Дай роль без оценочных слов: не "скептичный директор", а "директор по маркетингу с опытом в e-commerce". 2. Добавь инструкцию гибкости: "взвешивай все доказательства честно, не цепляйся за первое впечатление, меняй позицию если аргумент весомый". 3. Структурируй шаги: сначала "выпиши сильное и слабое", потом "сформулируй позицию". Почему работает: Нет якоря = нечего защищать. Модель приходит к выводу через данные, а не возвращается к заданному настроению. Структура шагов разделяет сбор фактов и вывод — снижает импульсивность первого суждения. Когда не работает: Если даёшь аргументы по очереди в диалоге и ждёшь что модель "передумает" под давлением — не сработает. Лучше давать все данные сразу
📖 Простыми словами

12 AngryAIAgents: Evaluating Multi-AgentLLMDecision-Making Through Cinematic Jury Deliberation

arXiv: 2605.01986

Мультиагентные системы на базе LLM сейчас пытаются продать как идеальный инструмент для принятия решений, но на деле они страдают от жесткого якорного эффекта. Суть в том, что если ты даешь модели роль — например, «скептичного инвестора» или «придирчивого редактора», — она превращается в фанатика. Модель не анализирует аргументы, она просто отрабатывает сценарий. Даже если оппонент разложит по фактам, почему позиция модели ошибочна, она вежливо выслушает и продолжит гнуть свою линию. Дискуссия превращается в имитацию, где исход предопределен первой же строчкой промпта.

Это как если бы ты нанял на работу профессионального спорщика, которому платят за сам процесс, а не за поиск истины. Формально всё выглядит солидно: аргументы, контраргументы, вежливые обороты. Но по факту это интеллектуальный тупик. Спорщик не может признать правоту другого, потому что тогда он перестанет выполнять свою функцию «спорщика». В итоге ты получаешь не объективный анализ, а просто театр безопасности, где нейронка имитирует раздумья, намертво прилипнув к выданному ей «якорю».

Исследователи проверили это на симуляции судебного процесса «12 разгневанных нейросетей» и выяснили, что 10 из 12 агентов не меняют мнение, даже если доказательства кричат об обратном. Единственное, что хоть как-то шевелит это болото — метод динамического пересмотра ролей. Это когда посреди дискуссии ты принудительно заставляешь модель сменить сторону или просишь её «забыть» прошлую роль и оценить ситуацию с чистого листа. Без этого костыля любая мультиагентная система — это просто хор, где каждый поет свою ноту, не слушая соседа.

Принцип универсален: это касается не только судов или инвестиций, но и любой попытки использовать AI для брейншторма или критики кода. Если ты просишь ChatGPT «побыть адвокатом дьявола», не жди от него объективности. Он будет топить твою идею просто потому, что ты так сказал, а не потому, что идея плохая. SEO-подход к ролям здесь не работает: нельзя просто накидать эпитетов в промпт и ждать глубокой аналитики. Нужно закладывать в систему механизмы, которые буквально заставляют модель сомневаться в себе.

Короче: не надейся, что толпа AI-агентов сама договорится до истины. Без жесткого контроля и принудительной смены позиций ты получишь эхо-комнату, где каждый агент просто подтверждает свой изначальный глюк. Якорный эффект — это баг обучения, и пока мы его не пофиксим, мультиагентные системы будут оставаться красивой, но бесполезной игрушкой для имитации бурной деятельности. Хочешь честный фидбек — заставляй модель спорить саму с собой в несколько итераций, а не надейся на «коллективный разум».

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с