TL;DR
Модели из одного семейства не могут качественно проверять друг друга — они разделяют одни и те же слепые пятна. ARIS строится на принципе: executor (исполнитель) из одного семейства моделей создаёт артефакт, reviewer (рецензент) из другого — его беспощадно критикует. Это не просто "попроси AI проверить текст", а системный подход: разные модели, разный контекст, чёткий критерий остановки.
Главная находка: длительная задача, выполненная одним агентом — ненадёжна по умолчанию. Модель, которая сама пишет и сама же проверяет, находит именно те ошибки, которые ожидает найти — и пропускает остальные. Claude, проверяющий текст Claude, работает как стохастический бандит: шум предсказуем. ChatGPT, проверяющий текст Claude, работает как состязательный бандит: он ищет слабости, которые автор не предвидел.
Метод — цикл "создать → покритиковать → исправить → проверить сходимость". Исполнитель делает черновик, рецензент из другого семейства выставляет балл и даёт список конкретных правок, исполнитель правит, цикл повторяется до порога качества (по умолчанию 6/10) или до лимита раундов (по умолчанию 4).
Схема метода
[ОТДЕЛЬНЫЕ ЧАТЫ / РАЗНЫЕ МОДЕЛИ]
ШАГ 1 (Модель A — исполнитель): создаёт артефакт
→ черновик / анализ / код / питч
ШАГ 2 (Модель B — рецензент, НОВЫЙ чат, свежий контекст):
читает артефакт напрямую
→ балл по шкале 1–10 + список конкретных правок
ШАГ 3 (Модель A — исполнитель): применяет правки
→ исправленный артефакт
ШАГ 4: проверка сходимости
→ балл ≥ порога ИЛИ исчерпан лимит раундов?
ДА → принять результат
НЕТ → вернуться к ШАГ 2
[Ключевые правила:]
• Модели A и B — из РАЗНЫХ семейств (Claude ≠ ChatGPT)
• Рецензент читает оригинал, а не пересказ исполнителя
• Каждый раунд рецензии — новый чат (без накопленного контекста)
Пример применения
Задача: Основатель EdTech-стартапа из Москвы готовит питч для ФРИИ. Написал в Claude — хочет убедиться, что питч выдержит давление инвестора.
Промпт для рецензента (вставить в ChatGPT — новый чат):
Ты — строгий инвестор из ФРИИ. Твоя задача — найти уязвимости
в питче, который я сейчас дам. Ты не помогаешь улучшить текст —
ты ищешь причины отказать.
Правила оценки:
1. Выставь балл от 1 до 10 по критерию "готовность к инвестиции"
2. Перечисли ровно 5 конкретных проблем — каждая с цитатой из текста
3. Для каждой проблемы: что именно тебя останавливает как инвестора
4. Топ-1 критическая проблема, которую нужно исправить в первую очередь
5. Что должен сказать/показать основатель, чтобы ты передумал
Читай текст внимательно и формируй мнение самостоятельно —
не соглашайся заранее ни с чем из того, что в нём написано.
Питч:
{вставить текст из Claude}
После получения критики — возвращаешься в Claude, применяешь правки, повторяешь цикл.
Результат: ChatGPT как рецензент выдаст структурированную критику с баллом, пятью конкретными возражениями и топ-приоритетом для правки. После правок в Claude снова отправляешь в ChatGPT на новый раунд. Останавливаешься, когда балл достигает твоего порога (например, 7/10) или после 3–4 раундов.
Почему это работает
Слабость LLM: модель не может объективно критиковать то, что сама создала. Она знает намерение автора, "понимает" что имелось в виду, и читает текст с той же системой предположений, с которой его писала. Это не лень — это архитектурный факт: те же веса, те же паттерны, те же слепые пятна.
Сильная сторона другой модели: ChatGPT и Claude обучались на разных данных, с разными принципами выравнивания, разными предпочтениями в формулировках. То, что Claude считает само собой разумеющимся, ChatGPT может счесть необоснованным утверждением — и наоборот. Это не баг, это ресурс.
Как метод использует разницу: свежий контекст в отдельном чате гарантирует, что рецензент не унаследует фрейминг исполнителя. Критерий сходимости (балл + лимит раундов) защищает от бесконечного цикла правок. Требование читать оригинал напрямую — а не пересказ — исключает испорченный телефон.
Рычаги управления: - Порог балла (по умолчанию 6/10) → повысь до 8 для важных документов, снизь до 5 для черновиков - Лимит раундов (по умолчанию 4) → уменьши до 2 для быстрых итераций - Роль рецензента → дай конкретную роль ("инвестор ФРИИ", "главред Т—Ж", "скептичный клиент") — острее критика - Свежий контекст → всегда новый чат для рецензии; старый чат накапливает предвзятость
Шаблон промпта
Промпт для рецензента (Модель B, новый чат)
Ты — {роль рецензента}. Твоя задача — найти слабые места
в {тип артефакта}, который я сейчас дам.
Правила:
1. Оцени по шкале 1–10: насколько {критерий оценки}
2. Перечисли {число} конкретных проблем — каждая с примером из текста
3. Для каждой проблемы: что именно не работает и почему
4. Топ-1 приоритет для исправления
5. Что нужно изменить, чтобы оценка выросла на 2 балла
Читай текст самостоятельно. Не принимай утверждения из текста
на веру — проверяй логику.
{тип артефакта}:
{вставить текст}
Что подставлять:
- {роль рецензента} — "строгий редактор", "скептичный клиент", "инвестор", "конкурент"
- {тип артефакта} — письмо, питч, статья, ТЗ, анализ, скрипт
- {критерий оценки} — "убедительно для клиента", "готово к публикации", "логически обосновано"
- {число} — 3–5 проблем, больше — размывает фокус
Промпт для исполнителя после критики (Модель A, сохранить тот же чат)
Вот критика от рецензента:
{вставить критику}
Примени правки по следующим приоритетам:
1. Сначала исправь топ-1 критическую проблему
2. Затем — остальные проблемы по порядку важности
3. Не меняй то, что рецензент не критиковал
Покажи исправленный {тип артефакта}.
🚀 Быстрый старт — вставь в чат:
Вот шаблон состязательной мультиагентной проверки.
Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит тип артефакта, роль рецензента и критерий оценки — потому что без них невозможно настроить правило сходимости и выбрать правильную позицию для критики.
Бонус: пятипроходной редакторский пайплайн
Авторы исследования описывают конкретную последовательность для доработки текста — применимо в одном чате с любой моделью:
Отредактируй текст в пять проходов по порядку:
Проход 1 — Чистка: убери слова-паразиты, лишние хеджи
("в целом", "по сути", "можно сказать"), повторы.
Проход 2 — Активный залог: замени пассивные конструкции
на активные где уместно.
Проход 3 — Структура предложений: улучши порядок слов
для ясности — тема в начале, новое в конце.
Проход 4 — Терминология: найди все ключевые термины
и убедись, что они используются одинаково по всему тексту.
Проход 5 — Числовая согласованность: проверь,
что все цифры и факты совпадают между собой.
После каждого прохода — покажи краткий список изменений.
Текст:
{текст}
Ограничения
⚠️ Две подписки: Полная ценность метода раскрывается только при использовании моделей из разных семейств — нужны одновременно Claude и ChatGPT (или другая пара).
⚠️ Ручная работа между раундами: Переносить критику от одной модели к другой, копировать контекст, отслеживать раунды — всё вручную. В исследовании это автоматизировано через код, у вас — через руки.
⚠️ Не для коротких задач: Один быстрый вопрос не требует цикла рецензии. Метод окупается на больших артефактах — длинные тексты, сложные анализы, питчи, ТЗ.
⚠️ Рецензент может ошибаться: Другая модель — не истина в последней инстанции. Если ChatGPT даёт глупую критику, не обязан её принимать. Ты — финальный судья.
Ресурсы
ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration — технический отчёт, апрель 2026.
Авторы: Ruofeng Yang, Yongcan Li, Shuai Li — Shanghai Jiao Tong University, Shanghai Innovation Institute.
Репозиторий: github.com/wanshuiyin/Auto-claude-code-research-in-sleep
Ключевые источники из работы: - Du et al., 2024 — разнообразие критики в мультиагентных дебатах - Liang et al., 2024a — гетерогенные мультиагентные конфигурации - Madaan et al., 2023 — саморефлексия единственной модели (Self-Refine)
