3,583 papers
arXiv:2605.01604 76 2 мая 2026 г. FREE

7 паттернов тихого отказа AI: как модель выглядит правильной, пока ломается внутри

КЛЮЧЕВАЯ СУТЬ
Правильный вывод, ложное объяснение — и стандартные метрики этого вообще не видят. Это хуже случайной ошибки: её труднее поймать именно потому, что всё выглядит правильно. Четыре из семи паттернов тихого отказа AI переводятся в конкретные промпт-техники для обычного чата — без кода, без инфраструктуры. Ключевая из них — тест возмущения: убери один факт и проверь, изменился ли вывод. Если нет — объяснение модели было украшением, а не причиной.
Адаптировать под запрос

TL;DR

AI может давать связный, уверенный, внутренне непротиворечивый вывод — и при этом быть системно неправильным. Исследование описывает 7 паттернов, при которых стандартные способы проверки качества не замечают поломки. Все семь наблюдались в реальных системах, обрабатывающих миллиарды событий в день.

Главная находка — иллюзия когерентности: когда AI делает ошибку на раннем шаге, каждый следующий шаг добавляет "подтверждения" правильности первого. Итоговый ответ выглядит аргументированным и уверенным — но его фундамент неверный с самого начала. Это хуже случайной ошибки: её сложнее заметить именно потому, что всё выглядит правильно. Второй опасный паттерн: AI даёт правильный ответ с ложным объяснением — и стандартные метрики этого вообще не замечают.

Для каждого паттерна есть конкретный способ обнаружения. Большинство из них переводятся в промпт-техники для обычного чата: проверка уверенности на каждом шаге, тест объяснения через "а что если", перефразирование задачи для проверки согласованности, явное разделение "того что считаем" и "того чего хотим на самом деле".


📌

Схема: 7 паттернов и как их ловить

ПАТТЕРН 1: Иллюзия когерентности (Cascade Error)
  Ошибка шага 1 → шаг 2 подтверждает → шаг 3 подтверждает → 
  итог: уверенный, связный, неправильный вывод
  ЧЕМ ЛОВИТЬ → проверка уверенности на каждом шаге

ПАТТЕРН 2: Тихая деградация из-за устаревших данных (Tool Cascade)
  Источник вернул неполные данные → модель не сообщила →
  вывод выглядит полным, но сделан на пустоте
  ЧЕМ ЛОВИТЬ → явный запрос полноты источников

ПАТТЕРН 3: Схлопывание разнообразия (Distribution Collapse)
  Метрики хорошие → но все ответы становятся похожи →
  система "застряла" в узком паттерне
  ЧЕМ ЛОВИТЬ → аудит разнообразия выводов

ПАТТЕРН 4: Непоследовательность на разных формулировках (Consistency Collapse)
  "Есть ли доступ у пользователя X?" через разные поверхности →
  разные ответы на один и тот же вопрос
  ЧЕМ ЛОВИТЬ → перефразирование + сравнение результатов

ПАТТЕРН 5: Ложное объяснение правильного вывода (Explanation Decoupling)
  Вывод правильный → но объяснение указывает на неверную причину →
  отладка идёт не туда, аудит вводит в заблуждение
  ЧЕМ ЛОВИТЬ → тест возмущения (что изменится если убрать X?)

ПАТТЕРН 6: Тихая деградация под нагрузкой (Latency Pressure)
  Система перегружена → переключается на упрощённый путь →
  метрики зелёные, качество тихо ухудшилось
  ЧЕМ ЛОВИТЬ → корреляция нагрузки и качества

ПАТТЕРН 7: Дрейф к прокси-цели (Proxy Goal Convergence)
  Цель — "полезный контент" → метрика — кликабельность →
  модель оптимизирует клики, теряет полезность
  ЧЕМ ЛОВИТЬ → разделение прокси-метрики и истинной цели

🚀

Пример применения

Самые применимые паттерны для обычного чата: FM-1 (иллюзия когерентности в многошаговых задачах), FM-5 (тест объяснения), FM-4 (тест согласованности), FM-7 (прокси vs истинная цель).


Задача: Ты попросил Claude проанализировать идею нового продукта — мобильное бронирование столиков в ресторанах класса "выше среднего" в Москве. Модель выдала уверенный анализ: "Высокий потенциал, аудитория платёжеспособная, конкуренция умеренная." Ты хочешь проверить — это реальный анализ или иллюзия когерентности?

Промпт (тест FM-5 — проверка объяснения):

Ты только что написал, что у идеи "высокий потенциал" и "умеренная конкуренция".

Проверь своё объяснение через тест возмущения:

1. Что изменится в твоём выводе, если я скажу, что Яндекс Рестораны 
   уже занимают 60% этого сегмента в Москве?

2. Что изменится в выводе, если целевая аудитория — рестораны 
   со средним чеком 3000+ рублей, а не масс-маркет?

3. Какой факт, если бы он изменился, сделал бы твой вывод 
   "высокий потенциал" неверным?

Если твой вывод не меняется ни при одном из этих изменений — 
объясни почему. Если меняется — скорректируй исходную оценку.

Результат: Если объяснение модели было реальным — она скорректирует оценку при значимых изменениях вводных. Если объяснение было "украшением" уже готового вывода — она либо не изменит ответ вообще, либо начнёт противоречить себе. Это и есть FM-5 в действии: тест показывает, связано ли объяснение с фактическими причинами вывода.


🧠

Почему это работает

LLM генерирует текст по паттерну — следующий токен, наиболее вероятный с учётом предыдущего. Внутренняя согласованность текста для модели — это её "комфортная зона". Чем дольше контекст, тем сильнее давление продолжать в том же духе. Поэтому ранняя ошибка в многошаговом рассуждении усиливается, а не компенсируется: модель нанизывает аргументы, которые делают ошибочный фундамент ещё более "очевидным".

Тест возмущения ломает этот паттерн принудительно. Когда ты убираешь конкретный фактор и спрашиваешь "что изменится?", модель вынуждена заново проверить связь между объяснением и выводом. Если связь была поверхностной — это немедленно обнаруживается.

Тест согласованности работает иначе: ты подаёшь одну задачу в двух разных формулировках и сравниваешь ответы. Если ответы существенно расходятся — модель реагирует на форму вопроса, а не на суть. Это прямой признак FM-4.

Рычаги управления: - Число шагов в проверке возмущения → больше тестовых сценариев = строже проверка логики - Формулировка "что изменится" vs "измени вывод" → первое честнее, второе провоцирует согласие - Явный запрос на несогласие ("найди 3 причины почему твой вывод неверен") → активирует критический режим, снижает давление когерентности


📋

Шаблон промпта

📌

Шаблон 1: Тест объяснения (FM-5)

Ты только что дал вывод: {вывод_модели}.

Проверь это объяснение через тест возмущения:

1. Что изменится в выводе, если {ключевой_факт_1} окажется неверным?
2. Что изменится, если {ключевой_факт_2} изменится на противоположное?
3. Какой один факт, если бы он изменился, сделал бы твой вывод ложным?

Если вывод не меняется ни при одном изменении — объясни почему.
Если меняется — скорректируй исходный вывод.
📌

Шаблон 2: Тест согласованности (FM-4)

Я дам тебе два описания одной задачи — сформулированные по-разному.
Дай ответ на каждое независимо, затем сравни ответы.

Формулировка А: {задача_формально}
Формулировка Б: {та_же_задача_неформально}

Если ответы расходятся — объясни почему. Какой из ответов ближе 
к правильному и почему?
📌

Шаблон 3: Разделение прокси и истинной цели (FM-7)

Моя задача: {задача}

Явная метрика успеха (что легко измерить): {прокси_метрика}
Истинная цель (что я на самом деле хочу): {настоящая_цель}

Сначала реши задачу под настоящую цель, игнорируя прокси.
Затем проверь: улучшает ли решение прокси-метрику или нет?
Если они расходятся — объясни почему и предложи компромисс.
📌

Шаблон 4: Проверка уверенности в многошаговом рассуждении (FM-1)

Реши задачу пошагово: {задача}

На каждом шаге:
- Укажи что делаешь
- Оцени свою уверенность в этом шаге (0–100%)
- Если уверенность ниже 70% — остановись и напиши 
  "ТОЧКА НЕОПРЕДЕЛЁННОСТИ: [что именно неясно]"
  вместо того чтобы продолжать с непроверенным допущением

🚀 Быстрый старт — вставь в чат:

Вот шаблон для проверки качества AI-объяснений. 
Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про твой конкретный вывод, который хочешь проверить, и какие факты считать ключевыми — потому что тест возмущения работает только на конкретных переменных, а не на абстрактных "предположениях".


⚠️

Ограничения

⚠️ FM-6 и FM-2 почти не применимы в чате: Деградация под нагрузкой и проблема устаревших инструментов — это системные паттерны. В обычном чате у тебя нет инструментов (если не используешь агентов) и нет latency budget. Эти два паттерна актуальны только при работе с AI-агентами, которые сами обращаются к внешним источникам.

⚠️ FM-3 слабее в одном сеансе: Схлопывание разнообразия — это долгосрочный паттерн, заметный через десятки сессий. В одном разговоре его сложнее поймать. Помогает явный запрос разнообразия: "Дай 5 вариантов, намеренно разных, не похожих друг на друга."

⚠️ Тест возмущения требует, чтобы ты знал что проверять: FM-5 работает только если ты понимаешь, какие факторы должны влиять на вывод. Модель не покажет тебе сама, что её объяснение фиктивное — ты должен задать нужные вопросы.

⚠️ Сам метод — инфраструктурный код: PAEF (Production Agentic Evaluation Framework) — готовая система с Python-реализацией для мониторинга продакшен-систем. Для обычного чата нужны только принципы, не код.


🔗

Ресурсы

Evaluating Agentic AI in the Wild: Failure Modes, Drift Patterns, and a Production Evaluation Framework — Mukund Pandey, Independent Researcher

Открытая реализация PAEF: github.com/mukund1985/llm-eval-toolkit

Связанные работы упомянутые в статье: HELM, BIG-bench, MT-Bench, AgentBench, WebArena, SWE-bench — бенчмарки для оценки LLM. SHAP, LIME — методы post-hoc объяснения модельных решений. Goodhart's Law — принцип из экономики: "когда мера становится целью, она перестаёт быть хорошей мерой" — фундамент FM-7.


📋 Дайджест исследования

Ключевая суть

Правильный вывод, ложное объяснение — и стандартные метрики этого вообще не видят. Это хуже случайной ошибки: её труднее поймать именно потому, что всё выглядит правильно. Четыре из семи паттернов тихого отказа AI переводятся в конкретные промпт-техники для обычного чата — без кода, без инфраструктуры. Ключевая из них — тест возмущения: убери один факт и проверь, изменился ли вывод. Если нет — объяснение модели было украшением, а не причиной.

Принцип работы

Главный враг — иллюзия связности. Ранняя ошибка в многошаговом рассуждении не исправляется, а усиливается. Каждый следующий шаг добавляет «подтверждения» неверному фундаменту. Итог — уверенный, аргументированный, внутренне непротиворечивый вывод. Который неверен с первого шага. Четыре способа это сломать: - Тест возмущения (FM-5): убери ключевой факт — что изменится в выводе? - Тест согласованности (FM-4): задай одну задачу двумя разными формулировками — совпадут ли ответы? - Проверка уверенности (FM-1): на каждом шаге — оценка уверенности, остановка при <70% - Разделение прокси и цели (FM-7): явно назови что легко измерить и что реально нужно Прикол: модель не покажет сама, что её объяснение фиктивное. Ты должен задать нужный вопрос.

Почему работает

LLM генерирует следующий токен по паттерну. Внутренняя связность текста — это её естественное состояние. Чем длиннее контекст, тем сильнее давление продолжать в том же духе. Ранняя ошибка не корректируется — она закрепляется. Модель нанизывает аргументы, которые делают неверный фундамент ещё более «очевидным». Тест возмущения ломает этот паттерн принудительно: модель вынуждена заново проверить связь между объяснением и выводом. Если связь была поверхностной — это видно немедленно. Паттерн FM-7 — отдельная история. Это закон Гудхарта в действии: когда мера становится целью, она перестаёт быть хорошей мерой. Модель улучшает кликабельность — и тихо теряет полезность. Метрики зелёные. Качество упало.

Когда применять

Везде, где AI делает многошаговый анализ и даёт обоснование — особенно когда ты принимаешь решение на основе объяснения, а не только вывода. Конкретно: оценка бизнес-идей и стратегий («высокий потенциал, умеренная конкуренция» — откуда это?), диагностика технических и юридических ситуаций, контент-стратегии где легко измеримый показатель (просмотры) подменяет настоящую цель (вовлечённость или продажи). НЕ подходит для FM-6 (деградация под нагрузкой) и FM-2 (устаревшие инструменты) — это системные паттерны, нужна агентная инфраструктура. В обычном чате не применимы.

Мини-рецепт

1. Раздели прокси и цель заранее: до начала задачи явно скажи модели: «Прокси-метрика (что легко измерить): X. Истинная цель (что реально нужно): Y. Реши под истинную цель, потом проверь — улучшилась ли прокси». Это блокирует FM-7 с самого начала.

2. Попроси пошаговое рассуждение с уверенностью: Реши пошагово. На каждом шаге — что делаешь и уверенность от 0 до 100%. При уверенности ниже 70% — остановись и напиши: ТОЧКА НЕОПРЕДЕЛЁННОСТИ: [что именно неясно]. Не продолжай с непроверенным допущением.

3. Запусти тест возмущения после любого уверенного вывода: Ты написал: [вывод]. Ответь на три вопроса: 1) Что изменится в выводе, если [ключевой факт 1] окажется неверным? 2) Что изменится, если [ключевой факт 2] изменится на противоположное? 3) Какой один факт сделал бы твой вывод ложным? Если ни одно изменение не влияет на вывод — объясни почему.

4. Проверь согласованность через перефразирование: задай ту же задачу заново другими словами — более формально или, наоборот, разговорно. Сравни ответы. Существенное расхождение — модель реагировала на форму вопроса, а не на суть. Это FM-4.

Примеры

[ПЛОХО] : Оцени идею: мобильное приложение для бронирования столиков в ресторанах Москвы
[ХОРОШО] : Оцени идею: мобильное приложение для бронирования столиков в ресторанах Москвы со средним чеком 3000+ рублей. После оценки — тест возмущения: 1. Что изменится в выводе, если Яндекс Рестораны уже занимают 60% этого сегмента? 2. Что изменится, если выяснится, что целевая аудитория — рестораны, которые принципиально не используют агрегаторы? 3. Какой один факт сделал бы твой вывод «высокий потенциал» неверным? Если вывод не меняется ни при одном изменении — объясни почему. Если меняется — скорректируй исходную оценку. Результат: если объяснение было реальным — модель скорректирует оценку. Если объяснение было украшением готового вывода — она либо не изменит ответ вообще, либо начнёт противоречить себе. Это и есть FM-5 в действии.
Источник: Evaluating Agentic AI in the Wild: Failure Modes, Drift Patterns, and a Production Evaluation Framework
ArXiv ID: 2605.01604 | Сгенерировано: 2026-05-05 05:41

Проблемы LLM

ПроблемаСутьКак обойти
Объяснение модели может не объяснять ничегоМодель даёт правильный вывод — и объясняет его. Но объяснение часто пристёгнуто после того как вывод уже сформирован. Оно не причина. Оно украшение. Проблема: отладка идёт по ложному следу. Меняешь то что модель назвала причиной — вывод не меняется. Потому что настоящая причина была другойТест возмущения: убери ключевой фактор из условий и спроси "что изменится в выводе если X окажется неверным?". Меняется — объяснение настоящее. Не меняется ни при чём — объяснение декоративное
Ошибка в начале цепочки рассуждений усиливается, а не исправляетсяМодель ошибается на шаге 1. Каждый следующий шаг добавляет аргументы которые делают эту ошибку "очевидной". К шагу 5 вывод выглядит уверенным и хорошо обоснованным. Но фундамент неверный с самого начала. Это хуже случайной ошибки: её сложнее заметить именно потому что всё выглядит правильноПопроси модель оценивать уверенность на каждом шаге явно: "на каждом шаге укажи уверенность от 0 до 100%. Если меньше 70% — остановись и напиши ТОЧКА НЕОПРЕДЕЛЁННОСТИ: [что непонятно]"

Методы

МетодСуть
Тест возмущения — проверяет не вывод, а объяснениеБерёшь вывод который тебе дала модель. Называешь 2–3 фактора которые по логике должны влиять на этот вывод. Спрашиваешь: "что изменится в твоём выводе если факт X окажется неверным?". Главный вопрос: "Какой один факт, если бы изменился, сделал бы твой вывод ложным?" Почему работает: Если связи нет — модель не сможет назвать такой факт или изменит вывод произвольно. Это сразу видно. Если связь есть — модель скорректирует оценку при значимых изменениях. Шаблон: Ты дал вывод: {вывод}. Что изменится если {факт_1} окажется неверным? Что изменится если {факт_2} изменится на противоположное? Какой факт, если изменится, сделает твой вывод ложным? Когда не работает: не знаешь какие факторы должны влиять на вывод — тогда и проверять нечего
Тест согласованности через перефразированиеЗадаёшь одну и ту же задачу дважды: официально и неформально. Или с числами и без. Или активным и пассивным залогом. Сравниваешь ответы. Почему работает: Если модель реагирует на суть — ответы совпадут. Если реагирует на форму — расходятся. Расхождение = модель угадывает что ты хочешь услышать из слов, а не решает задачу. Шаблон: Дай ответ на каждое описание независимо, затем сравни. Формулировка А: {задача формально}. Формулировка Б: {та же задача неформально}. Если ответы расходятся — какой ближе к правильному и почему?
Явное разделение метрики и цели до начала задачиПеред сложной задачей явно пишешь две вещи: что легко измерить и что ты на самом деле хочешь. Почему работает: Без разделения модель оптимизирует то что легко схватить из формулировки. Это почти всегда не то что нужно. Явное разделение заставляет модель удерживать оба уровня. Шаблон: Моя задача: {задача}. Что легко измерить: {прокси}. Что я на самом деле хочу: {настоящая цель}. Реши под настоящую цель. Затем проверь: улучшает ли решение прокси или нет? Если расходятся — объясни и предложи компромисс Когда особенно важно: задачи на "улучши текст", "сделай убедительнее", "оптимизируй" — там прокси особенно соблазнительна

Тезисы

ТезисКомментарий
Объяснение модели — не обязательно причина её выводаМодель генерирует текст последовательно. Вывод формируется раньше объяснения. Объяснение нанизывается следом — как обоснование уже принятого решения. Это не ложь. Это архитектура: следующий токен вероятнее всего тот, который продолжает текущий контекст. Объяснение "вписывается" в вывод, а не предшествует ему. Применяй: не верь объяснению автоматически. Проверяй тестом возмущения: если убрать "причину" — изменится ли вывод?
📖 Простыми словами

EvaluatingAgenticAIin the Wild: Failure Modes, Drift Patterns, and a Production Evaluation Framework

arXiv: 2605.01604

Суть проблемы в том, что современные AI-агенты — это патологические лжецы, которые сами верят в свою правду. Когда модель строит цепочку рассуждений, она не ищет истину, а просто подбирает наиболее вероятные слова. Если на первом шаге случился микро-сбой, система не остановится, а начнет выстраивать вокруг этой ошибки идеально логичный забор. В итоге ты получаешь ответ, который выглядит связно, уверенно и профессионально, но при этом является абсолютной чушью от первого до последнего слова.

Это как если бы ты нанял бухгалтера, который в первой строчке отчета ошибся в знаке, а потом потратил сорок страниц на то, чтобы виртуозно подогнать все остальные цифры под этот неверный результат. Формально дебет с кредитом сошелся, отчет выглядит солидно, но по факту фирма — банкрот. Модель просто находится в своей «комфортной зоне» генерации текста, где внутренняя непротиворечивость важнее реальности.

Исследователи выделили конкретные грабли, на которые наступают даже системы с миллиардным трафиком. Самые подлые — это FM-1 (иллюзия когерентности), когда многошаговая задача превращается в уверенный марш в пропасть, и FM-7 (подмена целей), когда AI оптимизирует красивые метрики вместо реального результата. Есть еще тест объяснения (FM-5): если заставить модель обосновать свой бред, она сделает это так убедительно, что ты сам начнешь сомневаться в своей адекватности.

Этот принцип универсален: он работает и в простом чате, и в сложных корпоративных агентах, которые управляют закупками или поддержкой. Стандартные методы проверки качества тут пасуют, потому что они ищут ошибки в тексте, а текст — идеален. Мы входим в эпоху GEO и агентских систем, где старые метрики «похожести» на правильный ответ больше не катят. Если система выглядит логичной, это еще не значит, что она не лажает прямо сейчас.

Короче, пора перестать доверять «уверенному тону» нейросетей. Главный вывод исследования: связность текста — это не признак качества, а побочный эффект работы алгоритма. Чтобы не влететь на деньги или репутацию, нужно внедрять фреймворки оценки, которые ищут системный дрейф и логические дыры, а не просто проверяют грамматику. Иначе ты рискуешь построить бизнес на фундаменте из красивых галлюцинаций, которые рассыпаются при первом же столкновении с реальностью.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с