3,583 papers
arXiv:2605.04131 83 5 мая 2026 г. FREE

Structured Multimodal Dialogue: трёхшаговый метод исправления ошибок при работе с изображениями

КЛЮЧЕВАЯ СУТЬ
С 96% до 64% — один скриншот. Модель не забыла предмет: она пытается одновременно разобрать картинку и решить задачу — и ломается на стыке. Structured Multimodal Dialogue позволяет получить точный анализ любого изображения — графика, воронки, схемы — даже когда модель с первого раза читает его криво. Фишка: метод разрывает два процесса — сначала модель только описывает изображение, ты исправляешь восприятие, и только потом она решает задачу. 82% ошибок исправлено. Визуальные — 100% из 100%.
Адаптировать под запрос

TL;DR

Модели теряют до 30% точности, когда нужно решить задачу с картинкой. Причина — не незнание предмета, а неумение сначала разобрать изображение, а потом думать над задачей. Structured Multimodal Dialogue — метод, который разрывает эти два шага: сначала модель описывает визуальное содержимое, потом решает задачу.

Главная находка: на текстовых задачах модели отвечают верно в 96% случаев. Добавь картинку — точность падает до 64–89% в зависимости от модели. Авторы называют это Multimodal Interference Effect: визуальная обработка "перегружает" модель, и она начинает путать даже базовый смысл задачи — хотя предметные знания у неё никуда не исчезли. Это как умный человек, который отлично знает физику, но читает условие с листа вверх ногами.

Метод решает это трёхшаговым диалогом. Шаг 1: попроси модель описать изображение. Шаг 2: исправь только фактические ошибки восприятия (не подсказывай решение). Шаг 3: попроси решить задачу. Такая последовательность исправила 82% ошибок. Визуальные ошибки — 100% из 100%.


🔬

Схема метода

Все три шага — в одном диалоге (отдельные сообщения в одном чате)

ШАГ 1 → Первое сообщение:
Прикрепи изображение + попроси описать:
"Опиши, что ты видишь на этом изображении/графике"
→ Получаешь: текстовое описание визуала

ШАГ 2 → Твой ответ:
Проверь описание. Если что-то неверно — исправь 
только визуальные факты (цифры, направления, подписи).
Не намекай на решение.
→ Получаешь: скорректированное восприятие

ШАГ 3 → Следующее сообщение:
"Теперь реши задачу: {задача}"
или: "Перечитай вопрос и реши задачу"
→ Получаешь: решение на основе верного восприятия

🚀

Пример применения

Задача: Ты видишь скриншот воронки продаж из Roistat — и хочешь понять, где самые большие потери. Цифры на скрине мелкие, конверсии перепутаны, модель явно что-то неправильно считывает с первого раза.

Промпт (Шаг 1):

[Прикрепи скриншот воронки]

Посмотри внимательно на это изображение. 
Опиши точно, что на нём показано: 
какие этапы, какие числа, какие конверсии между ними. 
Перечисли всё, что видишь — по порядку сверху вниз.

Твоя реакция (Шаг 2):

Читаешь описание. Нашёл ошибку — например, модель перепутала этапы "Лид" и "Квалифицированный лид" или неверно прочитала цифру 1 200 как 1 20.

Пишешь: "Не совсем точно: на этапе 'Квалификация' не 340 заявок, а 3 400. И этот этап стоит после 'Лида', a не перед ним".

Промпт (Шаг 3):

Теперь на основе этих данных:
найди этап с наибольшей потерей клиентов в процентах 
и предложи 2-3 гипотезы, почему конверсия просела именно здесь.

Результат: Модель выдаст анализ по правильным данным — найдёт узкое место воронки, назовёт конкретный показатель потерь, предложит гипотезы. Без шага 1-2 она бы анализировала искажённую картинку и давала неверные выводы.


🧠

Почему это работает

Слабость LLM: модель обрабатывает текст и картинку одновременно, "в один проход". Это перегрузка. Визуальная часть требует отдельного внимания — прочитать оси, разобрать подписи, запомнить цифры. Это "занимает место" и сбивает модель при постановке задачи. Результат — ошибки появляются не потому что модель не знает физику или маркетинг, а потому что неверно прочитала исходные данные.

Сильная сторона LLM: когда данные поданы текстом — модель рассуждает отлично. Именно поэтому на текстовых задачах точность 96%. Знания есть. Проблема в чтении, не в мышлении.

Как метод использует это: метод разрывает два процесса. Сначала — только восприятие изображения (шаг 1). Потом — исправление восприятия человеком (шаг 2). И только потом — работа с данными (шаг 3). Ты, по сути, превращаешь изображение в проверенный текст — и дальше модель работает в своей сильной зоне.

Рычаги управления промптом:

  • Детализация описания в шаге 1 → проси "назови все числа и подписи" для сложных графиков, или "опиши общую структуру" для схем
  • Объём коррекции в шаге 2 → исправляй только факты, не давай намёков на решение (это принципиально — иначе ты решаешь задачу сам)
  • Формулировка шага 3 → если описание было длинным, добавь "перечитай вопрос" перед "реши", чтобы модель не потеряла цель
  • Несколько изображений → прогоняй каждое отдельно через шаги 1-2, потом запускай шаг 3 со всеми описаниями

📋

Шаблон промпта

Шаг 1 — Описание:

[Прикрепи изображение]

Опиши подробно, что ты видишь на этом изображении.
{Уточнение под задачу: "Перечисли все числа и подписи" / 
"Опиши структуру и связи" / "Назови все элементы сверху вниз"}

Шаг 2 — Твоя коррекция (если нужна):

Поправка: {исправь только визуальный факт — цифру, направление, порядок}.
{Другие детали} верны.

Шаг 3 — Задача:

Теперь, основываясь на этих данных, {задача}.

Что подставлять: - {Уточнение} — зависит от типа изображения: графики → числа и оси; схемы → связи и порядок; таблицы → заголовки и значения - {исправь только визуальный факт} — не объясняй задачу, только исправляй восприятие - {задача} — твой вопрос, который не менялся с самого начала


🚀 Быстрый старт — вставь в чат:

Вот трёхшаговый метод работы с изображениями (Structured Multimodal Dialogue). 
Адаптируй под мою задачу: {опиши свою задачу}. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит, что за тип изображения и какая конечная задача — потому что от этого зависит, что просить описать в шаге 1 и как сформулировать шаг 3.


⚠️

Ограничения

⚠️ Ошибки контекста плохо исправляются: Если модель с самого начала неверно поняла суть задачи (а не просто визуальный факт) — метод помогает только в 44% случаев. Описание изображения не всегда лечит неверную логику постановки.

⚠️ Требует человеческой проверки: Шаг 2 — это ты. Нужно самому знать, что правильно на изображении. Если ты тоже не уверен — метод не поможет.

⚠️ Не для задач с рисованием: Если нужно, чтобы модель создала или изменила изображение — не подходит. Только анализ готовых изображений.

⚠️ Маленькая выборка: 44 задачи — это немного. Стопроцентное исправление визуальных ошибок впечатляет, но нижняя граница доверительного интервала — 81%. Нужны бо́льшие исследования для уверенности.


🔍

Как исследовали

Команда взяла 100 текстовых и 44 задачи с изображениями из OpenStax — открытого учебника физики для вузов. Три модели (Claude, Gemini, ChatGPT) решали задачи в одинаковых условиях. Сначала — чистый текст, потом — задачи с графиками, диаграммами, таблицами. Правильность проверяла отдельная мультимодельная LLM-система.

Интересная деталь: в текстовых задачах модели были практически неотличимы — 96% у всех трёх. Но как только появились картинки, разрыв стал статистически значимым. Это значит, что "умность" модели в тексте не предсказывает её способность работать с визуалом.

Ошибки разложили на четыре типа и обнаружили кое-что важное: вычислительные ошибки встречались только в текстовых задачах, а визуальные ошибки — только в мультимодальных. Это говорит о том, что картинка не просто добавляет сложность — она создаёт другой вид ошибок. Значит, нужны другие стратегии исправления.

Потом применили трёхшаговый диалог ко всем неверным ответам. Исправили 28 из 34 ошибок. Визуальные — 100%. Контекстные — 44%. Разница оказалась ключевым инсайтом: если модель неверно видит — это лечится. Если неверно понимает смысл задачи — это сложнее.


📄

Оригинал из исследования

The intervention followed a three-step dialogue: 

(i) "Describe what you observe in the figure/graph,"

(ii) researcher correction of any misidentified visual elements 
[corrections were restricted to observable visual properties 
in order to align the model's perception with the source image. 
Researcher input was limited to clarifying the direction of a force vector, 
or the numerical value of a graph's intercept 
without providing any hints regarding the underlying physics principles or formulas.]

(iii) "Solve the problem" 
(or "Read the question again and solve the problem" 
when the description was lengthy)

Контекст: Это точный протокол интервенции из раздела Methods. Важна пометка про шаг (ii): исправлять только визуальные факты, никаких намёков на физику или метод решения — иначе ты сам решаешь задачу.


💡

Адаптации и экстраполяции

📌

💡 Адаптация для медицины и здоровья

Тот же протокол работает для анализа снимков, результатов анализов, медицинских графиков.

[Прикрепи снимок/результат]

Опиши, что ты видишь на этом изображении: 
все видимые структуры, отметки, числа, аномалии.
Будь максимально конкретен.

→ Проверяешь, нет ли явных ошибок восприятия.

Теперь объясни мне простыми словами, 
что означают эти показатели для здоровья.

⚠️ Не для диагностики. Для понимания и подготовки вопросов к врачу.


📌

💡 Адаптация для дизайн-ревью и UX

[Прикрепи скриншот интерфейса]

Опиши структуру этого экрана: 
какие элементы есть, где они расположены, 
что написано, какая иерархия.

→ Если что-то неверно — поправляешь.

Теперь найди 3 проблемы с точки зрения UX 
и предложи как их исправить.

📌

🔧 Техника: убрать человека из шага 2 → автоматический режим

Если ты не можешь проверить описание сам (например, работаешь быстро), замени шаг 2 на самопроверку модели:

[Шаг 1 — описание]

Теперь перечитай своё описание и проверь: 
всё ли ты прочитал правильно? 
Есть ли что-то, в чём ты не уверен на изображении?

[Шаг 3 — задача]

Эффект слабее (нет внешней проверки), но лучше чем сразу "реши задачу". Подходит для низкоставочных задач, где точность не критична.


🔗

Ресурсы

Название работы: A Dialogue-Based Framework for Correcting Multimodal Errors in AI-Assisted STEM Education

Авторы: Akshay Syal, Lawrence Swaminathan Xavier Prince, Evin Gultepe, Nik Bear Brown, Srinivas Sridhar

Учебная база: OpenStax Physics — openstax.org

Аффиляция: Northeastern University (по авторскому профилю Nik Bear Brown)


📋 Дайджест исследования

Ключевая суть

С 96% до 64% — один скриншот. Модель не забыла предмет: она пытается одновременно разобрать картинку и решить задачу — и ломается на стыке. Structured Multimodal Dialogue позволяет получить точный анализ любого изображения — графика, воронки, схемы — даже когда модель с первого раза читает его криво. Фишка: метод разрывает два процесса — сначала модель только описывает изображение, ты исправляешь восприятие, и только потом она решает задачу. 82% ошибок исправлено. Визуальные — 100% из 100%.

Принцип работы

Не смешивай чтение картинки и решение задачи в один запрос — это два разных процесса, и мозгов на оба сразу не хватает. Прикол: проблема не в знаниях, а в многозадачности. Читать изображение и думать над задачей одновременно — для модели как читать условие задачи вверх ногами. Знания есть. Чтение подводит. Три шага в одном чате: описаниекоррекциярешение. Ты, по сути, переводишь изображение в проверенный текст — и дальше модель работает там, где у неё 96% точности.

Почему работает

На чистых текстовых задачах модели отвечают верно в 96% случаев. Добавь изображение — точность падает до 64–89%. Авторы называют это Multimodal Interference Effect: визуальная обработка занимает место в голове модели, и она начинает путать базовый смысл задачи — хотя предметные знания никуда не делись. Ключевой инсайт: проблема в чтении, не в мышлении. Метод убирает это узкое место: сначала достаёшь текстовое описание изображения, проверяешь его сам — и только потом запускаешь мышление. Модель работает в своей сильной зоне.

Когда применять

Любая задача с изображением → особенно для графиков, скриншотов с цифрами, технических схем, таблиц с мелким шрифтом. Лучше всего работает когда: изображение содержит конкретные числа или подписи, которые легко прочитать неверно; задача чувствительна к точности данных — финансовый анализ, инженерные схемы, медицинские снимки. НЕ подходит для: случаев, когда ты сам не знаешь что правильно на изображении (шаг 2 требует твоей проверки); задач на генерацию или редактуру изображений; ситуаций когда модель неверно поняла суть задачи целиком — тут метод помогает только в 44% случаев.

Мини-рецепт

1. Отправь изображение с запросом описать: прикрепи картинку и напиши: Опиши подробно, что ты видишь — все числа, подписи, структуру, порядок элементов. Для графиков добавь: Назови оси и все значения. Для схем: Опиши связи и порядок сверху вниз.
2. Проверь описание сам: прочитай что модель написала. Нашёл ошибку — неверное число, перепутанный порядок, неправильную подпись? Напиши только исправление факта: Поправка: на оси Y не 1 000, а 10 000. Остальное верно. Никаких намёков на решение — только восприятие.
3. Задай задачу: Теперь реши: {твой вопрос}. Если описание было длинным — добавь перед вопросом: Перечитай задачу и реши её, чтобы модель не потеряла цель.

Примеры

[ПЛОХО] : [прикрепи скриншот воронки] Где в этой воронке самые большие потери и почему?
[ХОРОШО] : Шаг 1: [прикрепи скриншот воронки] Опиши точно, что видишь: какие этапы, какие числа на каждом, какие конверсии между ними — по порядку сверху вниз Шаг 2 (если модель ошиблась): Поправка: на этапе «Квалификация» не 340, а 3 400 заявок. И он стоит после «Лида», а не перед ним. Остальное верно Шаг 3: Теперь найди этап с наибольшей потерей клиентов в процентах и предложи 2–3 гипотезы почему конверсия просела именно здесь
Источник: A Dialogue-Based Framework for Correcting Multimodal Errors in AI-Assisted STEM Education
ArXiv ID: 2605.04131 | Сгенерировано: 2026-05-07 05:34

Проблемы LLM

ПроблемаСутьКак обойти
Модель читает картинку плохо — и портит весь ответДаёшь изображение с задачей. Модель обрабатывает их одновременно. Визуальная часть — оси, цифры, подписи — требует отдельного внимания. Его не хватает. Модель неверно читает данные. Потом рассуждает на основе неверных данных. Ошибка строится на ошибке. Предметные знания при этом никуда не деваются — ломается именно чтение, не мышлениеРазбей на шаги. Сначала попроси только описать изображение. Проверь описание сам. Исправь только визуальные ошибки — цифры, подписи, порядок. Потом задай задачу. Модель решает уже по исправленным данным

Методы

МетодСуть
Сначала восприятие, потом задача — три шага для работы с изображениямиШаг 1. Прикрепи изображение. Попроси только описать: "Опиши точно, что видишь: все числа, подписи, порядок элементов". Не давай задачу ещё. Шаг 2. Прочитай описание. Нашёл ошибку — исправь только визуальный факт: "Поправка: на этом этапе 3 400, а не 340. Остальное верно". Не намекай на решение — иначе ты решаешь задачу сам. Шаг 3. Дай задачу: "Теперь на основе этих данных: {вопрос}". Если описание было длинным — добавь: "Перечитай вопрос и реши". Почему работает: ты превращаешь изображение в проверенный текст. Модель дальше работает с текстом — а на текстовых задачах она сильна. Когда не работает: модель неверно поняла суть задачи (не визуальный факт) — исправляется только в половине случаев. Также требует, чтобы ты сам знал правильный ответ на шаге 2
📖 Простыми словами

A Dialogue-Based Framework for Correcting Multimodal Errors inAI-Assisted STEM Education

arXiv: 2605.04131

AI-ассистенты тупят на задачах с картинками не потому, что они глупые, а потому что пытаются делать два дела одновременно: и разглядывать детали, и решать уравнение. В этом и есть фундаментальная ошибка: модель обрабатывает визуал и логику в один проход, из-за чего в мозгах у нейронки случается каша. Она банально путает цифры на осях или не замечает мелкую подпись, а потом на основе этого мусора строит «гениальные» выводы. Чтобы это исправить, нужно внедрять Structured Multimodal Dialogue — метод, который заставляет AI сначала протереть глаза, а потом уже открывать рот.

Это как пытаться собрать шкаф из Икеи, одновременно читая инструкцию и прикручивая полку, не глядя на детали. В итоге ты вкручиваешь саморез не туда, потому что показалось, что это та самая доска. Метод предлагает сначала разложить все детали на полу, вслух проговорить: "Так, у меня три длинных палки и пакет с болтами", и только когда инвентаризация закончена, брать в руки шуруповерт. Без этого этапа модель ведет себя как самоуверенный стажер, который лажает в 30% случаев просто из-за невнимательности.

Технически это работает через трехшаговый диалог в одном чате. Сначала ты просишь модель сделать визуальное описание: просто перечислить, что она видит на графике или схеме, без попыток что-то решить. Затем идет этап коррекции, где ты (или сама система) проверяешь, не привиделись ли ей розовые слоны вместо цифр. И только в финале, когда база данных в чате зафиксирована текстом, дается команда на решение задачи. Разрыв этих процессов на отдельные сообщения позволяет модели сфокусировать всё «внимание» сначала на зрении, а потом на логике.

Хотя исследование проводили на задачах из области STEM (физика, химия, математика), принцип абсолютно универсален. Это жизненно важно для любого бизнеса, где есть графики: от воронки продаж в Roistat до сложных дашбордов в Tableau. Если ты просто закинешь скриншот и спросишь "Где мы теряем деньги?", модель может выдать полную херню, перепутав конверсии. Но если заставить её сначала оцифровать скриншот в текст, точность взлетает, потому что текстовый контекст для LLM — это родная стихия, а картинка — всегда зона риска.

Короче, хватит ждать от нейронок магии «в один клик» на сложных данных. Главный вывод: сначала описание, потом решение. Если модель не проговорила вслух, что именно она видит на картинке, она с вероятностью в треть ошибется в выводах. Используй структурированный диалог, заставляй AI фиксировать вводные данные текстом, и только потом требуй аналитику. Кто пренебрегает этим правилом, тот получает галлюцинации на ровном месте и слитые бюджеты.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с