TL;DR
Модели теряют до 30% точности, когда нужно решить задачу с картинкой. Причина — не незнание предмета, а неумение сначала разобрать изображение, а потом думать над задачей. Structured Multimodal Dialogue — метод, который разрывает эти два шага: сначала модель описывает визуальное содержимое, потом решает задачу.
Главная находка: на текстовых задачах модели отвечают верно в 96% случаев. Добавь картинку — точность падает до 64–89% в зависимости от модели. Авторы называют это Multimodal Interference Effect: визуальная обработка "перегружает" модель, и она начинает путать даже базовый смысл задачи — хотя предметные знания у неё никуда не исчезли. Это как умный человек, который отлично знает физику, но читает условие с листа вверх ногами.
Метод решает это трёхшаговым диалогом. Шаг 1: попроси модель описать изображение. Шаг 2: исправь только фактические ошибки восприятия (не подсказывай решение). Шаг 3: попроси решить задачу. Такая последовательность исправила 82% ошибок. Визуальные ошибки — 100% из 100%.
Схема метода
Все три шага — в одном диалоге (отдельные сообщения в одном чате)
ШАГ 1 → Первое сообщение:
Прикрепи изображение + попроси описать:
"Опиши, что ты видишь на этом изображении/графике"
→ Получаешь: текстовое описание визуала
ШАГ 2 → Твой ответ:
Проверь описание. Если что-то неверно — исправь
только визуальные факты (цифры, направления, подписи).
Не намекай на решение.
→ Получаешь: скорректированное восприятие
ШАГ 3 → Следующее сообщение:
"Теперь реши задачу: {задача}"
или: "Перечитай вопрос и реши задачу"
→ Получаешь: решение на основе верного восприятия
Пример применения
Задача: Ты видишь скриншот воронки продаж из Roistat — и хочешь понять, где самые большие потери. Цифры на скрине мелкие, конверсии перепутаны, модель явно что-то неправильно считывает с первого раза.
Промпт (Шаг 1):
[Прикрепи скриншот воронки]
Посмотри внимательно на это изображение.
Опиши точно, что на нём показано:
какие этапы, какие числа, какие конверсии между ними.
Перечисли всё, что видишь — по порядку сверху вниз.
Твоя реакция (Шаг 2):
Читаешь описание. Нашёл ошибку — например, модель перепутала этапы "Лид" и "Квалифицированный лид" или неверно прочитала цифру 1 200 как 1 20.
Пишешь: "Не совсем точно: на этапе 'Квалификация' не 340 заявок, а 3 400. И этот этап стоит после 'Лида', a не перед ним".
Промпт (Шаг 3):
Теперь на основе этих данных:
найди этап с наибольшей потерей клиентов в процентах
и предложи 2-3 гипотезы, почему конверсия просела именно здесь.
Результат: Модель выдаст анализ по правильным данным — найдёт узкое место воронки, назовёт конкретный показатель потерь, предложит гипотезы. Без шага 1-2 она бы анализировала искажённую картинку и давала неверные выводы.
Почему это работает
Слабость LLM: модель обрабатывает текст и картинку одновременно, "в один проход". Это перегрузка. Визуальная часть требует отдельного внимания — прочитать оси, разобрать подписи, запомнить цифры. Это "занимает место" и сбивает модель при постановке задачи. Результат — ошибки появляются не потому что модель не знает физику или маркетинг, а потому что неверно прочитала исходные данные.
Сильная сторона LLM: когда данные поданы текстом — модель рассуждает отлично. Именно поэтому на текстовых задачах точность 96%. Знания есть. Проблема в чтении, не в мышлении.
Как метод использует это: метод разрывает два процесса. Сначала — только восприятие изображения (шаг 1). Потом — исправление восприятия человеком (шаг 2). И только потом — работа с данными (шаг 3). Ты, по сути, превращаешь изображение в проверенный текст — и дальше модель работает в своей сильной зоне.
Рычаги управления промптом:
- Детализация описания в шаге 1 → проси "назови все числа и подписи" для сложных графиков, или "опиши общую структуру" для схем
- Объём коррекции в шаге 2 → исправляй только факты, не давай намёков на решение (это принципиально — иначе ты решаешь задачу сам)
- Формулировка шага 3 → если описание было длинным, добавь "перечитай вопрос" перед "реши", чтобы модель не потеряла цель
- Несколько изображений → прогоняй каждое отдельно через шаги 1-2, потом запускай шаг 3 со всеми описаниями
Шаблон промпта
Шаг 1 — Описание:
[Прикрепи изображение]
Опиши подробно, что ты видишь на этом изображении.
{Уточнение под задачу: "Перечисли все числа и подписи" /
"Опиши структуру и связи" / "Назови все элементы сверху вниз"}
Шаг 2 — Твоя коррекция (если нужна):
Поправка: {исправь только визуальный факт — цифру, направление, порядок}.
{Другие детали} верны.
Шаг 3 — Задача:
Теперь, основываясь на этих данных, {задача}.
Что подставлять:
- {Уточнение} — зависит от типа изображения: графики → числа и оси; схемы → связи и порядок; таблицы → заголовки и значения
- {исправь только визуальный факт} — не объясняй задачу, только исправляй восприятие
- {задача} — твой вопрос, который не менялся с самого начала
🚀 Быстрый старт — вставь в чат:
Вот трёхшаговый метод работы с изображениями (Structured Multimodal Dialogue).
Адаптируй под мою задачу: {опиши свою задачу}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит, что за тип изображения и какая конечная задача — потому что от этого зависит, что просить описать в шаге 1 и как сформулировать шаг 3.
Ограничения
⚠️ Ошибки контекста плохо исправляются: Если модель с самого начала неверно поняла суть задачи (а не просто визуальный факт) — метод помогает только в 44% случаев. Описание изображения не всегда лечит неверную логику постановки.
⚠️ Требует человеческой проверки: Шаг 2 — это ты. Нужно самому знать, что правильно на изображении. Если ты тоже не уверен — метод не поможет.
⚠️ Не для задач с рисованием: Если нужно, чтобы модель создала или изменила изображение — не подходит. Только анализ готовых изображений.
⚠️ Маленькая выборка: 44 задачи — это немного. Стопроцентное исправление визуальных ошибок впечатляет, но нижняя граница доверительного интервала — 81%. Нужны бо́льшие исследования для уверенности.
Как исследовали
Команда взяла 100 текстовых и 44 задачи с изображениями из OpenStax — открытого учебника физики для вузов. Три модели (Claude, Gemini, ChatGPT) решали задачи в одинаковых условиях. Сначала — чистый текст, потом — задачи с графиками, диаграммами, таблицами. Правильность проверяла отдельная мультимодельная LLM-система.
Интересная деталь: в текстовых задачах модели были практически неотличимы — 96% у всех трёх. Но как только появились картинки, разрыв стал статистически значимым. Это значит, что "умность" модели в тексте не предсказывает её способность работать с визуалом.
Ошибки разложили на четыре типа и обнаружили кое-что важное: вычислительные ошибки встречались только в текстовых задачах, а визуальные ошибки — только в мультимодальных. Это говорит о том, что картинка не просто добавляет сложность — она создаёт другой вид ошибок. Значит, нужны другие стратегии исправления.
Потом применили трёхшаговый диалог ко всем неверным ответам. Исправили 28 из 34 ошибок. Визуальные — 100%. Контекстные — 44%. Разница оказалась ключевым инсайтом: если модель неверно видит — это лечится. Если неверно понимает смысл задачи — это сложнее.
Оригинал из исследования
The intervention followed a three-step dialogue:
(i) "Describe what you observe in the figure/graph,"
(ii) researcher correction of any misidentified visual elements
[corrections were restricted to observable visual properties
in order to align the model's perception with the source image.
Researcher input was limited to clarifying the direction of a force vector,
or the numerical value of a graph's intercept
without providing any hints regarding the underlying physics principles or formulas.]
(iii) "Solve the problem"
(or "Read the question again and solve the problem"
when the description was lengthy)
Контекст: Это точный протокол интервенции из раздела Methods. Важна пометка про шаг (ii): исправлять только визуальные факты, никаких намёков на физику или метод решения — иначе ты сам решаешь задачу.
Адаптации и экстраполяции
💡 Адаптация для медицины и здоровья
Тот же протокол работает для анализа снимков, результатов анализов, медицинских графиков.
[Прикрепи снимок/результат]
Опиши, что ты видишь на этом изображении:
все видимые структуры, отметки, числа, аномалии.
Будь максимально конкретен.
→ Проверяешь, нет ли явных ошибок восприятия.
Теперь объясни мне простыми словами,
что означают эти показатели для здоровья.
⚠️ Не для диагностики. Для понимания и подготовки вопросов к врачу.
💡 Адаптация для дизайн-ревью и UX
[Прикрепи скриншот интерфейса]
Опиши структуру этого экрана:
какие элементы есть, где они расположены,
что написано, какая иерархия.
→ Если что-то неверно — поправляешь.
Теперь найди 3 проблемы с точки зрения UX
и предложи как их исправить.
🔧 Техника: убрать человека из шага 2 → автоматический режим
Если ты не можешь проверить описание сам (например, работаешь быстро), замени шаг 2 на самопроверку модели:
[Шаг 1 — описание]
Теперь перечитай своё описание и проверь:
всё ли ты прочитал правильно?
Есть ли что-то, в чём ты не уверен на изображении?
[Шаг 3 — задача]
Эффект слабее (нет внешней проверки), но лучше чем сразу "реши задачу". Подходит для низкоставочных задач, где точность не критична.
Ресурсы
Название работы: A Dialogue-Based Framework for Correcting Multimodal Errors in AI-Assisted STEM Education
Авторы: Akshay Syal, Lawrence Swaminathan Xavier Prince, Evin Gultepe, Nik Bear Brown, Srinivas Sridhar
Учебная база: OpenStax Physics — openstax.org
Аффиляция: Northeastern University (по авторскому профилю Nik Bear Brown)
