3,583 papers
arXiv:2605.03950 76 5 мая 2026 г. FREE

UnAC (Understanding, Abstracting, Checking): трёхшаговый метод работы с изображениями через абстракцию и пошаговую проверку

КЛЮЧЕВАЯ СУТЬ
Обнаружено: 58% ошибок в задачах с изображениями — не потому что модель «плохо думает», а потому что она неверно прочла картинку. Сказать «подумай лучше» здесь бесполезно. UnAC позволяет задавать сложные вопросы по дашбордам, схемам, графикам — и получать точные ответы, а не уверенные догадки. Метод заставляет модель сначала «записать» изображение словами — а потом рассуждать по тексту, шаг за шагом проверяя каждый промежуточный вывод по исходной картинке. Задача из «сложной визуальной» становится обычной текстовой — а с текстом модель не плывёт.
Адаптировать под запрос

TL;DR

Когда даёшь ChatGPT или Claude сложный вопрос по картинке — модель часто отвечает неверно не потому что «плохо думает», а потому что неправильно прочитала изображение. Она смешивает детали, упускает ключевые элементы, хватается за что попало. UnAC решает это через трёхшаговую структуру: сначала задать правильные вопросы к картинке, потом перевести её в текст, потом проверять каждый шаг рассуждений по отдельности.

Главная находка: модель не умеет «разобрать» картинку так же легко, как разбирает текст. С текстом она движется последовательно — слово за словом. С изображением — хватает первое, что бросилось в глаза, и строит на этом ответ. Результат: 58% ошибок в визуальных задачах происходят из-за неверного прочтения или потери деталей картинки, а не из-за слабого рассуждения. Это значит, что «подумай лучше» здесь не помогает — нужно сначала «посмотри правильно».

Метод работает в три шага за один или несколько запросов. Шаг 1 — выяснить, на что смотреть в картинке. Шаг 2 — переложить изображение в текст: описать глобально и детально только то, что важно для вопроса. Шаг 3 — разбить вопрос на подвопросы и проверять каждый ответ по отдельности, сверяясь с исходным изображением.


🔬

Схема метода

ШАГ 1 — Понимание (что искать в картинке)
Запрос к модели: «Что нужно найти на изображении, чтобы ответить на вопрос [X]?»
→ Модель перечисляет объекты/данные/текст, нужные для ответа

ШАГ 2 — Абстракция (перевод картинки в текст)
Запрос: «Опиши изображение целиком. Затем — конкретно те части, которые связаны с [X]»
→ Двухуровневое текстовое описание: глобальное + целевое

ШАГ 3 — Постепенная проверка (ответы по шагам)
Запрос: «Раздели вопрос на подвопросы. Ответь на каждый и проверь ответ по картинке
перед переходом к следующему. Итоговый ответ — на основе всех проверенных шагов»
→ Цепочка: Q1/A1 → проверка → Q2/A2 → проверка → ... → финальный вывод

⚠️ Все три шага можно объединить в один запрос или разбить на три отдельных.

Важно: Шаг 1 в оригинальном исследовании требует внешних инструментов (сегментация изображения, OCR). В обычном чате с ChatGPT-4o или Claude его можно выполнить через текстовый запрос — модель сама скажет, на что смотреть.


🚀

Пример применения

Задача: Ты — продавец на Wildberries. Загружаешь скриншот из личного кабинета — сложный дашборд с несколькими графиками: выручка, заказы, возвраты, конверсия. Хочешь понять, почему в прошлую неделю упала выручка.

**Промпт:**

У меня скриншот аналитики из личного кабинета Wildberries. Работаем по шагам.

**Шаг 1 — Что нужно найти:**
Мой вопрос: «Почему на прошлой неделе упала выручка?»
Перечисли, какие данные на дашборде помогут ответить на этот вопрос.

**Шаг 2 — Опиши изображение:**
Сначала — что вообще видишь на экране: какие блоки, графики, цифры.
Затем — детально опиши только те части, которые связаны с падением выручки.

**Шаг 3 — Ответ по подвопросам с проверкой:**
Раздели вопрос о падении выручки на 3-4 подвопроса.
Ответь на каждый — и прежде чем перейти к следующему, проверь ответ по данным на скриншоте.
В конце — вывод: что стало главной причиной.

Результат: Модель сначала скажет какие метрики нужны для диагностики — это сфокусирует внимание. Потом даст двухуровневое описание: общая картина дашборда и детальный разбор графиков выручки/заказов/возвратов. Затем пошагово разберёт: упал трафик? упала конверсия? выросли возвраты? — проверяя каждую гипотезу по цифрам на скриншоте. Финальный вывод будет конкретным, а не расплывчатым «скорее всего дело в сезонности».


🧠

Почему это работает

Проблема: Модель обрабатывает картинку «одним взглядом» — формирует общее представление и строит на нём ответ. Если важная деталь оказалась на периферии или слилась с фоном — она потеряна. Исправить это внутри одного запроса сложно: модель не умеет «посмотреть заново» без явной инструкции.

Сила модели: Зато текст она разбирает отлично — последовательно, структурированно, с проверкой. Если перевести картинку в текст (это и есть абстракция), задача из визуально-сложной становится текстово-обычной.

Как метод использует это: Шаг 2 делает ровно это — заставляет модель «записать» изображение словами прежде, чем рассуждать. Шаг 3 usеет другую слабость: модель склонна проверять всё рассуждение разом в конце — и это почти не работает, потому что ошибка в шаге 2 тащит за собой шаги 3 и 4. Пошаговая проверка ловит ошибку там, где она возникла.

Рычаги управления: - Количество подвопросов → для простых картинок достаточно 2-3, для сложных схем/графиков — 5-6 - Детальность абстракции → добавь «не упускай цифры и подписи» для дашбордов и таблиц - Явная привязка к картинке → в шаге 3 добавь «процитируй конкретные данные с изображения» — модель будет реже фантазировать - Фокус шага 1 → вместо открытого вопроса укажи домен: «Найди только числовые показатели» или «Найди только текстовые подписи»


📋

Шаблон промпта

На изображении [краткое описание что на картинке].
Мой вопрос: {вопрос}

Работаем по шагам:

**Шаг 1 — Что искать:**
Какие данные или объекты на изображении нужны, чтобы ответить на мой вопрос?
Перечисли их.

**Шаг 2 — Опиши изображение:**
Сначала — общее описание (что вообще видишь).
Затем — детальное описание только тех частей, которые связаны с вопросом {вопрос}.

**Шаг 3 — Ответ по подвопросам:**
Раздели мой вопрос на {число_подвопросов} подвопросов.
Ответь на каждый по отдельности.
Перед переходом к следующему подвопросу — проверь свой ответ по данным на изображении.
После всех шагов — дай финальный ответ.

Что подставлять: - {вопрос} — конкретный вопрос по изображению, а не «расскажи об этом» - {число_подвопросов} — 3 для простых задач, 5-6 для сложных схем/таблиц/графиков - Краткое описание картинки в первой строке помогает модели быстрее ориентироваться


🚀 Быстрый старт — вставь в чат:

Вот шаблон UnAC — метода анализа изображений через абстракцию и пошаговую проверку.
Адаптируй под мою задачу: [опиши свою задачу и что за картинка].
Задавай уточняющие вопросы, чтобы заполнить шаблон.

[вставить шаблон выше]

LLM спросит какой именно вопрос ты хочешь задать по изображению и сколько шагов проверки нужно — потому что без конкретного вопроса шаг 1 не работает: нет цели, нет фокуса.


💡

Адаптации и экстраполяции

🔧 Техника: только шаг 3 (градуальная проверка) без изображения → пошаговая верификация текстовых рассуждений

Принцип пошаговой проверки работает и без картинки. Для любой задачи с несколькими шагами — бизнес-расчёт, анализ ситуации, юридический разбор — можно попросить модель: «Раздели задачу на подвопросы. Ответь на каждый. Перед следующим шагом проверь предыдущий ответ на соответствие условию задачи.» Это прямая адаптация шага 3 без визуальной части — работает в обычном текстовом диалоге.


🔧 Техника: шаг 2 (абстракция) для голосовых описаний или PDF

Принцип «перевести нетекстовое в текст перед рассуждением» работает не только с картинками. Если вставляешь в чат транскрипт переговоров или скан документа — попроси сначала: «Прежде чем отвечать, выдели из этого текста только информацию, связанную с вопросом [X]. Запиши её структурированно.» Ты принудительно запускаешь абстракцию — и снижаешь шанс, что модель зацепится за нерелевантный контекст.


⚠️

Ограничения

⚠️ Шаг 1 требует инструментов в оригинале: Адаптивная визуальная разметка (сегментация объектов, наложение меток) работает только при наличии внешних инструментов — SEEM и easyOCR. В обычном чате шаг 1 упрощается до текстового запроса «что нужно найти» — эффект есть, но слабее.

⚠️ Слабые модели получают меньше: Метод лучше работает на сильных моделях (GPT-4o, Gemini). Маленькие и более слабые модели хуже справляются с качественной абстракцией и проверкой — они сами становятся узким местом.

⚠️ Не для простых вопросов: Для простого «что изображено на картинке» или «какой цвет машины» — три шага избыточны. Метод нужен там, где вопрос требует нескольких шагов рассуждения и нескольких деталей с изображения.

⚠️ Reasoning — всё ещё узкое место: Даже после правильной абстракции, если задача требует сложного многошагового вывода (геометрия, математика), около 42% ошибок остаются — это ошибки рассуждения, которые визуальные улучшения не исправляют.


🔍

Как исследовали

Исследователи взяли три бенчмарка с разными типами визуальных задач: MathVista (математика по картинкам), MM-Vet (комплексные вопросы по изображениям) и MMMU (экспертные задачи). Протестировали на шести моделях — от тяжеловесов GPT-4V и Gemini до компактных LLaVA. Сравнивали с тремя методами-конкурентами: SoM (визуальная разметка регионов), CCoT (цепочка-мыслей через граф сцены) и SKETCHPAD.

Интересная деталь дизайна: чтобы разобраться почему метод помогает, исследователи вручную проанализировали ошибки, которые UnAC исправил. Разбили их на 4 категории: неверное прочтение картинки, потеря контекста, ошибка рассуждения, фактическая ошибка. Оказалось, что 58% исправлений на MathVista пришлись на первые две категории — то есть почти 60% ошибок были не в рассуждении, а в восприятии изображения. Это и стало главным обоснованием метода.

Неожиданный результат: простое добавление визуальных маркеров (SoM) без абстракции и проверки не только не помогло на некоторых задачах GPT-4V — оно принесло небольшой регресс. Маркеры без структуры рассуждения могут запутать модель, а не помочь ей.


🔗

Ресурсы

UnAC: Adaptive Visual Prompting with Abstraction and Stepwise Checking for Complex Multimodal Reasoning Yifan Wang, Yun Fu — Northeastern University Бенчмарки: MathVista (Lu et al., 2023), MM-Vet (Yu et al., 2023), MMMU (Yue et al., 2023) Инструменты в оригинале: SEEM (сегментация), easyOCR


📋 Дайджест исследования

Ключевая суть

Обнаружено: 58% ошибок в задачах с изображениями — не потому что модель «плохо думает», а потому что она неверно прочла картинку. Сказать «подумай лучше» здесь бесполезно. UnAC позволяет задавать сложные вопросы по дашбордам, схемам, графикам — и получать точные ответы, а не уверенные догадки. Метод заставляет модель сначала «записать» изображение словами — а потом рассуждать по тексту, шаг за шагом проверяя каждый промежуточный вывод по исходной картинке. Задача из «сложной визуальной» становится обычной текстовой — а с текстом модель не плывёт.

Принцип работы

Три шага за один запрос или три — как удобно. Сначала — фокус: спроси у модели, на что вообще смотреть, чтобы ответить на твой вопрос. Без этого она хватается за случайные детали — те, что ярче или крупнее. Потом — абстракция: попроси описать изображение дважды. Сначала — в целом, что видит. Затем — только части, связанные с вопросом. Это конвертация: из картинки в текст, с которым модель работает последовательно и точно. Потом — пошаговая проверка: раздели вопрос на 3-5 подвопросов. Ответ на каждый — с явной проверкой по изображению перед переходом к следующему. Ошибка ловится там, где возникла, а не тянет за собой всю цепочку.

Почему работает

Модель обрабатывает изображение иначе чем текст. С текстом — последовательно, слово за словом. С картинкой — одним общим «взглядом», после которого строит внутреннее представление. Если важная деталь оказалась на периферии или слилась с фоном — она потеряна, и модель об этом не знает. Перевод картинки в текст убирает этот затык: дальше модель работает со структурированным описанием, а не с размытым «впечатлением» от изображения. Пошаговая проверка добивает вторую проблему — цепочку ошибок. Если модель сбилась на шаге 2, шаги 3 и 4 наследуют эту ошибку молча. Явная проверка после каждого подвопроса ловит проблему немедленно.

Когда применять

Везде, где по картинке нужен конкретный вывод, а не просто описание → анализ дашбордов со скриншота, особенно когда данных много и они перемешаны; разбор схем, диаграмм, технических чертежей — когда нужно понять связи, а не перечислить что нарисовано; вопросы к сложным таблицам или инфографике с цифрами. НЕ подходит: когда вопрос простой («что изображено на картинке?») — три шага здесь избыточны. И не поможет, если само изображение низкого качества — текстовое описание плохой картинки тоже будет плохим.

Мини-рецепт

1. Скажи что за картинка: одной строкой — не описание, а тип: «скриншот дашборда», «технический чертёж», «график из отчёта». Это помогает модели сориентироваться быстрее.

2. Шаг 1 — спроси что искать: Мой вопрос: [твой вопрос]. Что на изображении нужно найти, чтобы ответить? Модель сама составит список нужных данных и объектов — это фокусирует внимание до начала анализа.

3. Шаг 2 — два описания: Опиши изображение в целом. Затем — детально только те части, которые связаны с [твой вопрос]. Два уровня: общее плюс целевое. Для дашбордов добавь: «не упускай числа и подписи к осям».

4. Шаг 3 — разбей на подвопросы: Раздели вопрос на 3-5 подвопросов. Отвечай на каждый по отдельности. Перед переходом к следующему — проверь ответ по данным на изображении. В конце — итоговый вывод.

5. Добавь привязку к картинке: в шаге 3 вставь «процитируй конкретные данные с изображения» — модель будет реже фантазировать и чаще ссылаться на реальные цифры.

Примеры

[ПЛОХО] : Почему упала выручка на прошлой неделе? (прикрепил скриншот дашборда — и всё)
[ХОРОШО] : На скриншоте — аналитический дашборд из личного кабинета. Шаг 1: Мой вопрос — почему упала выручка на прошлой неделе. Какие данные на дашборде нужны для ответа? Перечисли. Шаг 2: Опиши дашборд в целом — что видишь. Затем детально — блоки с выручкой, заказами и возвратами. Не упускай числа и подписи к осям. Шаг 3: Раздели вопрос о падении выручки на 4 подвопроса. Ответь на каждый и процитируй конкретные данные с изображения. Перед переходом к следующему — проверь ответ по скриншоту. В конце — главная причина.
Источник: UnAC: Adaptive Visual Prompting with Abstraction and Stepwise Checking for Complex Multimodal Reasoning
ArXiv ID: 2605.03950 | Сгенерировано: 2026-05-06 05:26

Проблемы LLM

ПроблемаСутьКак обойти
Модель читает картинку «одним взглядом» и теряет деталиТекст модель разбирает последовательно — слово за словом. С изображением иначе. Она формирует общее впечатление и строит ответ на нём. Если важная деталь оказалась на периферии или слилась с фоном — она потеряна навсегда. Просить «подумай лучше» не поможет. Модель уже не смотрит заново — она рассуждает на основе того, что «схватила» с первого взгляда. Итог: большинство ошибок по изображениям — это не слабое рассуждение, а неверное чтение картинкиПопроси модель сначала описать изображение словами — целиком, а потом только нужные части. Это переводит задачу из визуальной в текстовую. С текстом модель справляется хорошо

Методы

МетодСуть
Три шага для анализа изображений: найди опиши проверяй по шагамШаг 1. Спроси модель: «Что нужно найти на картинке, чтобы ответить на вопрос [X]?» Она перечислит нужные объекты и данные. Это фокусирует внимание до того, как начнётся анализ. Шаг 2. Попроси описать изображение на двух уровнях: сначала всё целиком, потом детально только те части, которые связаны с вопросом. Шаг 3. Попроси разбить вопрос на подвопросы. Пусть отвечает на каждый отдельно и проверяет ответ по картинке перед переходом к следующему. Финальный вывод — после всех шагов. Можно объединить в один запрос или разбить на три отдельных. Шаблон: «Раздели вопрос на [3–5] подвопросов. Ответь на каждый и процитируй данные с изображения. Только потом переходи к следующему.» Когда применять: сложные схемы, графики, таблицы, дашборды с несколькими блоками. Когда не нужно: простая картинка с одним объектом и прямым вопросом

Тезисы

ТезисКомментарий
Перевод изображения в текст убирает главную причину ошибокМодель обрабатывает текст хорошо: последовательно, структурированно. Изображение — плохо: целиком, без порядка. Если заставить модель сначала записать картинку словами, сложная визуальная задача становится обычной текстовой. Механика: модель не «смотрит» на картинку во время рассуждения. Она рассуждает по своему первому впечатлению. Текстовое описание заменяет это впечатление точной копией. Применяй: перед любым вопросом по сложному изображению добавляй «сначала опиши что видишь, потом отвечай»
📖 Простыми словами

UnAC: Adaptive VisualPromptingwith Abstraction and Stepwise Checking for Complex Multimodal Reasoning

arXiv: 2605.03950

Мультимодальные модели вроде GPT-4V или Claude лажают со сложными картинками не потому, что они тупые, а потому что они невнимательные. Когда ты кидаешь нейронке перегруженный график или схему, она не изучает их подетально, а делает быстрый «снимок» всей сцены целиком. В итоге важные цифры сливаются в кашу, а мелкие детали просто игнорируются. Метод UnAC (Universal Abstraction and Checking) — это костыль, который заставляет модель перестать галлюцинировать и начать смотреть на изображение глазами дотошного следователя.

Это как если бы ты попросил друга найти конкретный винтик в разобранном двигателе, а он просто мазнул взглядом по куче железа и сказал: "Вроде нет его там". Чтобы он его нашел, тебе нужно заставить его сначала составить список всех деталей, потом описать каждую словами и только после этого делать выводы. UnAC делает ровно это: он запрещает модели отвечать сразу, заставляя её сначала «перерисовать» картинку в текст через абстракцию, чтобы убрать визуальный шум.

Вся магия держится на трех этапах: адаптивные вопросы, текстовая абстракция и пошаговая проверка. Сначала система сама спрашивает себя: "А что на этой картинке вообще важно для ответа?". Затем она переводит визуальные данные в сухой текст — например, вместо картинки графика она пишет: "В понедельник было 100 заказов, во вторник — 50". И финальный аккорд — Stepwise Checking, когда модель проверяет каждый свой вывод на соответствие этой текстовой шпаргалке. Если на шаге два она придумала лишнего, проверка это отсечет.

Представь, что ты селлер на маркетплейсе и загружаешь в чат скриншот админки с десятью графиками, чтобы понять, почему упала выручка. Обычная модель может ляпнуть про плохие отзывы, просто потому что увидела красную иконку где-то сбоку. UnAC же сначала вычленит конкретные цифры из графиков заказов и возвратов, переведет их в таблицу и только потом скажет: "Друг, у тебя заказы на месте, но выросла комиссия логистики". Этот принцип структурированного восприятия работает везде: от анализа медицинских снимков до разбора сложных схем в учебниках.

Короче, пора признать: нейронки пока плохо справляются с хаосом на картинках, если их не ткнуть носом в детали. UnAC превращает процесс «взгляда» в процесс «чтения», где каждый шаг проверяется на вшивость. Если хочешь, чтобы AI перестал нести чушь по твоим скриншотам, заставляй его сначала описывать увиденное текстом, а потом рассуждать. Кто не внедрит такую проверку, так и будет получать ответы в стиле «я так вижу», которые не имеют ничего общего с реальностью.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с