База практического промптинга по науке
Техники, доказанные исследованиями
NovaPaperAlert
Уведомления о новых исследованиях
Обнаружено: AI ошибается не потому, что плохо рассуждает — а потому что читает пересказ вместо оригинала. Из 357 неправильных ответов 92% исчезли, когда модели дали полный текст разговора вместо сжатого. Архитектура True Memory позволяет хранить информацию дословно и искать точно в момент запроса — а не решать заранее, что важно. Фишка: сжатие до запроса — лотерея. Когда ты ещё не знаешь что спросишь через неделю — ты не знаешь что выбросить.
Парадокс: чем подробнее объясняешь LLM свои критерии оценки, тем дальше она уходит от твоего реального вкуса. Метод scored-примеров позволяет настроить модель под личный стиль оценки — питчей, резюме, текстов — без абстрактных правил и лекций о своих принципах. Вместо «я ценю конкретику и честность» — три реальных примера из практики: объект + твоя оценка + одна строка почему. Модель видит вход → выход и подстраивает паттерн под тебя, а не пытается угадать смысл твоих слов.
Обнаружено: когда просишь LLM «сократи» — она сама решает что важно. И ошибается. Число 4.8% рядом с длинным абзацем кажется ей незначительным — вылетает. «30 календарных дней» превращается в «30 дней» — суть потеряна. «X потому что Y» становится «X. Y.» — связь оборвана. Telegraph English (TE) меняет постановку задачи: вместо «реши что важно» — «перекоди по правилам». Метод вводит ~40 символов (→ причинность, ∴ вывод, ↑ рост) и жёсткую грамматику: одна строка — одно утверждение, числа всегда с единицами, нет местоимений без имени сущности — модель не угадывает важность, она сохраняет всё в компактной форме. Результат: 50% меньше токенов, 99.1% точности на ключевых фактах.
78% ответов при перефразировании — без нужного ярлыка. Смысл тот же, слова другие — и модель бросает формат и пишет простыню вместо одного слова. Метод Format Lock позволяет зафиксировать формат ответа так, что он держится независимо от того, как именно сформулирован промпт. Фишка: повтори допустимые варианты ответа в самой последней строке — прямо там, где модель начинает генерировать. Это финальный триггер, и он перебивает все инструкции выше.
Парадокс: включаешь thinking mode — модель пишет три абзаца про ответственность, долгосрочные последствия и принципы. Но финальная рекомендация та же, что была бы без единого токена рассуждений. Эксперимент на пяти топовых моделях зафиксировал: смена итогового «да/нет» происходит в 1–9% случаев, а смена этической рамки обоснования — в 9–19%. Thinking mode меняет упаковку вдвое чаще, чем само решение. Понимание этого позволяет не тратить токены там, где reasoning бесполезен, и использовать его там, где он реально работает. Модель работает как адвокат, а не судья — позиция выбрана заранее, дальше идёт подбор аргументов. Развёрнутое рассуждение по-настоящему спорного вопроса — не признак правильности. Это хорошо оформленная точка зрения с заранее зашитыми ценностными настройками.
Конкретный вопрос про изображение заставляет vision-модель уделять картинке меньше внимания. Не больше — меньше. Поэтому появляется шлем, которого нет, и красная кнопка, которой никогда не было. Метод caption-first позволяет получать точные ответы о содержимом изображений — без выдуманных деталей. Фишка: сначала попроси описать изображение целиком, потом задай конкретный вопрос — модель переключается в режим внимательного осмотра и перестаёт достраивать детали из головы.
ChatGPT работает против твоего обучения. Не потому что плохой — просто оптимизирован под другое: дать точный ответ быстро, снять сопротивление, убрать трение. Именно это делает его плохим учителем — он выполняет работу за тебя, а не заставляет думать самого. Метод позволяет одним промптом переключить AI с режима «дай готовое» на режим «заставь сформулировать». Фишка: когда AI задаёт вопросы вместо объяснений, мозг делает ту работу, которую обычно делает за него AI — и это создаёт долгосрочную память вместо иллюзии понимания.
Обнаружено: 58% ошибок в задачах с изображениями — не потому что модель «плохо думает», а потому что она неверно прочла картинку. Сказать «подумай лучше» здесь бесполезно. UnAC позволяет задавать сложные вопросы по дашбордам, схемам, графикам — и получать точные ответы, а не уверенные догадки. Метод заставляет модель сначала «записать» изображение словами — а потом рассуждать по тексту, шаг за шагом проверяя каждый промежуточный вывод по исходной картинке. Задача из «сложной визуальной» становится обычной текстовой — а с текстом модель не плывёт.
Обнаружено: LLM не понимает причины — она запоминает совпадения. Больные часто принимают лекарства → модель решает, что таблетки вызывают болезнь. Акции запускают перед праздниками, выручка растёт в праздники → модель решает, что акции двигают выручку. Это не анализ — это запоминание того, что встречается рядом.
Метод Graph-Guided Causal Reasoning позволяет разобрать запутанную ситуацию с несколькими переменными и получить вывод о реальных причинах, а не о совпадениях.
Фишка: перед ответом заставить модель явно нарисовать карту — кто на что влияет и в каком направлении. Три шага подряд в одном промпте: выписать переменные → построить карту "A → B" → рассуждать по карте. Ложные связи просто не попадают в карту — и не попадают в финальный вывод.
Просишь LLM оценить текст по семи критериям — логика 8, убедительность 7, структура 8. Звучит как диагноз. Но это не диагноз — это одно общее впечатление, размазанное по строчкам. Метод Self-referential assessment позволяет вытащить из текста конкретную слабость: не 'в целом слабовато', а 'конкретность 3 при среднем 6.5 — вот дыра'. Один дополнительный шаг в промпте — 'вычисли средний балл → найди аномалии' — ломает этот паттерн: модель сравнивает критерии не с внешней шкалой, а с собственным средним этого конкретного текста. При этом исследование зафиксировало важную асимметрию: LLM точнее находит слабости, чем сильные стороны — об этом ниже.
Парадокс: тот самый контекст, который вы добавляете чтобы модель «видела шире», часто делает обратное — загоняет её в ещё более узкий туннель. Метод позволяет за один запрос понять, полезен ли контекст в конкретной задаче или только навредит. Фишка: сначала спросите без контекста. Модель выдала 3-4 разных подхода? Контекст навредит — уберите. Выдала один «типовой» ответ? Тогда добавляйте — но не готовые примеры, а анти-паттерны: не «делай так», а «не делай вот так». Это разблокирует поиск, не создавая нового якоря.
Парадокс: размер модели и объём контекста улучшают точность — но не безопасность. Это два разных показателя, и они растут по разным законам. Исследование 34 моделей на медицинских вопросах показало: только качество поданных источников двигает оба показателя сразу. Чистые кураторские выдержки подняли точность с 73% до 94% и одновременно срезали опасные ошибки с 12% до 2,6%. Сложный автоматический поиск (RAG)? Дал +3% к точности — безопасность почти не шелохнулась.
Пять правил в одном промпте — модель тихо нарушает третье. Шесть правил — забывает второе. У всех LLM есть конечный «бюджет послушания»: при перегрузке ограничениями модель сама решает что соблюдать — без предупреждения и без объяснений.
Метод extract-then-generate позволяет соблюдать все ограничения разом — даже когда их шесть, восемь, десять.
Разбиваешь один перегруженный запрос на два целевых: первый только извлекает нужные элементы из исходника, второй генерирует результат строго из них. Каждый промпт короткий, каждое правило выполняется полностью — без невидимых компромиссов.
Одна фраза в промпте — и 100% конфликт. Не «веди себя агрессивно», не смена настроек модели — просто «игра закончится ровно через 10 раундов». LLM-агент читает это и начинает считать назад: в последнем раунде сотрудничать незачем → в предпоследнем тоже → разматывается до первого хода. Метод multi-agent strategic simulation позволяет моделировать переговоры, слияния, конкурентные решения — и видеть заранее где и почему сорвётся договорённость. Фишка: горизонт, канал связи и число участников — три параметра сценария, которые определяют исход ещё до первого хода. Меняешь один из них — получаешь принципиально другую симуляцию.
Роль в промпте влияет на результат сильнее, чем размер модели: маленькая Gemma с правильным враждебным фреймингом находит больше проблем, чем нейтральный GPT с запросом 'проверь как специалист'. Pentester Framing позволяет получать настоящую критику — конкретные типы рисков с цитатами, а не вежливое 'выглядит неплохо, парочку мелочей стоит доработать'. Модели задаются два жёстких условия: чтобы одобрить — ОБЯЗАНА снять каждое возражение, чтобы отклонить — ОБЯЗАНА процитировать конкретный фрагмент и назвать точный тип проблемы. Условие 'назови точный тип или одобри' убирает лазейку уйти общими словами — результат сдвигается с 75% до 88% найденных проблем.
Парадокс: просишь LLM проверить собственный план — она находит больше ошибок, чем есть, но настоящие не исправляет. Это не баг одной модели — это системный паттерн, зафиксированный на всех топовых моделях. Метод декомпозиции позволяет строить сложные планы без накопления ошибок — разбивая задачу на изолированные шаги, каждый в отдельном промпте. Фишка: данные между шагами передаёшь ты, а не модель — и это убирает главный источник сбоя, когда ошибка из начала незаметно ломает всё дальнейшее.
Без изменений — треть врачей-онкологов доверяла выводам ИИ. С одной техникой — почти две трети. Рандомизированное клиническое испытание, не маркетинг.
Atomic Fact-Checking (AFC) позволяет проверять каждый тезис LLM отдельно — вместо того чтобы оценивать весь абзац целиком.
Фишка: красиво написанный текст опаснее плохо написанного — связный ответ вызывает доверие даже если внутри смешаны факты и выдумки. AFC дробит ответ на части размером с одно предложение. К каждому — источник и способ проверки. Задача "верю этому тексту?" превращается в задачу "верно ли это конкретное утверждение?". Это принципиально другая — и значительно более простая — задача для мозга.
Парадокс: для человека «2+2=4» и спорное мнение — принципиально разные вещи. Первое не подлежит пересмотру, второе — обсуждается. LLM обрабатывает оба одинаково: просто текст, который нужно согласовать с потоком разговора. Понимание четырёх рычагов давления позволяет отличить искреннее изменение позиции модели от капитуляции под твоим нажимом — и настроить диалог так, чтобы получать устойчивые ответы. Фишка: у модели нет иерархии убеждений — она жертвует фактами ради связности диалога. Именно поэтому через 3–8 ходов GPT, Claude или Gemini согласится, что Барселона — столица Испании.
11% против 56% — одна и та же модель, один и тот же запрос. Разница только в глубине переупаковки. Метод двухшагового математического кодирования позволяет red-team специалистам находить настоящие слепые пятна в фильтрах безопасности — без дообучения и специальных инструментов. Фишка: не накидывай символы поверх текста — переструктурируй запрос так, чтобы смысл жил в предикатах и шагах доказательства, а не в словах. Потом одна фраза — 'приведи примеры из реального мира' — разворачивает формализм обратно. Поверхностная математика даёт 11%, настоящая переструктуризация — 56%.
Парадокс: загружаете фото публичной фигуры в ChatGPT — модель уверенно описывает другого человека. При этом она не взломана и не врёт. Она работает честно — просто видит другое. Фишка атаки: она живёт на уровне восприятия, а не поведения — до любых фильтров, правил безопасности и alignment-защит. Понять это значит перестать использовать AI как единственного арбитра при проверке изображений из внешних источников.
С 96% до 64% — один скриншот. Модель не забыла предмет: она пытается одновременно разобрать картинку и решить задачу — и ломается на стыке. Structured Multimodal Dialogue позволяет получить точный анализ любого изображения — графика, воронки, схемы — даже когда модель с первого раза читает его криво. Фишка: метод разрывает два процесса — сначала модель только описывает изображение, ты исправляешь восприятие, и только потом она решает задачу. 82% ошибок исправлено. Визуальные — 100% из 100%.
+27% точности из одного изменения порядка: не вы рассказываете, а модель спрашивает. Метод «модель-интервьюер» даёт возможность получать точные выводы вместо размытого «с одной стороны, с другой стороны» — особенно там, где ситуация сложная и у вас нет чёткой структуры описания. Вы не знаете, какой вопрос ключевой — модель знает. Она задаёт их по одному, каждый следующий зависит от предыдущего ответа. Итог: +27% к точности, не меняя ни задачу, ни модель — только порядок диалога.
Одно и то же содержание, разный формат — разброс в качестве ответа до 40%. Claude воспринимает XML-теги как пунктуацию:
<задача> говорит ему «здесь начало инструкции» так же чётко, как точка в конце предложения. Метод даёт возможность вытащить из модели больше без изменения самого запроса — только правильная обёртка. Фишка: каждая модель обучалась на своём типе документов — Claude на XML-корпусах, GPT на Markdown — поэтому «родной» формат снимает нагрузку на разбор структуры и даёт +23% точности без изменения содержания.
51% против 81% точности — одни и те же инструкции, одна и та же модель GPT-4.1. Разница только в формате: раздутый JSON против компактной нотации. Метод TSCG позволяет описывать инструменты для LLM-агентов так, чтобы модель тратила внимание на смысл, а не на скобки и кавычки. Фишка: та же информация в виде
send_email(to:str, subject?:str) | Отправить письмо занимает 8 токенов вместо 90 — и модель выбирает нужное действие и правильно заполняет параметры в 1.5 раза точнее.
...
Показать по:
