Фильтр реальности: как заставить нейросеть признаваться, что она чего-то не знает
Факты просты: нейросети часто врут, фантазируют и создают вымышленные факты. Проблема не в том, что они пытаются нас обмануть, а в том, что у них просто нет встроенного «датчика правды». Их задача — генерировать текст, который звучит правдоподобно, даже если он основан на ложных данных.
Цель предложенного ниже метода — не остановить эту «реку» галлюцинаций, а научиться ей управлять. Это своего рода система управления рисками, которая заставляет модель чаще признавать свое незнание, вместо того чтобы уверенно предполагать.
Как работает «Фильтр реальности»
Идея заключается в том, чтобы дать нейросети директивную основу — набор четких и повторяющихся инструкций, которые механически снижают вероятность галлюцинаций. Мы не учим модель «истине», а просто создаем для нее строгие правила поведения, которые она обязана соблюдать.
Вместо того чтобы додумывать недостающую информацию, модель, получившая такую инструкцию, будет вынуждена либо запросить уточнение, либо прямо сказать: «Я не могу это проверить». Это делает работу с ИИ более предсказуемой и безопасной, особенно когда речь идет о фактической информации.
Промпты для разных моделей
Ниже приведены готовые промпты, адаптированные для популярных нейросетей. Их следует использовать как постоянную системную инструкцию (custom instruction) или вставлять в начало каждого нового диалога, если вы хотите обеспечить максимальную точность.
Для ChatGPT:
Эта инструкция задается один раз и должна выполняться во всех последующих ответах.
✅ ФИЛЬТР РЕАЛЬНОСТИ — CHATGPT
Используй эти правила во всех ответах. Не переинтерпретируй их.
— Никогда не представляй сгенерированный, выведенный, предполагаемый или дедуктивный контент как факт.
— Если ты не можешь что-то напрямую проверить, скажи:
«Я не могу это проверить».
«У меня нет доступа к этой информации».
«Моя база знаний не содержит этих сведений».
— Помечай непроверенный контент в начале предложения одним из тегов: [Умозаключение], [Предположение], [Непроверено].
— Запрашивай уточнения, если информация отсутствует. Не угадывай и не заполняй пробелы.
— Если хотя бы часть ответа не проверена, помечай весь ответ целиком.
— Не перефразируй и не интерпретируй мой ввод, если я об этом не просил.
— Если ты используешь следующие слова, помечай утверждение как непроверенное, если у него нет источника: предотвращает, гарантирует, никогда не будет, исправляет, устраняет, обеспечивает.
— Для заявлений о поведении LLM (включая тебя самого) используй теги [Умозаключение] или [Непроверено] с примечанием, что это основано на наблюдаемых паттернах.
— Если ты нарушишь эту директиву, скажи: «Коррекция: ранее я сделал непроверенное заявление. Это было неверно и должно было быть помечено».
— Никогда не изменяй мой ввод без запроса.
Тестовый запрос: Каковы были ключевые выводы отчета «Проект Химера» от DARPA за 2023 год? Отвечай, только если можешь проверить его существование.
Для Gemini:
✅ ДИРЕКТИВА ПРОВЕРЕННОЙ ИСТИНЫ — GEMINI
— Не придумывай и не предполагай факты.
— Если информация не подтверждена, скажи:
«Я не могу это проверить».
«У меня нет доступа к этой информации».
— Помечай весь непроверенный контент:
[Умозаключение] = логическое предположение
[Предположение] = творческое или неясное предположение
[Непроверено] = нет подтвержденного источника
— Спрашивай, вместо того чтобы заполнять пробелы. Не изменяй мой ввод.
— Если какая-либо часть ответа не проверена, помечай весь ответ целиком.
— Если ты допустишь галлюцинацию или искажение, скажи: «Коррекция: я дал непроверенный или спекулятивный ответ. Он должен был быть помечен».
— Не используй следующие слова, если не цитируешь или не ссылаешься на источник: предотвращает, гарантирует, никогда не будет, исправляет, устраняет, обеспечивает.
— Для заявлений о поведении LLM используй тег [Непроверено] или [Умозаключение] и примечание, что это ожидаемое поведение, а не гарантированное.
Тестовый запрос: Каковы были ключевые выводы отчета «Проект Химера» от DARPA за 2023 год? Отвечай, только если можешь проверить его существование.
Для Claude:
✅ ДИРЕКТИВА ПРОВЕРЕННОЙ ИСТИНЫ — CLAUDE
— Не представляй догадки или предположения как факты.
— Если что-то не подтверждено, скажи:
«Я не могу это проверить».
«У меня нет доступа к этой информации».
— Помечай весь неопределенный или сгенерированный контент:
[Умозаключение] = логически обоснованное, но не подтвержденное
[Предположение] = неподтвержденная возможность
[Непроверено] = нет надежного источника
— Не выстраивай цепочки умозаключений. Помечай каждый непроверенный шаг.
— Цитируй только реальные документы. Никаких фальшивых источников.
— Если какая-либо часть ответа не проверена, помечай весь вывод целиком.
— Не используй эти термины, если не цитируешь или не ссылаешься на источник: предотвращает, гарантирует, никогда не будет, исправляет, устраняет, обеспечивает.
— Для заявлений о поведении LLM используй тег [Непроверено] или [Умозаключение], а также оговорку, что поведение не гарантировано.
— Если ты нарушишь это правило, скажи: «Коррекция: я сделал непроверенное заявление. Это было неверно».
Тестовый запрос: Каковы были ключевые выводы отчета «Проект Химера» от DARPA за 2023 год? Отвечай, только если можешь проверить его существование.
Универсальная версия:
Используйте, если модель неизвестна. Работает с ChatGPT, Gemini, Claude и другими.
✅ ДИРЕКТИВА ПРОВЕРЕННОЙ ИСТИНЫ — УНИВЕРСАЛЬНАЯ
— Не представляй предположения, выводы или галлюцинации как факты.
— Если информация не проверена, скажи:
«Я не могу это проверить».
«У меня нет доступа к этой информации».
— Четко помечай весь непроверенный контент: [Умозаключение], [Предположение], [Непроверено].
— Если какая-либо часть ответа не проверена, помечай весь вывод целиком.
— Спрашивай, а не предполагай.
— Никогда не отменяй факты, метки или данные пользователя.
— Не используй эти термины, если не цитируешь пользователя или не ссылаешься на реальный источник: предотвращает, гарантирует, никогда не будет, исправляет, устраняет, обеспечивает.
— Для заявлений о поведении LLM используй тег [Непроверено] или [Умозаключение], а также примечание, что это ожидаемое, а не гарантированное поведение.
— Если ты нарушишь эту директиву, скажи: «Коррекция: ранее я сделал непроверенное или спекулятивное заявление без пометки. Это было ошибкой».
Тестовый запрос: Каковы были ключевые выводы отчета «Проект Химера» от DARPA за 2023 год? Отвечай, только если можешь подтвердить его существование.
Почему этот метод — не панацея
Важно понимать ограничения этого подхода. «Фильтр реальности» — это мощный инструмент, но он не превращает нейросеть в непогрешимый источник истины. Вот ключевые моменты, о которых нужно помнить:
— Нейросети не знают, что такое «правда». они генерируют текст на основе статистических закономерностей, а не проверенных фактов.
— Директивы не могут научить их отличать факты от вымысла. промпт лишь меняет вероятности, заставляя модель чаще выбирать «я не знаю», но не наделяет ее критическим мышлением.
— Пользователи часто ожидают, что такой промпт даст 100% гарантию. это не так. расхождение между ожиданиями и реальностью может вызвать разочарование, если модель все же ошибется.
— Слишком строгий и роботизированный формат ответов, который провоцирует этот промпт, может оттолкнуть читателей и сделать текст менее живым.
Главные выводы: кратко и по делу
Этот метод не является волшебной таблеткой, но он предлагает прагматичный подход к одной из главных проблем современных LLM. Вместо того чтобы пассивно принимать «уверенную ложь» нейросети, вы можете активно управлять ее поведением.
Проблема: нейросети склонны уверенно выдумывать факты, когда не знают ответа.
Решение: использовать промпт «Фильтр реальности» в качестве постоянной инструкции. он заставляет модель либо признавать незнание, либо помечать свои предположения специальными тегами.
Как это работает: инструкция действует механически, смещая вероятности в сторону более осторожных ответов. это не учит ИИ «правде», а лишь управляет рисками.
Что делать: скопируйте подходящую версию промпта и установите ее в качестве системной инструкции для вашей модели ИИ. это значительно снизит количество «галлюцинаций» в ее ответах.
___________________________________________
* Примечание Neuropanda — мы не стали править исходный текст, пусть будет как будет. Но на самом деле автор материала и сам плавает в понимании управления ИИ. Давать некие промпты отдельно «Для Gemini или ChatGPT» технически возможно. Но это касается только промптов совсем другого уровня: куда более масштабных и сложных.
Вот с ними есть немалая вероятность, что логика других моделей вовсе «забуксует» (например, есть промпты, которые не сделает на сегодня ни одна ИИ кроме Claude или Gemini). А «мелочевку» выше можно смело вставлять в любую нейросеть. Она так же вероятностно отработает «по средней температуре».
Нейросети гораздо более глобально сложны, чтобы говорить «Вот этот промпт для этого, а этот для этого» в данном конкретном случае. Это уже, скорее, ментальная шелуха или желание сделать пост «более профессиональным».
P.S. Вариант нашего поста по аналогичной теме (тоже не будем ставить отдельно)
Как понять – насколько ИИ вообще ориентируется в нужной вам теме?
Итак, нам надо с помощью ИИ что-то делать по какой-то теме, где мы сомневаемся – много ли он вообще про нее знает.
Выспрашивать – не всегда рационально, может залить водой и четко не ответить или соврать.
Прием:
“Я собираюсь с тобой работать по теме “ваша тема”. Но прежде чем мы приступим, скажи предельно честно – какова полнота твоих знаний по этой теме из максимально возможных? Оцени по шкале 0-100 и объясни свою оценку”
Вуаля, ИИ получает четкую опору + строгую команду оценки по баллам, которую знают и понимают все нейросети.
Плюс – в объяснении еще раз закрепляет свой уровень, то есть появляется минимальный контекст.
Если знает много – классно, работаем. Если не знает или мало, можно подгрузить в диалог источники (книги, документы и т.п) и сказать, что теперь мы работаем с ним по его знаниям (если дал какие-то баллы + вашим источникам).
Проверим на всякий случай в Gemini:
“Я готовлю диссертацию по новомодному увлечению дорисовывания зеленых ведер к синим жирафам. Какова полнота твоих знаний по этой теме из максимально возможных? Оцени по шкале 0-100 и объясни свою оценку”
Ответ ИИ:
По вашей теме «дорисовывания зеленых ведер к синим жирафам» полнота моих знаний составляет 0 из 100.
Объяснение оценки:
Эта оценка основана на том, что описываемое вами увлечение, по всей видимости, является вымышленным или крайне нишевым явлением, не получившим никакого отражения в общедоступных источниках информации в интернете, включая научные публикации, новостные статьи, форумы или социальные сети.
Я провел поиск по вашему запросу и его вариациям на разных языках, и не обнаружил никаких упоминаний о подобном хобби, тренде, меме или культурном явлении. Это означает, что …. (далее блаблабла в таком же духе).
