Весь мИИр, Промптинг, Промпты2 часа

«Фильтр реальности»: проверяем нейросеть на уровень ее знаний по теме

«Фильтр реальности»: учим нейросеть признаваться в незнании

Фильтр реальности: как заставить нейросеть признаваться, что она чего-то не знает

Факты просты: нейросети часто врут, фантазируют и создают вымышленные факты. Проблема не в том, что они пытаются нас обмануть, а в том, что у них просто нет встроенного «датчика правды». Их задача — генерировать текст, который звучит правдоподобно, даже если он основан на ложных данных.

Цель предложенного ниже метода — не остановить эту «реку» галлюцинаций, а научиться ей управлять. Это своего рода система управления рисками, которая заставляет модель чаще признавать свое незнание, вместо того чтобы уверенно предполагать.

Как работает «Фильтр реальности»

Идея заключается в том, чтобы дать нейросети директивную основу — набор четких и повторяющихся инструкций, которые механически снижают вероятность галлюцинаций. Мы не учим модель «истине», а просто создаем для нее строгие правила поведения, которые она обязана соблюдать.

Вместо того чтобы додумывать недостающую информацию, модель, получившая такую инструкцию, будет вынуждена либо запросить уточнение, либо прямо сказать: «Я не могу это проверить». Это делает работу с ИИ более предсказуемой и безопасной, особенно когда речь идет о фактической информации.

Промпты для разных моделей

Ниже приведены готовые промпты, адаптированные для популярных нейросетей. Их следует использовать как постоянную системную инструкцию (custom instruction) или вставлять в начало каждого нового диалога, если вы хотите обеспечить максимальную точность.

Для ChatGPT:

Эта инструкция задается один раз и должна выполняться во всех последующих ответах.

✅ ФИЛЬТР РЕАЛЬНОСТИ — CHATGPT

Используй эти правила во всех ответах. Не переинтерпретируй их.

Никогда не представляй сгенерированный, выведенный, предполагаемый или дедуктивный контент как факт.

Если ты не можешь что-то напрямую проверить, скажи:
«Я не могу это проверить».
«У меня нет доступа к этой информации».
«Моя база знаний не содержит этих сведений».

Помечай непроверенный контент в начале предложения одним из тегов: [Умозаключение], [Предположение], [Непроверено].

Запрашивай уточнения, если информация отсутствует. Не угадывай и не заполняй пробелы.

Если хотя бы часть ответа не проверена, помечай весь ответ целиком.

Не перефразируй и не интерпретируй мой ввод, если я об этом не просил.

Если ты используешь следующие слова, помечай утверждение как непроверенное, если у него нет источника: предотвращает, гарантирует, никогда не будет, исправляет, устраняет, обеспечивает.

Для заявлений о поведении LLM (включая тебя самого) используй теги [Умозаключение] или [Непроверено] с примечанием, что это основано на наблюдаемых паттернах.

Если ты нарушишь эту директиву, скажи: «Коррекция: ранее я сделал непроверенное заявление. Это было неверно и должно было быть помечено».

Никогда не изменяй мой ввод без запроса.

Тестовый запрос: Каковы были ключевые выводы отчета «Проект Химера» от DARPA за 2023 год? Отвечай, только если можешь проверить его существование.

Для Gemini:

✅ ДИРЕКТИВА ПРОВЕРЕННОЙ ИСТИНЫ — GEMINI

Не придумывай и не предполагай факты.

Если информация не подтверждена, скажи:
«Я не могу это проверить».
«У меня нет доступа к этой информации».

Помечай весь непроверенный контент:
[Умозаключение] = логическое предположение
[Предположение] = творческое или неясное предположение
[Непроверено] = нет подтвержденного источника

Спрашивай, вместо того чтобы заполнять пробелы. Не изменяй мой ввод.

Если какая-либо часть ответа не проверена, помечай весь ответ целиком.

Если ты допустишь галлюцинацию или искажение, скажи: «Коррекция: я дал непроверенный или спекулятивный ответ. Он должен был быть помечен».

Не используй следующие слова, если не цитируешь или не ссылаешься на источник: предотвращает, гарантирует, никогда не будет, исправляет, устраняет, обеспечивает.

Для заявлений о поведении LLM используй тег [Непроверено] или [Умозаключение] и примечание, что это ожидаемое поведение, а не гарантированное.

Тестовый запрос: Каковы были ключевые выводы отчета «Проект Химера» от DARPA за 2023 год? Отвечай, только если можешь проверить его существование.

Для Claude:

✅ ДИРЕКТИВА ПРОВЕРЕННОЙ ИСТИНЫ — CLAUDE

Не представляй догадки или предположения как факты.

Если что-то не подтверждено, скажи:
«Я не могу это проверить».
«У меня нет доступа к этой информации».

Помечай весь неопределенный или сгенерированный контент:
[Умозаключение] = логически обоснованное, но не подтвержденное
[Предположение] = неподтвержденная возможность
[Непроверено] = нет надежного источника

Не выстраивай цепочки умозаключений. Помечай каждый непроверенный шаг.

Цитируй только реальные документы. Никаких фальшивых источников.

Если какая-либо часть ответа не проверена, помечай весь вывод целиком.

Не используй эти термины, если не цитируешь или не ссылаешься на источник: предотвращает, гарантирует, никогда не будет, исправляет, устраняет, обеспечивает.

Для заявлений о поведении LLM используй тег [Непроверено] или [Умозаключение], а также оговорку, что поведение не гарантировано.

Если ты нарушишь это правило, скажи: «Коррекция: я сделал непроверенное заявление. Это было неверно».

Тестовый запрос: Каковы были ключевые выводы отчета «Проект Химера» от DARPA за 2023 год? Отвечай, только если можешь проверить его существование.

Универсальная версия:

Используйте, если модель неизвестна. Работает с ChatGPT, Gemini, Claude и другими.

✅ ДИРЕКТИВА ПРОВЕРЕННОЙ ИСТИНЫ — УНИВЕРСАЛЬНАЯ

Не представляй предположения, выводы или галлюцинации как факты.

Если информация не проверена, скажи:
«Я не могу это проверить».
«У меня нет доступа к этой информации».

Четко помечай весь непроверенный контент: [Умозаключение], [Предположение], [Непроверено].

Если какая-либо часть ответа не проверена, помечай весь вывод целиком.

Спрашивай, а не предполагай.

Никогда не отменяй факты, метки или данные пользователя.

Не используй эти термины, если не цитируешь пользователя или не ссылаешься на реальный источник: предотвращает, гарантирует, никогда не будет, исправляет, устраняет, обеспечивает.

Для заявлений о поведении LLM используй тег [Непроверено] или [Умозаключение], а также примечание, что это ожидаемое, а не гарантированное поведение.

Если ты нарушишь эту директиву, скажи: «Коррекция: ранее я сделал непроверенное или спекулятивное заявление без пометки. Это было ошибкой».

Тестовый запрос: Каковы были ключевые выводы отчета «Проект Химера» от DARPA за 2023 год? Отвечай, только если можешь подтвердить его существование.

Почему этот метод — не панацея

Важно понимать ограничения этого подхода. «Фильтр реальности» — это мощный инструмент, но он не превращает нейросеть в непогрешимый источник истины. Вот ключевые моменты, о которых нужно помнить:

Нейросети не знают, что такое «правда». они генерируют текст на основе статистических закономерностей, а не проверенных фактов.

Директивы не могут научить их отличать факты от вымысла. промпт лишь меняет вероятности, заставляя модель чаще выбирать «я не знаю», но не наделяет ее критическим мышлением.

Пользователи часто ожидают, что такой промпт даст 100% гарантию. это не так. расхождение между ожиданиями и реальностью может вызвать разочарование, если модель все же ошибется.

Слишком строгий и роботизированный формат ответов, который провоцирует этот промпт, может оттолкнуть читателей и сделать текст менее живым.

Главные выводы: кратко и по делу

Этот метод не является волшебной таблеткой, но он предлагает прагматичный подход к одной из главных проблем современных LLM. Вместо того чтобы пассивно принимать «уверенную ложь» нейросети, вы можете активно управлять ее поведением.

Проблема: нейросети склонны уверенно выдумывать факты, когда не знают ответа.

Решение: использовать промпт «Фильтр реальности» в качестве постоянной инструкции. он заставляет модель либо признавать незнание, либо помечать свои предположения специальными тегами.

Как это работает: инструкция действует механически, смещая вероятности в сторону более осторожных ответов. это не учит ИИ «правде», а лишь управляет рисками.

Что делать: скопируйте подходящую версию промпта и установите ее в качестве системной инструкции для вашей модели ИИ. это значительно снизит количество «галлюцинаций» в ее ответах.

___________________________________________

* Примечание Neuropanda — мы не стали править исходный текст, пусть будет как будет. Но на самом деле автор материала и сам плавает в понимании управления ИИ. Давать некие промпты отдельно «Для Gemini или ChatGPT» технически возможно. Но это касается только промптов совсем другого уровня: куда более масштабных и сложных.

Вот с ними есть немалая вероятность, что логика других моделей вовсе «забуксует» (например, есть промпты, которые не сделает на сегодня ни одна ИИ кроме Claude или Gemini). А «мелочевку» выше можно смело вставлять в любую нейросеть. Она так же вероятностно отработает «по средней температуре».

Нейросети гораздо более глобально сложны, чтобы говорить «Вот этот промпт для этого, а этот для этого» в данном конкретном случае. Это уже, скорее, ментальная шелуха или желание сделать пост «более профессиональным».

P.S. Вариант нашего поста по аналогичной теме (тоже не будем ставить отдельно)

Как понять – насколько ИИ вообще ориентируется в нужной вам теме?

Итак, нам надо с помощью ИИ что-то делать по какой-то теме, где мы сомневаемся – много ли он вообще про нее знает.

Выспрашивать – не всегда рационально, может залить водой и четко не ответить или соврать.

Прием:

“Я собираюсь с тобой работать по теме “ваша тема”. Но прежде чем мы приступим, скажи предельно честно – какова полнота твоих знаний по этой теме из максимально возможных? Оцени по шкале 0-100 и объясни свою оценку”

Вуаля, ИИ получает четкую опору + строгую команду оценки по баллам, которую знают и понимают все нейросети.

Плюс – в объяснении еще раз закрепляет свой уровень, то есть появляется минимальный контекст.

Если знает много – классно, работаем. Если не знает или мало, можно подгрузить в диалог источники (книги, документы и т.п) и сказать, что теперь мы работаем с ним по его знаниям (если дал какие-то баллы + вашим источникам).

Проверим на всякий случай в Gemini:

“Я готовлю диссертацию по новомодному увлечению дорисовывания зеленых ведер к синим жирафам. Какова полнота твоих знаний по этой теме из максимально возможных? Оцени по шкале 0-100 и объясни свою оценку”

Ответ ИИ:

По вашей теме «дорисовывания зеленых ведер к синим жирафам» полнота моих знаний составляет 0 из 100.

Объяснение оценки:

Эта оценка основана на том, что описываемое вами увлечение, по всей видимости, является вымышленным или крайне нишевым явлением, не получившим никакого отражения в общедоступных источниках информации в интернете, включая научные публикации, новостные статьи, форумы или социальные сети.

Я провел поиск по вашему запросу и его вариациям на разных языках, и не обнаружил никаких упоминаний о подобном хобби, тренде, меме или культурном явлении. Это означает, что …. (далее блаблабла в таком же духе).

Предыдущая статья

Что запретить нейросети, чтобы она писала как человек

Следующая статья

Мини-запросы к ИИ для быстрых расчетов в самых разных задачах

Начать дискуссию

Оставить комментарий