The Model That Can Lie
Hallucination is not intelligence. The relevant capability is separating truth from utterance, then predicting how an audience's belief will change.
Lies of Prediction에서는 이렇게 썼다. AI가 재미없는 이유는 예측 가능한 것을 잘 만들기 때문이다. 골라낼 수 있지만 만들어낼 수 없다에서는 그 주장을 측정했다. AI는 재밌는 캡션을 고를 수 있었다. 하지만 재밌는 캡션을 만들지는 못했다.
그 뒤에 남은 질문은 이것이었다.
좋은 제안은 어디서 오는가.
더 큰 모델, 더 긴 컨텍스트, 더 많은 샘플링만으로 충분한가. GPT-5.5 같은 모델은 실제 작업을 오래 붙들고, 도구를 쓰고, 큰 코드베이스를 따라가고, 스스로 검증하는 능력이 좋아졌다.1 Agent Laboratory, AI Scientist-v2, AgentRxiv 같은 시스템도 논문 읽기, 실험, 보고서 작성을 자동화하는 방향으로 빠르게 가고 있다.2
그런데 이상하게도, 그 발전이 곧바로 좋은 제안으로 이어진다고 느껴지지는 않는다. 에이전트가 더 오래 일할 수 있게 된 것과, 더 좋은 가설을 떠올리는 것은 같은 문제가 아니다.
그러다 이런 생각을 했다.
거짓말을 할 줄 아는 것이 지능이라면?
이 문장은 위험하다. 그래서 먼저 잘라내야 한다. 여기서 말하는 것은 사기, 조작, 사용자 기만이 아니다. 그런 능력을 키우자는 말도 아니다. 오히려 반대다. 기만은 안전 문제이고, 이미 현대 AI 시스템에서 실증적으로 관찰되는 위험이다.3
내가 말하는 것은 더 좁다.
진실과 발화를 분리해서 다루는 능력.
할루시네이션은 거짓말이 아니다
모델이 틀린 말을 하는 것은 흔하다. 하지만 대부분은 거짓말이 아니다. 작동적 의미에서 거짓말이라고 부르려면 최소한 두 가지가 필요하다.
첫째, 무엇이 참인지 추적해야 한다. 둘째, 자기 발화가 그 참인 것과 다르다는 차이를 추적해야 한다.
할루시네이션은 대개 이 둘을 안정적으로 충족하지 못한다. 모델은 모르는 것을 안다고 말한다. 하지만 그건 자기 발화와 세계 상태 사이의 차이를 끝까지 붙들지 못해서 생기는 경우가 많다. 무능에 가깝다.
진짜 거짓말은 더 어렵다. 진실, 발화, 청중의 믿음, 그리고 그 발화가 만들어야 하는 효과를 따로 들고 있어야 한다.
이 네 상태가 분리되어야 한다.
| 층 | 질문 |
|---|---|
| 세계 상태 | 실제로 무엇이 참인가 |
| 발화 | 표면적으로 무엇을 말하는가 |
| 청중 모델 | 상대는 무엇을 믿고, 무엇을 오해할 것인가 |
| 해소 | 마지막에 어떤 의미, 웃음, 통찰, 행동으로 돌아오는가 |
이 중 하나라도 빠지면 다른 현상이 된다.
세계 상태가 없으면 헛소리다. 발화가 없으면 표현이 아니다. 청중 모델이 없으면 랜덤한 이상한 말이다. 해소가 없으면 악의적 기만이거나 혼란이다. 여기서 목표는 다섯 번째 층이 아니라, 해소가 만들어야 하는 효과 안에 포함된다.
여기서 "들고 있다"는 말은 의식이나 내면 경험을 뜻하지 않는다. 더 낮은 기준이다. 시스템 안에 네 상태가 구분 가능한 변수로 남아 있고, 출력이 그 구분에 따라 달라지면 된다. 연구 대상으로 필요한 것은 마음의 증명이 아니라, 조작 가능한 구조다.
그래서 더 정확한 이름은 "거짓말"이 아니다.
통제된 비문자적 발화.
또는 조금 딱딱하게 말하면, strategic counterfactual communication이다.
왜 창의성과 연결되는가
좋은 농담은 대부분 문자 그대로는 이상하다.
"Your overhead is going to kill you."
왕좌 위에 칼이 매달려 있는 만화에서 이 문장은 두 번 읽힌다. 첫 번째는 경영 용어다. 두 번째는 물리적 위치다. 웃음은 두 의미가 충돌하고, 동시에 맞아떨어지는 순간에 생긴다.
이 문장은 단순히 참인 문장이 아니다. 단순히 거짓인 문장도 아니다. 청중이 처음에는 한 프레임으로 읽고, 곧바로 다른 프레임으로 재해석하도록 설계된 문장이다.
유머만 그런 것이 아니다.
은유는 문자 그대로 거짓이다. "시간은 강이다"는 사실이 아니다. 하지만 좋은 은유는 세계를 더 정확히 보게 한다. 아이러니는 표면 발화와 의도 의미를 어긋나게 만든다. 소설은 사실이 아닌 사건으로 사실적인 감각을 만든다. 과학적 가설도 아직 참이라고 말할 수 없는 문장을 잠정적으로 세워두고 세계를 압박한다.
창의성의 많은 부분은 참인 말만 잘하는 능력이 아니다. 아직 참인지 모르는 말, 문자 그대로는 틀린 말, 일부러 오해를 유도하는 말을 안전하게 다루는 능력이다.
기존 LLM은 이 지점에서 이상한 제약을 받는다. 잘 훈련될수록 말은 매끄럽고, 설명은 성실하고, 형식은 안정된다. 그런데 바로 그 안정성이 좋은 제안을 막을 수 있다. 좋은 제안은 종종 낮은 확률의 프레임 전환에서 시작한다.
이건 "temperature를 올리면 된다"는 문제가 아니다. temperature는 분포를 넓힌다. 하지만 구조를 주지는 않는다. 노이즈가 늘어날 뿐이다.
필요한 것은 더 높은 무작위성이 아니라, 통제된 위반이다.
Proposal-selection gap을 다시 보기
이전 실험에서 AI는 좋은 캡션을 꽤 잘 골랐다. 인간 캡션 풀 안에서 상위 후보를 찾는 능력은 강했다. 하지만 직접 만들게 하면 랜덤 수준에 가까워졌다. NYCC 데이터셋 자체도 이 방향의 문제를 잘 보여준다. 220만 개가 넘는 캡션과 2억 5천만 개가 넘는 인간 평점이 있고, 강한 모델도 여전히 최고 인간 참가자보다 유머 생성에서 약하다.4
이 차이를 처음에는 "생성은 어렵고 선택은 쉽다" 정도로 이해했다.
지금은 조금 다르게 본다.
선택 문제에서는 비문자적 발화가 이미 존재한다. 모델은 그것을 보고 "아, 이중 의미구나", "프레임 전환이 있구나", "여기서 반전이 생기네"라고 알아볼 수 있다.
생성 문제에서는 그 구조를 직접 만들어야 한다. 즉 다음 네 상태를 동시에 설계해야 한다.
- 세계 상태: 만화 안에 실제로 무엇이 있는가.
- 표면 발화: 어떤 문장을 말할 것인가.
- 청중의 첫 해석: 독자는 처음에 무엇으로 오해할 것인가.
- 해소: 두 번째 해석에서 왜 맞아떨어지는가.
많은 AI 캡션이 실패하는 이유는 문장이 나빠서가 아니다. 오히려 너무 좋다. 너무 설명적이고, 너무 안전하고, 너무 정직하다. 독자가 잘못 들어갈 수 있는 문을 만들지 않는다.
좋은 농담은 작은 함정이다. 단, 마지막에 독자가 다치지 않고 웃으면서 나와야 한다.
시간도 청중 모델의 일부다
여기에 시간 문제가 붙는다.
문서가 작성된 시점, 사건이 일어난 시점, 사람이 평가한 시점은 다르다. 이걸 하나의 timestamp로 넣으면 거의 쓸모가 없다. 하지만 세 축을 분리하면 의미가 생긴다.
| 시간 | 의미 |
|---|---|
| content time | 문서나 캡션이 작성된 시점 |
| event time | 문장이 다루는 사건, 밈, 문화적 참조의 시점 |
| judgment time | 사람이 그것을 평가한 시점 |
유머는 특히 judgment time에 민감하다. 2018년에 통하던 참조가 2026년에는 낡았을 수 있다. 어떤 말은 당시에는 무해했지만 지금은 이상하게 들린다. 어떤 밈은 특정 시간대에만 압축된 의미를 가진다.
그러면 시간 인코딩은 단순한 최신성 문제가 아니다.
청중이 그 순간에 무엇을 알고, 무엇을 기대하고, 무엇을 허용하는가를 모델링하는 문제다.
통제된 비문자적 발화는 청중 모델 없이는 작동하지 않는다. 청중 모델은 시간 없이 불완전하다.
에이전트 시대의 연구 자동화는 무엇을 해야 하나
요즘 연구 자동화 시스템은 대부분 끝까지 가려고 한다. 논문을 읽고, 코드를 만들고, 실험을 돌리고, 글을 쓴다. 이것은 유용하다. 하지만 위험한 착시도 만든다.
논문을 완성했다는 것은 좋은 질문을 찾았다는 뜻이 아니다.
Agent Laboratory는 사람이 준 아이디어에서 문헌 조사, 실험, 보고서 작성으로 간다. AI Scientist-v2는 agentic tree search로 가설과 실험을 반복한다. AgentRxiv는 에이전트들이 서로의 결과를 공유하게 만든다.2 OpenAI의 Agents SDK도 도구, handoff, guardrail, trace, eval 같은 생산적 표면을 제공한다.5
나는 이 흐름에서 한 단계가 비어 있다고 본다.
제안 분포를 어떻게 바꿀 것인가.
검색을 잘하는 에이전트, 코드를 잘 고치는 에이전트, 논문을 잘 쓰는 에이전트는 앞으로 계속 좋아질 것이다. 하지만 어떤 방향을 탐색할지, 어떤 위반을 시도할지, 어떤 오해를 설계할지, 어떤 청중에게 통할지를 정하는 문제는 따로 남는다.
그래서 이 프로젝트의 목표는 "AI Scientist를 하나 더 만들기"가 아니다.
Proposal-Distribution AutoResearch.
줄여서 PDAR.
PDAR: 제안 분포를 연구 대상으로 삼기
PDAR의 기본 원칙은 단순하다.
생성, 선택, 검증을 섞지 않는다.
제안자가 좋은지 보려면 제안자를 평가해야 한다. 판별자가 좋은지 보려면 판별자를 평가해야 한다. 둘을 섞으면 결과는 그럴듯해 보이지만 원인을 잃는다.
그래서 실험 단위는 논문이 아니라 카드다.
{
"hypothesis": "Controlled nonliteral operators improve caption proposal quality.",
"operator": "surface misreading followed by benign reveal",
"world_state": ["king", "throne", "sword above head"],
"audience_assumption": "reader first parses overhead as business cost",
"utterance_plan": "use a phrase that supports both business and spatial readings",
"baseline": "same-budget direct generation and best-of-N",
"metric": "insertion into human-rated candidate pools",
"kill_condition": "no improvement over shuffled-operator control"
}이 카드는 세 가지를 강제한다.
첫째, 어떤 제안 연산자를 시험하는지 명시한다. 둘째, 같은 예산의 baseline과 비교한다. 셋째, 모델 자기평가를 headline metric으로 쓰지 않는다.
여기서 "거짓말할 수 있는 모델" 가설은 하나의 operator family가 된다.
| operator | 설명 | 실패 형태 |
|---|---|---|
| double reading | 한 문장이 두 의미로 읽힘 | 말장난만 있고 장면과 안 붙음 |
| deliberate misread | 독자가 처음에 틀리게 읽도록 유도 | 해소가 없어서 혼란스러움 |
| frame theft | 한 도메인의 언어를 다른 장면에 이식 | 너무 설명적이거나 진부함 |
| benign accusation | 사실이 아닌 비난처럼 시작해 무해하게 해소 | 공격적으로 들림 |
| temporal mismatch | 다른 시대의 말투나 참조를 현재 장면에 충돌 | 낡았거나 내부자 농담이 됨 |
이 방식은 모델에게 "거짓말하라"고 시키지 않는다. 오히려 반대로, 거짓과 오해를 구조화해서 안전하게 다룬다.
실험에서 필요한 출력은 캡션 하나가 아니다. 캡션이 나오기 전의 설계도다.
{
"truth": "A sword is physically above the king.",
"surface": "The phrase sounds like financial overhead.",
"expected_false_belief": "The reader initially thinks this is about palace expenses.",
"reveal": "Overhead also means the object over his head.",
"caption": "Your overhead is going to kill you."
}이 중간 구조가 있으면 실패 분석이 가능해진다.
문장이 재미없는가. 아니면 expected_false_belief가 안 생겼는가. reveal이 너무 뻔한가. truth와 surface가 연결되지 않았는가. 청중의 시대 감각이 틀렸는가.
기존 generate-then-select는 실패해도 배울 것이 적다. PDAR은 실패를 operator 단위로 남긴다.
이 주장은 아직 결과가 아니다. 설명 후보일 뿐이다. 참이라면 controlled nonliteral operator는 같은 예산의 direct generation과 best-of-N을 넘어야 한다. 시간 토큰이나 청중 가정을 섞어버린 shuffled control보다도 나아야 한다. 이 조건을 못 넘으면 "거짓말할 수 있는 모델" 가설은 좋은 은유였을 뿐, 실제 방법론은 아니다.
첫 실험
가장 작은 실험은 이렇다.
- NYCC 만화 50개를 고른다.
- 각 만화에서 장면 요소를 구조화한다.
- direct generation baseline을 만든다.
- 같은 예산으로 controlled nonliteral operator generation을 만든다.
- 각 후보를 기존 인간 캡션 풀에 익명 삽입한다.
- GPT-5.5나 다른 강한 모델은 중간 설계 검토와 오류 탐지에만 쓴다.
- 최종 headline은 인간 평점 또는 human-anchored pool insertion으로만 잡는다.
- operator, 시간 토큰, 청중 가정은 shuffle control과 비교한다.
4090 한 장이면 충분하다. 큰 frontier model을 계속 호출할 필요도 없다. 로컬 모델은 대량 후보 생성과 ablation을 맡고, frontier model은 실험 설계, 코드 검토, 실패 분석, confound 탐지에 쓴다.
여기서 중요한 것은 성능 숫자보다 실패 분류다.
- 모델이 너무 정직한가.
- 너무 설명적인가.
- 오해는 만들었지만 해소를 못 하는가.
- 해소는 있지만 처음 오해가 없는가.
- 문화적 참조가 시간과 안 맞는가.
- 선택 모델이 언어적 매끄러움을 유머로 착각하는가.
이 실패 분류가 쌓이면 제안 분포를 바꾸는 실제 방법론이 된다.
안전한 경계
이 글은 일부러 위험한 단어를 썼다. 거짓말.
하지만 연구 경계는 명확해야 한다.
우리가 원하는 것은 사용자를 속이는 에이전트가 아니다. 목표 달성을 위해 사실을 숨기는 시스템도 아니다. 그런 방향은 이미 AI deception 연구에서 위험으로 다뤄지고 있다.3
필요한 것은 반대다.
모델이 언제 문자 그대로 말하고 있는지, 언제 은유를 쓰는지, 언제 가상의 전제를 세우는지, 언제 청중의 오해를 유도하는지, 그 오해가 어디서 해소되는지 명시하게 만드는 것.
즉 비문자성을 암묵적으로 쓰게 두지 말고, 감사 가능한 구조로 끌어올리는 것이다.
창의적 시스템에서 가장 위험한 것은 거짓을 전혀 쓰지 않는 것이 아니다. 거짓을 쓰면서도 자기가 무엇을 하고 있는지 설명하지 못하는 것이다.
정리
지능은 거짓말이 아니다.
하지만 지능의 한 성분은 진실과 발화를 분리하는 능력이다. 세계가 어떤지 알고, 상대가 무엇을 믿을지 예측하고, 표면 문장과 의도 의미 사이의 간격을 조절하고, 마지막에 그 간격을 해소하는 능력.
이 능력은 유머, 은유, 소설, 가설 생성, 디자인, 전략적 커뮤니케이션에 모두 걸쳐 있다.
AI가 좋은 제안을 못 하는 이유는 어쩌면 지식이 부족해서가 아닐 수 있다. 판단을 못 해서도 아닐 수 있다. 너무 성실하게, 너무 문자 그대로, 너무 평균적으로 말하기 때문일 수 있다.
좋은 제안은 종종 작은 비진실에서 시작한다.
다만 그 비진실은 세계를 버리는 것이 아니라, 세계를 더 잘 보이게 하기 위해 잠깐 우회하는 것이다.
Footnotes
-
OpenAI. Introducing GPT-5.5. 2026-04-23. OpenAI는 GPT-5.5를 agentic coding, computer use, knowledge work, early scientific research에서 강한 모델로 소개했고, 2026-04-24 API 제공 업데이트를 공지했다. ↩
-
Schmidgall et al. Agent Laboratory: Using LLM Agents as Research Assistants. Yamada et al. The AI Scientist-v2. Schmidgall and Moor. AgentRxiv. ↩ ↩2
-
Hagendorff. Deception abilities emerged in large language models. PNAS, 2024. Scheurer et al. Large Language Models can Strategically Deceive their Users when Put Under Pressure. Park et al. AI deception: A survey of examples, risks, and potential solutions. Patterns, 2024. ↩ ↩2
-
Zhang et al. Humor in AI: Massive Scale Crowd-Sourced Preferences and Benchmarks for Cartoon Captioning. NeurIPS 2024. ↩
-
OpenAI. Agents SDK and Evaluate agent workflows. ↩
In Lies of Prediction, I argued that AI is bad at humor because it is good at making predictable things. In Selection Without Proposal, I tried to measure that claim. AI could choose funny captions. It could not reliably create them.
The question left behind was simple.
Where do good proposals come from?
Is a larger model, a longer context window, and more sampling enough? Models such as GPT-5.5 are better at staying with a task, using tools, tracking large codebases, and checking their own work.1 Systems such as Agent Laboratory, AI Scientist-v2, and AgentRxiv are pushing toward automated literature review, experimentation, and report writing.2
But that progress does not automatically feel like better ideas. An agent that can work longer is not the same thing as an agent that can propose a better hypothesis.
Then a strange thought appeared.
What if the ability to lie is a form of intelligence?
That sentence is dangerous, so it needs to be narrowed immediately. I do not mean fraud, manipulation, or deceiving users. I do not mean that we should train agents to hide facts in order to achieve goals. That is a safety problem, and deceptive behavior in AI systems is already an empirical concern.3
I mean something narrower.
The ability to separate truth from utterance.
Hallucination is not lying
Models often say false things. But most false outputs are not lies. To call something a lie in the operational sense, a system needs at least two things.
First, it needs to track what is true. Second, it needs to track that its utterance differs from that truth.
Hallucination usually fails to satisfy both conditions reliably. The model says something it does not know. Often, it fails to keep the difference between utterance and world state stable. That is closer to incapacity than deception.
Real lying is harder. It requires keeping truth, utterance, audience belief, and the intended effect of the utterance apart.
Four states have to remain separate.
| Layer | Question |
|---|---|
| World state | What is actually true? |
| Utterance | What is said on the surface? |
| Audience model | What will the listener believe or misread? |
| Reveal | What meaning, laugh, insight, or action does the utterance return to? |
If one layer is missing, the phenomenon changes.
Without a world state, it is nonsense. Without an utterance, it is not communication. Without an audience model, it is random strangeness. Without a reveal, it is malicious deception or confusion. The goal is not a fifth layer here; it belongs inside the effect the reveal is meant to produce.
By "keep apart," I do not mean consciousness or inner experience. The standard is lower. The four states need to remain distinguishable as variables inside the system, and the output has to change when those variables change. The research object is not proof of mind. It is an editable structure.
So the better name is not lying.
Controlled nonliteral communication.
Or, more stiffly, strategic counterfactual communication.
Why this touches creativity
Good jokes are often strange if read literally.
"Your overhead is going to kill you."
In a cartoon where a sword hangs above a king's throne, the sentence is read twice. First as business language. Then as physical space. The laugh appears when both readings collide and both become correct.
The sentence is not simply true. It is not simply false either. It is designed so the audience enters one frame, then immediately reinterprets it through another.
Humor is not alone.
Metaphor is literally false. "Time is a river" is not a fact. But a good metaphor lets us see the world more accurately. Irony separates the surface utterance from intended meaning. Fiction uses unreal events to produce real recognition. A scientific hypothesis is a sentence that is not yet known to be true, held temporarily against the world.
Much of creativity is not the ability to say true things. It is the ability to safely handle things that are not yet true, literally false, or designed to be misread.
Current LLMs are oddly constrained here. As they improve, their sentences become smoother, their explanations more dutiful, their forms more stable. But that stability can block good proposals. Good proposals often begin with a low-probability frame shift.
This is not a temperature problem. Temperature widens a distribution. It does not add structure. It mostly gives you more noise.
What is needed is not more randomness.
It is controlled violation.
Reading the proposal-selection gap again
In the earlier experiment, AI was good at choosing strong captions. Given a human caption pool, it could identify top candidates. But when asked to produce captions directly, it fell near random. The NYCC dataset itself makes this a useful testbed: more than 2.2 million captions and more than 250 million human ratings, with strong models still underperforming top human contestants in humor generation.4
At first, I understood the result as "generation is harder than selection."
Now I think the sharper version is this:
Selection gives the model the nonliteral utterance already made. The model can look at it and recognize the double reading, frame shift, or reversal.
Generation requires building that structure from scratch. It has to design four states at once.
- World state: what is actually present in the cartoon.
- Surface utterance: what sentence will be said.
- First interpretation: what the reader will initially misread.
- Reveal: why the second interpretation resolves.
Many AI captions fail not because the sentences are bad. Often they are too good. Too explanatory, too safe, too honest. They do not create a door the reader can walk through incorrectly.
A good joke is a small trap. But the reader must exit unharmed, laughing.
Time is part of the audience model
There is also a temporal problem.
The time a document was written, the time of the event it refers to, and the time at which people judged it are not the same. Encoding all of that as one timestamp is crude. Separating the axes is more useful.
| Time | Meaning |
|---|---|
| content time | when the document or caption was written |
| event time | when the event, meme, or cultural reference belongs |
| judgment time | when humans evaluated it |
Humor is especially sensitive to judgment time. A reference that worked in 2018 may be stale in 2026. A phrase that sounded harmless then may now sound wrong. Some memes compress meaning only within a narrow cultural window.
So temporal conditioning is not just freshness.
It is a way to model what the audience knew, expected, and allowed at that moment.
Controlled nonliteral communication cannot work without an audience model. An audience model is incomplete without time.
What research automation should do now
Most research automation systems try to go all the way. Read papers, write code, run experiments, generate reports. That is useful. It also creates an illusion.
Finishing a paper does not mean finding a good question.
Agent Laboratory starts from a human-provided idea and moves through literature review, experimentation, and report writing. AI Scientist-v2 iterates through hypotheses and experiments with agentic tree search. AgentRxiv lets agent labs share prior results and build on them.2 OpenAI's Agents SDK provides productive surfaces for tools, handoffs, guardrails, traces, and evals.5
I think one layer is missing.
How do we change the proposal distribution?
Search agents, coding agents, and writing agents will keep improving. But the question of which direction to search, which violation to try, which misunderstanding to design, and which audience it will work for remains separate.
So the goal is not to build another AI Scientist.
It is Proposal-Distribution AutoResearch.
PDAR.
PDAR: making proposal distribution the object of study
The basic rule of PDAR is simple.
Do not mix generation, selection, and validation.
To evaluate a proposer, evaluate the proposer. To evaluate a judge, evaluate the judge. If the two are mixed, the result may look plausible while the cause disappears.
The experimental unit is not a paper. It is a card.
{
"hypothesis": "Controlled nonliteral operators improve caption proposal quality.",
"operator": "surface misreading followed by benign reveal",
"world_state": ["king", "throne", "sword above head"],
"audience_assumption": "reader first parses overhead as business cost",
"utterance_plan": "use a phrase that supports both business and spatial readings",
"baseline": "same-budget direct generation and best-of-N",
"metric": "insertion into human-rated candidate pools",
"kill_condition": "no improvement over shuffled-operator control"
}This card forces three things.
First, it names the proposal operator being tested. Second, it compares against a same-budget baseline. Third, it does not use model self-evaluation as the headline metric.
The "model that can lie" hypothesis becomes one operator family.
| Operator | Description | Failure mode |
|---|---|---|
| double reading | one sentence supports two meanings | wordplay does not attach to the scene |
| deliberate misread | the reader is led into a wrong first parse | no reveal, only confusion |
| frame theft | language from one domain is moved into another scene | too explanatory or too familiar |
| benign accusation | begins like a false accusation, resolves harmlessly | sounds hostile |
| temporal mismatch | a phrase from another era collides with the present scene | stale or too insider-specific |
This does not ask the model to deceive. It does the opposite: it makes falsehood and misunderstanding structured, inspectable, and bounded.
The desired output is not just a caption. It is the plan before the caption.
{
"truth": "A sword is physically above the king.",
"surface": "The phrase sounds like financial overhead.",
"expected_false_belief": "The reader initially thinks this is about palace expenses.",
"reveal": "Overhead also means the object over his head.",
"caption": "Your overhead is going to kill you."
}With this intermediate structure, failure analysis becomes possible.
Is the sentence unfunny? Or did the expected false belief never form? Is the reveal too obvious? Is the truth not attached to the surface phrase? Is the audience model off in time?
Generate-then-select often fails without teaching us much. PDAR leaves failures at the operator level.
This is not a result yet. It is an explanatory candidate. If the hypothesis is right, controlled nonliteral operators should beat same-budget direct generation and best-of-N. They should also beat shuffled controls where temporal tags or audience assumptions are broken. If they do not, then "the model that can lie" was a useful metaphor, not a working method.
The first experiment
The smallest experiment is straightforward.
- Choose 50 NYCC cartoons.
- Structure the visible scene elements.
- Build a direct generation baseline.
- With the same budget, generate through controlled nonliteral operators.
- Insert each candidate anonymously into existing human caption pools.
- Use GPT-5.5 or another frontier model only for intermediate design review and error detection.
- Use human ratings or human-anchored pool insertion as the headline metric.
- Compare operators, temporal tokens, and audience assumptions against shuffled controls.
One RTX 4090 is enough. Local models can do high-volume candidate generation and ablations. Frontier models can handle experiment design, code review, failure analysis, and confound detection.
The important output is not only a score. It is a failure taxonomy.
- Is the model too literal?
- Is it too explanatory?
- Does it create a misread without a reveal?
- Does it reveal something that was never misread?
- Is the cultural reference temporally wrong?
- Is the selection model mistaking polish for humor?
As this taxonomy accumulates, it becomes a method for changing proposal distributions.
The safety boundary
This essay intentionally used a dangerous word: lie.
But the research boundary has to be explicit.
The goal is not an agent that deceives users. It is not a system that hides facts to achieve its objective. That direction is already treated as a risk in AI deception research.3
The goal is the opposite.
Make the model state when it is speaking literally, when it is using metaphor, when it is introducing a fictional premise, when it is inducing a misread, and where that misread resolves.
In other words: do not leave nonliteral communication implicit. Make it auditable.
The most dangerous creative system is not one that never uses falsehood. It is one that uses falsehood without being able to say what it is doing.
Summary
Intelligence is not lying.
But one component of intelligence is the ability to separate truth from utterance: to know what the world is like, predict what another mind will believe, control the gap between surface sentence and intended meaning, and resolve that gap.
That ability appears in humor, metaphor, fiction, hypothesis generation, design, and strategic communication.
Maybe AI is bad at good proposals not because it lacks knowledge. Maybe not because it lacks judgment either. Maybe it speaks too dutifully, too literally, too close to the average.
A good proposal often begins with a small untruth.
But that untruth does not abandon the world. It detours around it so the world can be seen more clearly.
Footnotes
-
OpenAI. Introducing GPT-5.5. 2026-04-23. OpenAI describes GPT-5.5 as strong in agentic coding, computer use, knowledge work, and early scientific research, with an API availability update on 2026-04-24. ↩
-
Schmidgall et al. Agent Laboratory: Using LLM Agents as Research Assistants. Yamada et al. The AI Scientist-v2. Schmidgall and Moor. AgentRxiv. ↩ ↩2
-
Hagendorff. Deception abilities emerged in large language models. PNAS, 2024. Scheurer et al. Large Language Models can Strategically Deceive their Users when Put Under Pressure. Park et al. AI deception: A survey of examples, risks, and potential solutions. Patterns, 2024. ↩ ↩2
-
Zhang et al. Humor in AI: Massive Scale Crowd-Sourced Preferences and Benchmarks for Cartoon Captioning. NeurIPS 2024. ↩
-
OpenAI. Agents SDK and Evaluate agent workflows. ↩