Lies of Prediction
On the lie that the predictable is the good.
예술이 뭔지 오래 생각했는데, 요즘은 이렇게 생각한다. 세상에 없던 것을 만드는 것. 새로운 소수를 찾는 것과 비슷하다. 소수는 발견되기 전에도 존재하지만 아무도 모른다. 찾고 나면 처음부터 거기 있었던 것 같다.
AI는 왜 웃기지 않을까.
농담의 구조를 보면 답이 나온다. 웃음이 터지는 지점은 항상 같다 — 이야기가 전개되다가 예상 못한 곳에 도착할 때. 유머 연구에서는 이를 불일치 해소(incongruity resolution)라고 부른다. 우리는 듣는 동안 무의식적으로 다음을 예측하고, 그 예측이 빗나갈 때 웃는다.1
같은 농담을 두 번째 들으면 덜 웃긴다. 세 번째는 거의 안 웃기고, 네 번째는 짜증이 난다. 농담의 구조는 그대로인데 효과만 사라진다. 바뀐 건 우리 쪽이다. 예측이 가능해진 것.
AI가 만든 농담이 안 웃긴 이유도 같다. AI는 학습 데이터에서 가장 그럴듯한 다음 토큰을 출력한다. "가장 그럴듯한 것"은 "가장 예측 가능한 것"이다.
뇌과학 쪽에서는 이미 비슷한 이야기를 하고 있다. 예측 코딩(predictive coding) 이론에 따르면 뇌가 하는 일의 대부분은 다음 순간을 예측하는 것이고, 실제로 처리되는 것은 예측과 입력 사이의 오차뿐이다.2 칼 프리스턴의 자유 에너지 원리는 이걸 더 밀어붙여서, 뇌의 모든 활동이 예측 오차를 최소화하는 과정이라고 본다.3
예측이 맞으면 아무 일도 일어나지 않는다. 예측이 틀릴 때만 뭔가가 발생한다. 감각, 감정, 주의 — 전부 예측 오차의 처리 과정에서 나온다. "느낀다"는 것은 예측이 실패했다는 신호다.
여기서 한 가지 짚어야 할 것이 있다. 인간도 예측 기계다. 뇌가 예측 오차를 최소화하는 시스템이라면, 인간도 AI와 마찬가지로 예측을 수행하는 존재다. 그런데 인간은 예술을 만들 수 있고, AI는 왜 어려운가?
차이는 방향에 있다. AI의 학습 목표는 예측 오차의 최소화다. 손실 함수(loss function)를 줄이는 방향으로 가중치를 조정하고, 그 결과 학습 데이터의 분포를 가장 잘 근사하는 출력을 만든다. 인간의 뇌도 예측 오차를 최소화하지만, 예술가는 그 반대 방향으로 작업한다. 자신의 예측을 의도적으로 깨뜨리는 선택을 하고, 그 선택이 구조 안에서 작동하는지 확인한다. 예술가는 자기 자신을 청중의 프록시로 사용한다 — 같은 예측 모델을 공유하는 인간으로서, 자신이 예측하지 못한 것이 다른 인간도 예측하지 못할 것이라는 판단을 할 수 있다. AI에게는 이 내부 피드백 루프가 없다. AI는 자신의 출력에 놀라지 않는다.
프랙탈이 왜 아름답게 느껴지는지에 대한 연구가 있다.
리처드 테일러와 브렉코 스페하르 등은 중간 범위의 프랙탈 차원(D ≈ 1.3–1.5)을 가진 패턴에서 인간의 미적 선호가 가장 높다는 것을 실험적으로 보였다.4 잭슨 폴록의 드리핑 회화가 이 범위에 해당한다는 분석도 있다.5 랜덤 노이즈(D ≈ 2.0)는 선호도가 낮고, 단순한 유클리드 도형(D ≈ 1.0)도 마찬가지다.
이 결과를 해석하는 방법이 두 가지 있다. 하나는 처리 유창성(processing fluency) 가설이다. 인간의 시각 체계가 자연 장면에 최적화되어 있고, 자연 장면의 프랙탈 차원이 대략 1.3–1.5이기 때문에, 이 범위의 패턴은 처리하기 쉽고 그래서 선호된다는 해석이다.6 이 관점에서 아름다움은 예측의 성공이다.
다른 하나는 예측 오차 관점이다. 중간 범위의 프랙탈은 전체 구조(global structure)는 파악할 수 있지만 세부(local detail)는 예측할 수 없다. 전체적으로는 처리 가능하되, 부분적으로는 계속 새로운 정보가 나온다. 뇌가 "이해할 수 있다"고 판단할 만큼 구조적이면서, 동시에 "다 알았다"고 판단하지 못할 만큼 복잡한 지점.
나는 이 두 해석이 모순이 아니라고 본다. 전체 구조의 처리 유창성과 세부의 예측 불가능성이 동시에 성립할 수 있다. 오히려 둘 다 필요하다 — 구조 없이 예측 불가능하면 노이즈이고, 예측 불가능성 없이 구조만 있으면 격자무늬다. 아름다움의 조건은 "전체적으로 처리 가능하지만 부분적으로 예측 불가능한 것"이다.
음악에서도 같은 패턴이 확인된다. Cheung 등의 2019년 연구에서, 화성 진행의 불확실성이 높은 맥락에서 예상 밖의 코드가 등장했을 때 청취자의 쾌감이 가장 높았다.7 중요한 것은 "불확실성이 높은 맥락"이라는 조건이다. 무조건 예상 밖이면 좋은 게 아니라, 구조는 유지되는 가운데 예측이 깨져야 한다. 재즈 즉흥연주가 작동하는 방식이 이것이다.
A Call for New Aesthetics라는 프로젝트가 있다. 바우하우스가 20세기 미학을 정의한 것처럼, 21세기의 미학은 무엇인가를 묻는다. 거기 이런 문장이 있다.
"Circa 2026, beauty can be found in strange and unusual places. It can violate our expectations in unreasonable ways."
그리고 AI에 대해서는 이렇게 말한다.
"If jazz didn't exist, could you prompt Suno to create it?"
나는 만들 수 없다고 생각한다. 여기에 대한 반론을 먼저 다루겠다.
첫 번째 반론: AI도 학습 데이터에 없는 새로운 조합을 만들 수 있다. 맞다. 대형 언어 모델은 학습 데이터의 단순 복사가 아니라 분포를 학습한다. 그 분포 안에서 학습 데이터에 직접 등장하지 않은 조합을 생성할 수 있다. 하지만 이건 분포 내부의 보간(interpolation)이지 분포 외부의 도약(extrapolation)이 아니다. 학습 데이터의 볼록 껍질(convex hull) 안에서 새로운 점을 찍는 것이지, 껍질 바깥에 점을 찍는 것이 아니다.
두 번째 반론: temperature를 올리면 예측 불가능한 출력이 나온다. 이것도 맞다. 하지만 temperature는 확률 분포를 균등하게 만드는 것이지, 구조적 예측 불가능성을 만드는 것이 아니다. 프랙탈 차원으로 비유하면, D를 1.0에서 2.0으로 올리는 것과 같다. 랜덤 노이즈는 프랙탈이 아니다.
AI의 근본적 한계는 학습 목표 자체에 있다. AI는 학습 데이터의 분포를 잘 근사하도록 훈련된다. 잘 훈련될수록 출력은 그 분포의 중심에 가까워진다. 이것은 설계 의도대로 작동하는 것이다. 문제는, 분포의 중심이란 기존에 존재하는 것들의 통계적 요약이라는 점이다. 재즈가 존재하지 않는 학습 데이터에서 재즈를 생성하려면 분포의 바깥으로 나가야 하는데, 그건 학습 목표와 정반대 방향이다.
Lies of P. 예측의 거짓말.
예측 가능한 것이 좋은 것이라는 거짓말. 가장 확률 높은 다음 토큰이 가장 좋은 다음 토큰이라는 거짓말.
우리는 예측으로 이루어져 있어서, 예측이 깨질 때만 뭔가를 느낀다. 아름다움도 유머도 같은 조건 위에 서 있다 — 전체적으로 처리 가능하지만 부분적으로 예측할 수 없는 것.
이미 존재하는 것들의 통계적 평균은 새로운 소수가 아니다.
Footnotes
-
Suls, J. M. (1972). A two-stage model for the appreciation of jokes and cartoons. In J. H. Goldstein & P. E. McGhee (Eds.), The Psychology of Humor. Academic Press. ↩
-
Rao, R. P. N., & Ballard, D. H. (1999). Predictive coding in the visual cortex. Nature Neuroscience, 2(1), 79–87. ↩
-
Friston, K. (2010). The free-energy principle: a unified brain theory? Nature Reviews Neuroscience, 11(2), 127–138. ↩
-
Spehar, B., Clifford, C. W. G., Newell, B. R., & Taylor, R. P. (2003). Universal aesthetic of fractals. Computers & Graphics, 27(5), 813–820. ↩
-
Taylor, R. P., Micolich, A. P., & Jonas, D. (1999). Fractal analysis of Pollock's drip paintings. Nature, 399, 422. ↩
-
Reber, R., Schwarz, N., & Winkielman, P. (2004). Processing fluency and aesthetic pleasure: Is beauty in the perceiver's processing experience? Personality and Social Psychology Review, 8(4), 364–382. ↩
-
Cheung, V. K. M., Harrison, P. M. C., Meyer, L., Pearce, M. T., Haynes, J.-D., & Koelsch, S. (2019). Uncertainty and surprise jointly predict musical pleasure and amygdala, hippocampus, and auditory cortex activity. Current Biology, 29(23), 4084–4092. ↩
I've been thinking about what art is for a long time. Lately, I think of it this way: making something that didn't exist in the world before. It's similar to finding a new prime number. A prime exists before it's discovered, but nobody knows it. Once found, it feels like it was always there.
Why isn't AI funny?
The answer lies in the structure of a joke. The moment laughter erupts is always the same — the story unfolds, then arrives somewhere you didn't expect. Humor research calls this incongruity resolution. While listening, we unconsciously predict what comes next, and we laugh when that prediction is wrong.1
The same joke is less funny the second time. By the third, barely funny at all. By the fourth, it's annoying. The structure of the joke hasn't changed — only the effect has disappeared. What changed is on our side. Prediction became possible.
The reason AI-generated jokes aren't funny is the same. AI outputs the most plausible next token from its training data. "Most plausible" means "most predictable."
Neuroscience has been telling a similar story. According to predictive coding theory, most of what the brain does is predict the next moment, and what actually gets processed is only the error between prediction and input.2 Karl Friston's free energy principle pushes this further, arguing that all brain activity is a process of minimizing prediction error.3
When prediction is correct, nothing happens. Something occurs only when prediction fails. Sensation, emotion, attention — all of it emerges from the processing of prediction error. To "feel" something is a signal that prediction has failed.
There's one thing to note here. Humans are prediction machines too. If the brain is a system that minimizes prediction error, then humans, like AI, are beings that perform prediction. So why can humans make art while AI struggles?
The difference lies in the direction. AI's learning objective is the minimization of prediction error. It adjusts weights to reduce the loss function, and as a result, produces outputs that best approximate the distribution of training data. The human brain also minimizes prediction error, but the artist works in the opposite direction. They make choices that deliberately break their own predictions, then check whether those choices work within a structure. The artist uses themselves as a proxy for the audience — as a human who shares the same predictive model, they can judge that what they themselves didn't predict, other humans won't predict either. AI lacks this internal feedback loop. AI is not surprised by its own output.
There's research on why fractals feel beautiful.
Richard Taylor, Branka Spehar, and others experimentally showed that human aesthetic preference is highest for patterns with mid-range fractal dimensions (D ≈ 1.3–1.5).4 There's also analysis showing that Jackson Pollock's drip paintings fall within this range.5 Random noise (D ≈ 2.0) scores low in preference, and so do simple Euclidean shapes (D ≈ 1.0).
There are two ways to interpret this result. One is the processing fluency hypothesis. Because the human visual system is optimized for natural scenes, and the fractal dimension of natural scenes is roughly 1.3–1.5, patterns in this range are easy to process and therefore preferred.6 From this perspective, beauty is the success of prediction.
The other is the prediction error perspective. Mid-range fractals have a global structure you can grasp, but local details you cannot predict. They're processable as a whole, yet continuously yield new information in their parts. Structured enough for the brain to judge "I can understand this," yet complex enough that it never concludes "I've figured it all out."
I don't think these two interpretations contradict each other. Processing fluency of the global structure and unpredictability of the details can coexist. In fact, both are necessary — unpredictability without structure is noise; structure without unpredictability is a grid pattern. The condition for beauty is "globally processable but locally unpredictable."
The same pattern is confirmed in music. In a 2019 study by Cheung et al., listener pleasure was highest when an unexpected chord appeared in a context of high harmonic uncertainty.7 The crucial condition is "a context of high uncertainty." It's not that anything unexpected is good — prediction must break while structure is maintained. This is how jazz improvisation works.
There's a project called A Call for New Aesthetics. It asks what the aesthetics of the 21st century should be, the way Bauhaus defined 20th-century aesthetics. It includes this line:
"Circa 2026, beauty can be found in strange and unusual places. It can violate our expectations in unreasonable ways."
And about AI, it says:
"If jazz didn't exist, could you prompt Suno to create it?"
I don't think it could. Let me address the counterarguments first.
First counterargument: AI can create novel combinations not found in the training data. True. Large language models don't simply copy training data — they learn distributions. Within those distributions, they can generate combinations that don't directly appear in the training data. But this is interpolation within the distribution, not extrapolation beyond it. It's placing new points inside the convex hull of the training data, not placing points outside it.
Second counterargument: raising the temperature produces unpredictable output. Also true. But temperature flattens the probability distribution — it doesn't create structural unpredictability. In fractal dimension terms, it's like raising D from 1.0 to 2.0. Random noise is not a fractal.
AI's fundamental limitation lies in its learning objective itself. AI is trained to approximate the distribution of its training data well. The better it's trained, the closer its output converges to the center of that distribution. This is working as designed. The problem is that the center of the distribution is a statistical summary of things that already exist. To generate jazz from training data where jazz doesn't exist, you'd have to go outside the distribution — and that's the exact opposite direction of the learning objective.
Lies of P. The lies of prediction.
The lie that the predictable is the good. The lie that the highest-probability next token is the best next token.
We are made of prediction, so we only feel something when prediction breaks. Beauty and humor stand on the same condition — globally processable but locally unpredictable.
The statistical average of everything that already exists is not a new prime number.
Footnotes
-
Suls, J. M. (1972). A two-stage model for the appreciation of jokes and cartoons. In J. H. Goldstein & P. E. McGhee (Eds.), The Psychology of Humor. Academic Press. ↩
-
Rao, R. P. N., & Ballard, D. H. (1999). Predictive coding in the visual cortex. Nature Neuroscience, 2(1), 79–87. ↩
-
Friston, K. (2010). The free-energy principle: a unified brain theory? Nature Reviews Neuroscience, 11(2), 127–138. ↩
-
Spehar, B., Clifford, C. W. G., Newell, B. R., & Taylor, R. P. (2003). Universal aesthetic of fractals. Computers & Graphics, 27(5), 813–820. ↩
-
Taylor, R. P., Micolich, A. P., & Jonas, D. (1999). Fractal analysis of Pollock's drip paintings. Nature, 399, 422. ↩
-
Reber, R., Schwarz, N., & Winkielman, P. (2004). Processing fluency and aesthetic pleasure: Is beauty in the perceiver's processing experience? Personality and Social Psychology Review, 8(4), 364–382. ↩
-
Cheung, V. K. M., Harrison, P. M. C., Meyer, L., Pearce, M. T., Haynes, J.-D., & Koelsch, S. (2019). Uncertainty and surprise jointly predict musical pleasure and amygdala, hippocampus, and auditory cortex activity. Current Biology, 29(23), 4084–4092. ↩