Shannon没有想到的事：信息论遇上有限算力-墙外头条

从一个日常经验开始

你有没有过这种体验——

打开一本教科书，前三页还能跟上，到第四页突然看不懂了。每个字你都认识，但连在一起就变成了噪音。你翻回去重读，还是不行。于是你合上书，换了一本"入门版"，同样的知识换一种讲法，突然就懂了。

信息没有变。书里写的还是同一件事。变的是你能不能处理它。

现在问一个稍微奇怪的问题：那本你看不懂的教科书，对你来说，信息量是多少？

Shannon 的信息论会说：和入门版一样多。信息量是数据本身的属性，和谁在读无关。

但你的直觉说：不对。那本我看不懂的书，对我来说信息量接近于零——因为我什么都没学到。

你的直觉是对的。Shannon 的理论也没错。矛盾出在一个被忽略了 78 年的假设上。

同一本书，不同的读者

Shannon 漏掉了什么

Claude Shannon 在 1948 年创立了信息论。这是 20 世纪最伟大的数学成就之一——它定义了"信息"是什么，证明了压缩、预测和理解在数学上是同一件事，奠定了整个现代通信工业的基础。

我在之前的信息论文章里花了一整篇来讲这件事，在开篇语里把"压缩即智能"这五个字当作这个系列的基石。

但 Shannon 解决的问题是通信——我这端有一段数据，怎么通过一根嘈杂的电话线传到你那端，不丢失、不出错。

对这个问题来说，"谁在收"不重要——你是人还是机器，收到的比特数是一样的。所以 Shannon 隐式地假设了观察者有无限的计算能力。这个假设在通信领域完全无害，甚至很优雅。

但今天的核心问题变了。不再是"怎么传数据"，而是——

给一堆数据，能从里面学到多少有用的东西？

这是一个根本不同的问题。在这个问题里，"谁在学"变得至关重要。同样的数据，GPT-2 和 GPT-4 学到的东西不同；人类和 LLM 学到的也不同。甚至同一个人，精力充沛和疲惫不堪时，从同样的数据中学到的也不同。

Shannon 的框架里，没有地方放"学习者的能力"这个变量。

78 年来这不是问题——因为我们主要在做通信。但自从 LLM 出现，这个缺失就开始挡路了。

2026 年 1 月，CMU 和 NYU 的六位研究者（Finzi, Qiu, Jiang 等人）在一篇名为 "From Entropy to Epiplexity" 的论文中（arXiv: 2601.03220），正式补上了这个缺口。

在讲他们怎么补的之前，我想先让你感受一下这个缺口到底有多大。

三个让人不安的事实

事实一：从"无"中创造"有"

2017 年 12 月 5 日，DeepMind 发了一篇论文。AlphaZero——一个从零开始、仅靠自我对弈的 AI——用 4 小时学会了国际象棋，然后击败了人类花 40 年调教出来的最强引擎 Stockfish。

AlphaZero 的输入是什么？国际象棋的规则——几百行代码，几 KB 大小。它的输出？需要数十兆字节权重才能存储的超人棋力。那些前所未见的弃子攻击、匪夷所思的开局创新——象棋界的人看到后说"这不像机器下的棋，这像是来自外星文明"。

问题来了：这些知识从哪里来的？

Shannon 的信息论说：确定性变换不能增加信息。规则进去，规则出来，信息量守恒。AlphaZero 没有从外部获取任何数据。所以按 Shannon 的理论，它不应该产生新信息。

但几十兆字节的超人棋力，显然不是"没有新信息"。

AlphaZero 的棋局：从简单规则中涌现的超人直觉

事实二：顺序不应该重要，但它重要

论文里引用了一段 Ilya Sutskever（OpenAI 联合创始人）的话，让我印象很深：

"你在读一本推理小说。读到某一页，文字揭示了凶手的身份。如果模型能预测出那个名字……那它一定是从前面的线索中推理出了谁是凶手。"

但写书的人不需要做这个推理。作者先选好了凶手，再倒过来编织线索。写作方向和阅读方向是反的——一个轻松写意，一个烧脑至极。

写作方向和阅读方向是相反的——一个轻松写意，一个烧脑至极

同样的故事，从结局倒着读，和从开头正着读，包含的"信息"一样吗？

Shannon 说：一样。信息量和顺序无关，这是信息论的基本性质。

H(X, Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)

但做 LLM 训练的人都知道：英语文本正着建模比倒着建模效果好得多。更极端的例子——两个大素数 p 和 q，算乘积 N = p × q 一秒搞定；反过来给你 N 让你分解？整个密码学工业建立在"这件事算不出来"的基础上。

同样的信息，调换一下方向，学习难度天壤之别。

事实三：学生可以比老师更聪明

Conway 的生命游戏——可能是最著名的"涌现"案例。规则简单到只需要三行：

对每个细胞：活邻居 = 3 → 活活邻居 = 2 且自己活 → 活否则 → 死

但从这三行规则出发，会涌现出"滑翔机"（一种会斜向移动的结构）、"枪"（周期性发射滑翔机的装置）、甚至理论上的通用计算机。

Conway 的生命游戏：Gosper 滑翔机枪——简单规则涌现复杂行为

如果你训练一个 LLM 来预测生命游戏的演化，它必须学到这些涌现概念——否则它没法做出好的预测。但这些概念完全不在那三行规则里。

模型学到的内部程序，比生成数据的程序复杂得多。这违反了"模型最多只能学到数据源的水平"这个直觉。

同一串数字，你看到了什么？

这三个事实指向同一个裂缝。要理解它，先看一个你每天都在经历的现象。

你手机上的每一次加密通信——微信消息、银行转账、HTTPS 网页——都依赖伪随机数生成器。原理很简单：给一个短短的"种子"（比如数字 42），通过确定性算法，吐出一长串看起来完全无规律的数字。

如果 Shannon 本人来看这串数字，他会说：信息量等于种子的长度，几十个 bit 而已。因为存在一个程序能完美重现整个序列——种子加算法，搞定。

但如果你把这串数字交给世界上最强的 AI，让它看前一万个数字，预测第一万零一个？

它做不到。

不是模型不够大，不是训练不够久。而是在有限时间内，不存在任何算法能区分这串伪随机数和真正的随机数。这是现代密码学的基石——如果谁能做到，你的银行账户、你的微信聊天记录、全世界的加密系统，全部裸奔。

同一串数字，两个观察者看到了完全不同的东西

对有无限算力的 Shannon 观察者：这串数字几乎不包含信息（一个短种子而已）。

对有限算力的你我和 LLM：这串数字就是完全随机的，每一位都是全新的、不可预测的信息。

同一个对象。同一串 bit。因为观察者的算力不同，"包含多少信息"完全不同。

这就是 Shannon 漏掉的东西：信息不是数据的固有属性，而是数据和观察者之间的关系。

损失曲线里藏着答案

论文提出的核心概念叫 epiplexity（认知复杂度）。名字有点唬人，但直觉非常简单——简单到可以用一张图说清楚。

核心直觉：损失曲线的两部分 = 结构 + 随机

如果你训练过 AI 模型（或者哪怕只是看过训练过程的截图），你一定见过这样的损失曲线：一开始 loss 很高，然后慢慢下降，最后趋于平稳。

论文说：这条曲线天然地把数据里的信息切成了两半。

上半部分——loss 下降的那部分面积——是模型通过训练真的学到了的东西。语法规则、逻辑关系、因果常识……所有让模型变"聪明"的结构性知识。论文给它起了个名字：epiplexity。

下半部分——loss 不再下降后的残余——是模型学完了所有能学的之后，仍然无法预测的随机噪声。明天的天气精确到每一朵云的形状、下一个用户会打什么错别字——这些信息量巨大，但没有可学习的规律。论文叫它：时间有界熵。

Shannon 的经典理论只看总面积——它不区分这两部分。但对实际的 AI 训练、对人类学习来说，我们真正关心的只有蓝色区域——那些能被学到、能被复用、能被迁移到新任务的结构。

一个直觉类比：你读一本书。书里的信息分两种——你读完后记住并理解的部分（epiplexity），和你怎么也记不住的随机细节，比如第 137 页第 3 行第 5 个字（时间有界熵）。总信息量一样，但前者才是你真正"学到"的。

回到那三个不安的事实

有了 epiplexity，前面那三个让人不安的事实就都有解释了。

计算可以创造结构

论文用细胞自动机做了一个漂亮的实验。

什么是细胞自动机？想象一排格子，每个格子只有黑白两种颜色。每一步，每个格子根据自己和左右邻居的颜色，按一个固定规则翻转。规则极其简单——只有一行逻辑。但不同的规则产生了天壤之别的结果：

同一种确定性变换，产生完全不同的信息结构

规则 15：简单的条纹，像壁纸图案。模型一眼看穿。就像一首只有 Do Re Mi 三个音符的练习曲——没什么可学的。

规则 30：一片混沌，看不出任何规律。模型训练到天荒地老也无法降低 loss。这就是我们刚才说的伪随机数的原型——确定性过程产生了（对有限观察者来说）完全随机的结果。信息量巨大，但全是噪声。

规则 54：最有意思——复杂但不混乱。你仔细看，能看到一些"粒子"在移动、碰撞、产生新粒子。模型的 loss 缓慢但稳定地下降。它在一点一点发现这些隐藏的规律。这就是高 epiplexity 的数据——充满了值得学习的结构。

三种规则的输入完全相同，程序复杂度也几乎一样。但对有限算力的模型来说，它们创造出了截然不同的"可学信息"。

所以 AlphaZero 不神秘了。国际象棋的规则很简单，但通过海量计算（自我对弈），这个确定性过程为有限观察者创造了大量结构性信息。Shannon 说"信息没有增加"——对无限算力的上帝来说确实如此。但对我们这些有限观察者来说，那些弃子攻击和开局创新，就是被计算挖掘出来的、全新的结构。

困难的方向教会你更多

论文在国际象棋上做了一个让我拍案叫绝的实验。

同一批棋谱，两种喂法：

? 正序：先给棋步（1.e4 e5 2.Nf3...），再给最终棋盘状态

? 逆序：先给最终棋盘状态，再给棋步

正序就像看直播——沿着棋步走，最终棋盘可以一步步算出来。逆序就像推理小说倒着读——给你结局，让你反推过程。

国际象棋实验：更"难"的顺序 → 更多结构 → 更强迁移

结果？逆序更难学，loss 更高。但模型学到了更多的结构性信息（epiplexity 更高）。更惊人的是，在下游任务上——解棋局谜题、评估局面优势——逆序模型的迁移效果碾压正序。

为什么？正序模型可以"偷懒"——它只需要学会模拟规则的正向执行。但逆序模型没有捷径。它被逼着去理解棋局的内在逻辑。这种被逼出来的深层理解，恰好是下游任务需要的。

这个发现有一种禅意：学得越痛苦的方向，越可能是正确的方向。因为痛苦意味着你不能走捷径，必须建立真正的理解。

涌现超越规则

生命游戏的实验更直接。论文做了一个对比：

给模型足够的算力逐步展开中间状态 → 模型找到了暴力模拟的笨办法，epiplexity 暴跌——因为它只需要记住那三行规则，反复执行就行。

限制模型的算力 → 模型被迫学习涌现出来的高层规律（粒子的运动、碰撞、产生），epiplexity 持续上升。

当算力不够暴力求解时，模型必须变得比数据的生成过程更"聪明"。这就是涌现——我在《为什么矩阵和激活函数就能涌现智能？》里讨论过这个现象。epiplexity 给了我们第一个精确测量涌现的工具。

一个改变我理解的发现

到这里，epiplexity 可能还只是一个"有趣的理论概念"。但接下来这个实验结果，直接让我重新理解了 AI 训练这件事。

论文把 10 亿 token 的三种数据放在一起，分解它们的信息构成：

不同数据的信息构成：谁是"值得学的"？

你没有看错。图像数据中超过 99% 的信息都是噪声。

想想"看一张猫的照片"这件事。照片里有什么信息？每一根猫毛的精确走向、背景墙上每一个像素的确切颜色、光影的微妙渐变——这些信息量巨大，但你需要知道这些吗？你只需要知道"这是一只猫"。那根关键的信息——"猫"——在全部像素信息中占的比例，微乎其微。

而自然语言呢？"水在零度以下会——"下一个词几乎确定是"结冰"。这个可预测性不是噪音，这是人类文明几千年积累下来的结构化知识——因果关系、物理规律、常识推理，全部编码在语言的结构里。

三种自然数据的信息分解

语言中的结构性信息大约是图像的 10000 倍。四个数量级。

这就解释了一个 AI 领域所有人都注意到但没人能解释清楚的现象：为什么 GPT 在文本上预训练后能做数学、写代码、控制机器人——因为它吸收了天量的可迁移结构。而在图像上预训练的模型迁移能力弱得多——因为它的大部分"学习带宽"浪费在了记忆不可迁移的随机像素上。

一个颠覆性的实践结论

传统 AI 研究的核心问题是模型选择——给定数据，什么架构最好、什么超参数最优。

但 epiplexity 说：也许你问错了问题。真正的关键是数据选择。

论文验证了这一点。一种叫 ADO 的数据选择策略，会动态调整训练数据的采样分布，优先选择 loss 下降更快的数据子集。这个策略无意中在最大化 epiplexity——它在自动筛选结构信息密度最高的数据。结果？更好的下游表现，更强的泛化能力。

Chinchilla 定律告诉我们要用多少数据。Epiplexity 回答下一个问题：要用什么数据。

这和你有什么关系

如果你读到这里心想："这是 AI 研究者的事，和我没关系"——恰恰相反。

你就是一个有限算力的观察者。

你的大脑有 860 亿个神经元，处理速度大概几百赫兹——和 GPU 的万亿次运算相比微不足道。你一辈子能读的书、能经历的事、能处理的信息，都是严格有限的。

但你依然能理解世界。怎么做到的？

你做的事情，恰好就是 epiplexity 描述的事情：在有限的算力下，从海量数据中提取结构。

你不会去记每片落叶的纹路（那是时间有界熵——随机的、不可学习的噪声），但你会学到"秋天叶子会变黄"（那是 epiplexity——可复用的结构性知识）。你不会记住每顿饭的每一口味道，但你会学到"盐放多了会咸"。你不会记住每次对话的每一个字，但你会学到"这个人说话靠不靠谱"。

这不就是人类智能的核心吗？在有限的生命里，从看似混沌的世界中，提取出尽可能多的规律。

甚至——你此刻阅读这篇文章的过程，就是一个活生生的例子。

这篇文章有几千字，包含大量信息。但你不会（也不需要）记住每个字。你会记住的是几个关键结构："信息量取决于观察者"、"语言比图像更值得学"、"困难的学习方向可能更好"。这些就是这篇文章对你的 epiplexity——你从这些文字中真正提取出来的结构。

如果我写得太学术、太抽象，你读着读着跟不上了——那一刻发生的事情，恰好就是 epiplexity 为零的状态：信息量巨大，但对你这个"有限算力的观察者"来说，全部变成了噪声。你什么都没学到，阅读就中断了。

这就是为什么好的教育如此重要。

好的老师本质上就在做 epiplexity 最大化。他们不会让学生死记硬背（那是喂低 epiplexity 的数据——记了就忘的随机细节）。他们用精心选择的例子、由浅入深的顺序、恰到好处的难度，让学生在有限的学习时间里提取到最多的结构。

论文里"逆序学国际象棋反而学得更深"的发现，和教育学里一个著名理论惊人地吻合——"适度的困难"（desirable difficulty）促进深层学习。太简单的材料，学生不需要建立新的认知结构就能应付；太难的材料，超出处理能力，变成噪声。只有在"够得着但要跳一跳"的难度区间里，大脑才会被迫建立新的理解框架——也就是提取新的结构性信息。

所以这篇论文说的不只是 AI 的事。它说的是所有有限智能体——不管是 LLM 还是人类——如何从世界中获取知识。

兴趣：被低估的算力加速器

但论文没有讨论、而框架却完美解释的一个东西是——兴趣。

想一件你真正着迷的事。可能是编程，可能是做菜，可能是打篮球，可能是养花。回忆一下你沉浸其中的状态：时间消失了，注意力像激光一样聚焦，每一个细节都在你脑子里留下清晰的纹路。

再想一件你毫无兴趣的事。也许是大学里一门被迫选的课。老师在讲台上说的每句话都是合法的中文句子，但你的大脑就是拒绝处理它们。一个小时过去了，笔记本上是空的，脑子里也是空的。

同样的数据。同样的你。唯一的区别是——兴趣。

从 epiplexity 的角度看，兴趣做了一件很具体的事：它临时升级了你的硬件。

当你感兴趣时，大脑会分配更多的注意力、更多的工作记忆、释放更多的多巴胺（这会增强突触可塑性，也就是"记忆力"）。用论文的语言说：你从一个算力较低的观察者，变成了一个算力更高的观察者。同一份数据，你能提取出更多的结构。

那本在凌晨两点备考时让你昏昏欲睡的统计学教材——当你在工作中遇到一个真正需要回归分析才能回答的问题时，再去翻它，同样的公式突然变得清晰、有力、有用。

数据没变。你的"算力"变了。因为兴趣和需求给了你更强的处理能力。

天赋：出厂配置不同的观察者

更深一层：为什么有人天生着迷于音乐，有人着迷于数学，有人着迷于语言？

也许答案是——每个人的大脑架构，让不同类型的数据对你呈现出不同的 epiplexity。

一个有音乐天赋的孩子，听到一段旋律时，他的听觉皮层能从中提取出非音乐人根本"听不见"的结构——和弦走向、节奏变化、调性张力。不是因为声波不同，是因为观察者不同。同样一段音频，对他来说充满了可学的结构（高 epiplexity），对另一个人来说就是"好听的背景音"（低 epiplexity）。

反过来，那个听不出和弦色彩的人，可能看一眼代码就能感受到架构的优雅和冗余——这是程序员的"音乐天赋"。

所谓天赋，也许就是：你的大脑对某种数据天生有更高的结构提取效率。

这不是鸡汤。这是一个可以指导行动的洞察。

学习的正反馈循环

兴趣和天赋会触发一个强大的正反馈循环：

兴趣 → 更多注意力（更高算力） → 提取包多结构 → 理解加深 → "原来还有这么多有意思的东西！" → 更强的兴趣 → ……

这就是为什么有些人在某个领域越学越快——不是他们变聪明了，是循环在加速。每一轮提取出的结构，都成为下一轮提取的"脚手架"。就像论文里说的国际象棋逆序实验——前面学到的深层结构，让后面的学习变得更高效。

反过来，如果一开始就被迫学习你不感兴趣的东西（低算力状态），提取不到结构（低 epiplexity），感觉全是噪声，于是更没兴趣，恶性循环。

这解释了一个每个人都经历过但很难说清的现象：为什么"学不进去"的感觉和"学得飞快"的感觉差别那么大。不是意志力的问题，是你此刻的有效算力决定了你能从这份数据中提取多少结构。

好的内容创作者在做什么

如果你接受了这个框架，那"好的老师"和"好的内容创作者"在做什么就很清楚了——他们同时在做两件事：

第一，选择高 epiplexity 的数据。不是所有信息都值得传达。好的内容只传递结构——那些读者听完之后能记住、能复用、能迁移到其他场景的东西。冗余的细节、不必要的术语、为了显示专业性的复杂表述——这些都是噪声。

第二，提升读者的有效算力。怎么提升？激发兴趣。用故事代替定义，用悬念代替目录，用"这和你有什么关系"代替"本文将讨论以下三个方面"。当读者的好奇心被点燃时，他们的注意力集中了，处理能力上升了——同样的内容，他们能从中提取出更多的结构。

所以，一篇好文章的目标不是"传递信息"——而是最大化读者的 epiplexity。传递的信息要富含结构，同时要让读者处于最佳的接收状态。

这也许是我写这个系列文章以来，找到的最精确的一句话：

好的写作 = 高结构密度 × 高读者算力。

前者靠选材和提炼，后者靠兴趣和共鸣。

接下来会发生什么

这篇论文不是终点，而是起点。它打开了几个方向：

对 AI 训练来说——数据选择将从"凭直觉和经验"走向"有理论指导"。不是所有数据都值得拿来训练。高 epiplexity 的数据（自然语言 >> 图像）应该被优先使用。合成数据的设计不再是盲目的——目标是创造高结构信息密度的训练材料。

对理解智能本身来说——epiplexity 提供了第一个将"计算能力"和"信息"放在同一个框架里的数学工具。Shannon 把信息论从通信中抽象出来；这篇论文把"学习者的算力"重新放了回去。这可能催生一个新的数学分支——计算感知的信息论（compute-aware information theory）。

对我们理解自身来说——它既是一种谦逊，也是一种力量。

谦逊在于：我们永远是有限的观察者。世界中存在大量"信息"，但我们能提取出来的结构，永远只是其中一小部分。这不是失败，这是物理现实。

力量在于：正是因为知道了这个边界在哪里，我们才能优化在边界之内能做的事。Shannon 告诉工程师"通信极限在这里"，结果是整个通信工业逼近了那个极限。Epiplexity 告诉我们"你的学习能力的极限在这里"——下一步就是想办法逼近它。

写在最后

Shannon 在 1948 年画出了信息传输的数学地图。78 年来，这张地图指引了整个数字文明。

但这张地图有一个隐含的假设：使用地图的人拥有无限的视力，能看清地图上的每一个细节。

现实是，我们都是近视的。

这篇论文做的事情，是给这张地图加上了一个新的维度——观察者的能力。同一张地图，戴不同度数的眼镜，看到的细节不同，能走通的路也不同。

这不是否定 Shannon。这是说：Shannon 画了一张完美的、上帝视角的地图。但我们需要的，是一张为近视的人画的地图——一张告诉你"以你的视力，这条路你能看清，那条路对你来说只是模糊的噪点"的地图。

人类几千年来做的事——创造语言、发现定律、建立数学、发展科学——本质上都是同一件事：用有限的大脑，从看似混沌的世界中，一点一点地提取结构。

LLM 做的也是同一件事。只是用不同的方式，在不同的尺度上。

智能的本质不是"知道一切"，而是在算力的边界上，尽可能多地理解世界的结构。