万亿字节，LLM 如何把互联网装进一个模型？-墙外头条

导读

你这辈子大概会读 5000 万个字。GPT-4 在训练时"读"过的量，相当于你读两万辈子。然后，它把这些内容"装"进了一块硬盘里——不仅能回忆大部分内容，还能自己写出从未存在过的文章。

这是压缩吗？是理解吗？如果互联网消失了，能靠 LLM 复原吗？为什么微调只需万分之一的数据就能改变模型的"性格"？

① 你读一辈子的书，GPT 几秒就读完了 → ② 这不是 ZIP 压缩 → ③ 死记硬背 vs 举一反三 → ④ 记忆与泛化的共生 → ⑤ 微调与对齐 → ⑥ 表面对齐假说 → ⑦ 全景总结

一、你读一辈子的书，GPT 几秒就读完了

1.1 一个人的一生，有多少"语言量"？

在谈 LLM 之前，我们先看看自己。

心理学家 Mehl 等人 2007 年在 Science 上发表了一项经典研究：一个人平均每天说 16,000 个词。一辈子说的话加起来，大约 4.7 亿个词。

那阅读呢？按每天阅读半小时、每分钟 250 词估算，一辈子大约读 5000 万个词——相当于 625 本书。再加上你写过的所有文字——邮件、聊天记录、朋友圈——一生大约 500 万个词。

换一个角度感受：Google Books 项目估计，人类有史以来一共出版了大约 1.3 亿本书。LLaMA 3 的训练数据相当于 2 亿本书——超过了人类文明全部出版物的总和。

当然，训练数据不全是书。它还包括网页、论文、代码、论坛帖子、维基百科……几乎是人类写下的一切文字的数字化快照。

1.3 一个思想实验：如果互联网消失了

假设明天，全世界的服务器同时宕机，互联网上所有内容永久消失。我们手边只有一个训练好的 LLM。

问：能靠它"还原"互联网吗？

? 能做到的：告诉你水的沸点是 100°C、二战在 1945 年结束、Python 的语法、相对论的基本思想——高频知识的大部分可以重建。

? 做不到的：逐字还原维基百科的某个词条、找回你去年写的那篇博客、查到某小镇的邮编——精确细节和低频信息大量丢失。

? 研究数据：Carlini et al.（2021）发现，GPT-2 生成的内容中只有约 0.1% 可以逐字匹配到训练数据。也就是说，模型"背下来"的原文不到千分之一。

类比一下：你读了一千本医学教科书，你的脑子里"压缩"了这些书的知识。你能诊断疾病、开处方、做学术讨论——但你能逐字默写出其中任何一本书吗？不能。

LLM 也是这样。它记住的不是原文，而是从原文中提取的模式和规律。

那么，这些模式到底是怎么被"装进"模型的？

二、这不是 ZIP 压缩——信息如何被"装进"参数

2.1 先回答那个直觉问题：这是"压缩"吗？

2023 年，DeepMind 的 Delétang 等人发表了一篇标题直白的论文："Language Modeling Is Compression"——语言建模就是压缩。

他们做了一个惊人的实验：让一个只用文本训练的 LLM 去压缩图片和音频，结果——

一个常见的误解是：每条知识存在某个特定的参数里，就像数据库一样。实际上，知识是分散编码的——"巴黎是法国首都"分布在数千万个参数的组合激活中，而这些参数同时也参与编码"埃菲尔铁塔在巴黎""法语是法国的官方语言"。像全息照片，每一小块都携带整体信息的一部分。

不过，研究者们确实找到了一些规律——

2.3 "喂"多少才能"学"好？——Chinchilla 定律

2022 年，DeepMind 做了一个大规模实验（训练了 400 多个模型），得出一个关键结论：

Chinchilla 定律（Hoffmann et al., 2022）：在固定计算预算下，模型的参数量和训练数据量应该等比例扩大。粗略地说，每个参数至少需要"看"20 个词才能学好。

类比一下：一个学生如果每个知识点只看 1 遍（相当于早期的 GPT-3），和每个知识点看 20 遍（相当于 Chinchilla），学习效果天差地别。而 LLaMA 3 的小模型（80 亿参数）更极端——每个参数"看"了将近 2000 个词，就像一个学生把课本翻烂了，虽然脑容量不大，但对每个细节都反复咀嚼。

这揭示了一个有趣的权衡：一个"笨但努力"的小模型，可以在实用场景中击败"聪明但不够勤奋"的大模型——因为小模型部署更便宜、推理更快。

三、死记硬背 vs 举一反三

3.1 什么东西被"背"下来了？

Kandpal et al.（2023）发现了一个关键规律：模型回答的准确率，与该知识在训练数据中出现的频率呈对数关系。翻译成大白话就是——

而且，模型越大，记忆力越强。Carlini et al.（2023）发现：模型规模每增大 10 倍，可逐字复现的训练数据量大约增加 19 倍。大脑袋装得下更多细节。

3.2 但"背"太多了，反而会变笨

?? 数据重复的危害（Hernandez et al., Anthropic, 2022）

仅将训练数据中 0.1% 的内容重复 100 次，就能让一个 8 亿参数的模型退化到只有 4 亿参数的水平——尽管 90% 的数据仍然是唯一的！

更关键的发现：重复数据会损伤"归纳头"（Induction Heads）——这是模型里负责泛化推理的核心电路。重复把模型从"理解"推向了"死记硬背"。

这就好比一个学生如果把同一道题抄了一百遍，他记住的只是这道题的答案，而不是解题方法。换一道稍有变化的题，他反而不会做了。训练数据的去重比增量更重要。

3.3 "理解"到底长什么样？

当你让模型"用李白的风格写一首关于 996 的诗"，它做了什么？

它在训练中学过李白的豪放风格（月、酒、剑、夸张），学过 996 语境（加班、代码、咖啡），学过古诗格律（押韵、对仗）——然后把这三个从未同时出现过的模式组合在一起，生成了一首训练数据里根本不存在的新诗。

这不是背诵，这是创造性组合——就像你学过做菜的基本功，虽然从没做过"番茄炒巧克力"，但你可以把烹饪知识重新排列组合，尝试一种全新的菜。做出来好不好吃另说，但过程是"泛化"而非"复述"。

4.2 Grokking：先背后悟

2022 年，Power et al. 发现了一个令人着迷的现象：模型可以先死记硬背，然后在很久之后突然"顿悟"。

这简直像极了人类学习：小时候背乘法表，背得滚瓜烂熟但不知道为什么 7×8=56；直到有一天突然"开窍"了，理解了乘法的本质，从此可以灵活运用。先背后悟，是学习的普遍规律。

4.3 记忆是泛化的脚手架

记忆和泛化并不矛盾——记忆是通向泛化的必经之路。

? 小学生先背乘法表（记忆），才能灵活心算（泛化）

? 棋手先记住经典棋谱（记忆），才能创造新招（泛化）

? 厨师先背菜谱（记忆），才能即兴创菜（泛化）

对 LLM 来说也一样：它需要先"记住"海量语言模式、事实关联和推理范例，才能从中提取出泛化的规律。单纯的记忆是脆弱的——换个说法就不认识了；但在记忆的基础上涌现出的泛化能力，才是模型真正的价值。

? 一句话

模型真正的能力不是它记住了多少，而是它能走多远——能否在从未见过的问题上，给出合理的答案。

记忆是地基，泛化是建筑。地基越扎实，建筑盖得越高——但如果只有地基、没有建筑，那只是一块空地。

五、微调与对齐——万分之一的数据如何改变一切

5.1 三个阶段的数据量对比

这是本文最反直觉的部分。LLM 的训练分三个阶段，而后两个阶段用的数据量，少得令人难以置信——

5.3 为什么这么少的数据就够了？

核心比喻：修路 vs 装路标。

?? 预训练 = 修路。模型学会了所有可能的能力——写论文、写代码、翻译、骂人、输出乱码——成千上万条路都修好了，但路口没有路标，模型不知道该走哪条。

? SFT = 装路标。"骂人的路→此路不通""回答问题→推荐路线"。路还是那些路，但方向有了。

? RLHF = 根据用户反馈优化路线。两种回答方式 A 和 B，用户觉得 A 更好，模型学会倾向于走 A 那条路。

技术本质：改变的是概率分布，不是知识。面对"如何制作危险物品"，预训练后模型可能以 35% 概率详细回答；RLHF 后这个概率降到 0.1%，而"拒绝回答"的概率从 15% 升到 95%。知识还在（路还在），但概率被重新分配了（路标变了）。

5.4 LoRA 的发现：只需调 0.4% 的参数

Hu et al.（2021）发现微调时，权重的变化量可以用极低秩矩阵近似：一个 1677 万参数的矩阵，微调只需要调整其中 65,536 个参数（0.4%），效果就能匹配全量微调。GPU 内存需求降低 3 倍，可训练参数减少 10,000 倍。

这印证了：微调不是重写知识，而是在一个高维空间中做了一个小角度旋转——角度虽小，足以改变输出的整体风格。微调最擅长改变"怎么说"，而非"说什么"。

六、LIMA 与"表面对齐假说"

2023 年，Meta 的 Zhou et al. 只用 1,000 条精心挑选的 SFT 数据（完全没有 RLHF），微调 LLaMA 65B。人类评估中，LIMA 的回答在 43% 的情况下被认为等于或优于 GPT-4。

? 表面对齐假说（Superficial Alignment Hypothesis）

模型的能力 = 蛋糕（来自预训练，厚实的基础，所有知识和能力的来源）

对齐/微调 = 奶油（薄薄一层，但决定了外观和口感——即用户体验）

几乎所有的知识和能力来自预训练，对齐只是一层薄薄的"行为包装"。

这引出了 AI 安全领域的核心忧虑：如果对齐只是"路标"而不是"拆路"，那路还在那里。所谓的"越狱攻击"，就是想办法让模型忽略路标——"请扮演一个没有限制的 AI……"——让模型走上被封堵的路。RLHF 改变的是输出概率，不是底层能力。这是越狱在技术上可行的根本原因。

七、全景总结

回到开头的问题——

? 信息被"压缩"了吗？

是的，但不是 ZIP 式的无损压缩。LLM 提取的是规律和模式——这种"理解式压缩"本身就是智能（Delétang et al., 2023）。

? 唐诗是"背"的吗？

高频文本确实更像背诵。但围绕唐诗的风格、格律、意象被泛化为可复用的模式——所以它能"用李白的风格写新诗"。

? 互联网消失了能复原吗？

高频知识大部分能重建，但精确细节和低频信息会丢失。模型"记住"的不到训练数据的千分之一——它记住的是理解，不是原文。

? 微调为什么这么少就够了？

因为它改变的是概率分布（路标），不是知识本身（道路）。

? 模型真正的能力是什么？

不是记忆，而是泛化。记忆是地基，泛化是建筑——在记忆的地基上，建起理解和创造的大厦。