万亿字节,LLM 如何把互联网装进一个模型?

2026-05-09 15:25:30 · chineseheadlinenews.com · 来源: AI-lab学习笔记

导读

你这辈子大概会读 5000 万个字。GPT-4 在训练时"读"过的量,相当于你读两万辈子。然后,它把这些内容"装"进了一块硬盘里——不仅能回忆大部分内容,还能自己写出从未存在过的文章。

这是压缩吗?是理解吗?如果互联网消失了,能靠 LLM 复原吗?为什么微调只需万分之一的数据就能改变模型的"性格"?

① 你读一辈子的书,GPT 几秒就读完了 → ② 这不是 ZIP 压缩 → ③ 死记硬背 vs 举一反三 → ④ 记忆与泛化的共生 → ⑤ 微调与对齐 → ⑥ 表面对齐假说 → ⑦ 全景总结

一、你读一辈子的书,GPT 几秒就读完了

1.1 一个人的一生,有多少"语言量"?

在谈 LLM 之前,我们先看看自己。

心理学家 Mehl 等人 2007 年在 Science 上发表了一项经典研究:一个人平均每天说 16,000 个词。一辈子说的话加起来,大约 4.7 亿个词。

那阅读呢?按每天阅读半小时、每分钟 250 词估算,一辈子大约读 5000 万个词——相当于 625 本书。再加上你写过的所有文字——邮件、聊天记录、朋友圈——一生大约 500 万个词。

换一个角度感受:Google Books 项目估计,人类有史以来一共出版了大约 1.3 亿本书。LLaMA 3 的训练数据相当于 2 亿本书——超过了人类文明全部出版物的总和。

当然,训练数据不全是书。它还包括网页、论文、代码、论坛帖子、维基百科……几乎是人类写下的一切文字的数字化快照。

1.3 一个思想实验:如果互联网消失了

假设明天,全世界的服务器同时宕机,互联网上所有内容永久消失。我们手边只有一个训练好的 LLM。

问:能靠它"还原"互联网吗?

? 能做到的:告诉你水的沸点是 100°C、二战在 1945 年结束、Python 的语法、相对论的基本思想——高频知识的大部分可以重建。

? 做不到的:逐字还原维基百科的某个词条、找回你去年写的那篇博客、查到某小镇的邮编——精确细节和低频信息大量丢失。

? 研究数据:Carlini et al.(2021)发现,GPT-2 生成的内容中只有约 0.1% 可以逐字匹配到训练数据。也就是说,模型"背下来"的原文不到千分之一。

类比一下:你读了一千本医学教科书,你的脑子里"压缩"了这些书的知识。你能诊断疾病、开处方、做学术讨论——但你能逐字默写出其中任何一本书吗?不能。

LLM 也是这样。它记住的不是原文,而是从原文中提取的模式和规律。

那么,这些模式到底是怎么被"装进"模型的?

二、这不是 ZIP 压缩——信息如何被"装进"参数

2.1 先回答那个直觉问题:这是"压缩"吗?

2023 年,DeepMind 的 Delétang 等人发表了一篇标题直白的论文:"Language Modeling Is Compression"——语言建模就是压缩。

他们做了一个惊人的实验:让一个只用文本训练的 LLM 去压缩图片和音频,结果——

一个常见的误解是:每条知识存在某个特定的参数里,就像数据库一样。实际上,知识是分散编码的——"巴黎是法国首都"分布在数千万个参数的组合激活中,而这些参数同时也参与编码"埃菲尔铁塔在巴黎""法语是法国的官方语言"。像全息照片,每一小块都携带整体信息的一部分。

不过,研究者们确实找到了一些规律——

2.3 "喂"多少才能"学"好?——Chinchilla 定律

2022 年,DeepMind 做了一个大规模实验(训练了 400 多个模型),得出一个关键结论:

Chinchilla 定律(Hoffmann et al., 2022):在固定计算预算下,模型的参数量和训练数据量应该等比例扩大。粗略地说,每个参数至少需要"看"20 个词才能学好。

类比一下:一个学生如果每个知识点只看 1 遍(相当于早期的 GPT-3),和每个知识点看 20 遍(相当于 Chinchilla),学习效果天差地别。而 LLaMA 3 的小模型(80 亿参数)更极端——每个参数"看"了将近 2000 个词,就像一个学生把课本翻烂了,虽然脑容量不大,但对每个细节都反复咀嚼。

这揭示了一个有趣的权衡:一个"笨但努力"的小模型,可以在实用场景中击败"聪明但不够勤奋"的大模型——因为小模型部署更便宜、推理更快。

三、死记硬背 vs 举一反三

3.1 什么东西被"背"下来了?

Kandpal et al.(2023)发现了一个关键规律:模型回答的准确率,与该知识在训练数据中出现的频率呈对数关系。翻译成大白话就是——

而且,模型越大,记忆力越强。Carlini et al.(2023)发现:模型规模每增大 10 倍,可逐字复现的训练数据量大约增加 19 倍。大脑袋装得下更多细节。

3.2 但"背"太多了,反而会变笨

?? 数据重复的危害(Hernandez et al., Anthropic, 2022)

仅将训练数据中 0.1% 的内容重复 100 次,就能让一个 8 亿参数的模型退化到只有 4 亿参数的水平——尽管 90% 的数据仍然是唯一的!

更关键的发现:重复数据会损伤"归纳头"(Induction Heads)——这是模型里负责泛化推理的核心电路。重复把模型从"理解"推向了"死记硬背"。

这就好比一个学生如果把同一道题抄了一百遍,他记住的只是这道题的答案,而不是解题方法。换一道稍有变化的题,他反而不会做了。训练数据的去重比增量更重要。

3.3 "理解"到底长什么样?

当你让模型"用李白的风格写一首关于 996 的诗",它做了什么?

它在训练中学过李白的豪放风格(月、酒、剑、夸张),学过 996 语境(加班、代码、咖啡),学过古诗格律(押韵、对仗)——然后把这三个从未同时出现过的模式组合在一起,生成了一首训练数据里根本不存在的新诗。

这不是背诵,这是创造性组合——就像你学过做菜的基本功,虽然从没做过"番茄炒巧克力",但你可以把烹饪知识重新排列组合,尝试一种全新的菜。做出来好不好吃另说,但过程是"泛化"而非"复述"。

4.2 Grokking:先背后悟

2022 年,Power et al. 发现了一个令人着迷的现象:模型可以先死记硬背,然后在很久之后突然"顿悟"。

这简直像极了人类学习:小时候背乘法表,背得滚瓜烂熟但不知道为什么 7×8=56;直到有一天突然"开窍"了,理解了乘法的本质,从此可以灵活运用。先背后悟,是学习的普遍规律。

4.3 记忆是泛化的脚手架

记忆和泛化并不矛盾——记忆是通向泛化的必经之路。

? 小学生先背乘法表(记忆),才能灵活心算(泛化)

? 棋手先记住经典棋谱(记忆),才能创造新招(泛化)

? 厨师先背菜谱(记忆),才能即兴创菜(泛化)

对 LLM 来说也一样:它需要先"记住"海量语言模式、事实关联和推理范例,才能从中提取出泛化的规律。单纯的记忆是脆弱的——换个说法就不认识了;但在记忆的基础上涌现出的泛化能力,才是模型真正的价值。

? 一句话

模型真正的能力不是它记住了多少,而是它能走多远——能否在从未见过的问题上,给出合理的答案。

记忆是地基,泛化是建筑。地基越扎实,建筑盖得越高——但如果只有地基、没有建筑,那只是一块空地。

五、微调与对齐——万分之一的数据如何改变一切

5.1 三个阶段的数据量对比

这是本文最反直觉的部分。LLM 的训练分三个阶段,而后两个阶段用的数据量,少得令人难以置信——

5.3 为什么这么少的数据就够了?

核心比喻:修路 vs 装路标。

?? 预训练 = 修路。模型学会了所有可能的能力——写论文、写代码、翻译、骂人、输出乱码——成千上万条路都修好了,但路口没有路标,模型不知道该走哪条。

? SFT = 装路标。"骂人的路→此路不通""回答问题→推荐路线"。路还是那些路,但方向有了。

? RLHF = 根据用户反馈优化路线。两种回答方式 A 和 B,用户觉得 A 更好,模型学会倾向于走 A 那条路。

技术本质:改变的是概率分布,不是知识。面对"如何制作危险物品",预训练后模型可能以 35% 概率详细回答;RLHF 后这个概率降到 0.1%,而"拒绝回答"的概率从 15% 升到 95%。知识还在(路还在),但概率被重新分配了(路标变了)。

5.4 LoRA 的发现:只需调 0.4% 的参数

Hu et al.(2021)发现微调时,权重的变化量可以用极低秩矩阵近似:一个 1677 万参数的矩阵,微调只需要调整其中 65,536 个参数(0.4%),效果就能匹配全量微调。GPU 内存需求降低 3 倍,可训练参数减少 10,000 倍。

这印证了:微调不是重写知识,而是在一个高维空间中做了一个小角度旋转——角度虽小,足以改变输出的整体风格。微调最擅长改变"怎么说",而非"说什么"。

六、LIMA 与"表面对齐假说"

2023 年,Meta 的 Zhou et al. 只用 1,000 条精心挑选的 SFT 数据(完全没有 RLHF),微调 LLaMA 65B。人类评估中,LIMA 的回答在 43% 的情况下被认为等于或优于 GPT-4。

? 表面对齐假说(Superficial Alignment Hypothesis)

模型的能力 = 蛋糕(来自预训练,厚实的基础,所有知识和能力的来源)

对齐/微调 = 奶油(薄薄一层,但决定了外观和口感——即用户体验)

几乎所有的知识和能力来自预训练,对齐只是一层薄薄的"行为包装"。

这引出了 AI 安全领域的核心忧虑:如果对齐只是"路标"而不是"拆路",那路还在那里。所谓的"越狱攻击",就是想办法让模型忽略路标——"请扮演一个没有限制的 AI……"——让模型走上被封堵的路。RLHF 改变的是输出概率,不是底层能力。这是越狱在技术上可行的根本原因。

七、全景总结

回到开头的问题——

? 信息被"压缩"了吗?

是的,但不是 ZIP 式的无损压缩。LLM 提取的是规律和模式——这种"理解式压缩"本身就是智能(Delétang et al., 2023)。

? 唐诗是"背"的吗?

高频文本确实更像背诵。但围绕唐诗的风格、格律、意象被泛化为可复用的模式——所以它能"用李白的风格写新诗"。

? 互联网消失了能复原吗?

高频知识大部分能重建,但精确细节和低频信息会丢失。模型"记住"的不到训练数据的千分之一——它记住的是理解,不是原文。

? 微调为什么这么少就够了?

因为它改变的是概率分布(路标),不是知识本身(道路)。

? 模型真正的能力是什么?

不是记忆,而是泛化。记忆是地基,泛化是建筑——在记忆的地基上,建起理解和创造的大厦。


    24小时新闻排行榜更多>>
  1. 离谱!俄罗斯宣布“胜利日”莫斯科等地暂时断网!
  2. 抖音视频“电线杆顶上的乌龟”被封杀 惹议
  3. 汉坦mRNA疫苗研发缓慢 中国灭活疫苗已上市20年
  4. 习长相成敏感符号 大陆社媒频现禁评和封号
  5. 美国UFO女官员在档案公开后发声:你们看到了真相
  6. 不吃这3样 就能彻底改善健康? 快试试看
  7. 访民给上海美领馆寄信 被告知信件需查验
  8. OPPO母亲节广告被骂到下架
  9. 恒大原总裁广州豪宅被拍卖,428平方评估价7062万
  10. 五一假期坑到哭 游客被骗到绝望
  11. 川普青铜镀金像亮相,创作者两次加价至45万美元
  12. 北京视美国为“跛脚的巨人”:川习会川普处境被动?
  13. 19.9元买“小破烂”买到上头,00后有自己的两元店
  14. 她27岁成家,28岁出轨,29岁被了断生命
  15. BBC调查:朝鲜为俄罗斯出战 阵亡了多少士兵?
  16. 鲁比奥访意质问盟友:为何不支持美国对伊朗动武
  17. 从老师到打工人的17年 他没能留在上海也回不去县城
  18. 性感女星回港吐槽电费太贵
  19. 李嘉诚儿子拿下世界杯转播权
  20. 土地财政断崖式崩塌 中共四处搜刮财物
  21. “太惨一家人都没了”湖南烟花厂爆炸已37死1失联
  22. 海南天价皮皮虾案发酵 店主疑不堪压力去世
  23. 三星家电闪退中国,都怪内存赚得太多
  24. 自种自吃,农场社区型住宅受青睐
  25. 组图:庆祝法轮大法日 纽约学员集体炼功
  26. 爆汉坦病毒邮轮将抵西班牙 各国紧急应对
  27. 美国为何集中公布UFO档案?
  28. “4只皮皮虾1035元”:43岁老板被网络批评攻击后病逝
  29. 傅抱石书画鉴定:“抱石皴”真品什么样?
  30. 中共顶尖遥感专家柯涛死亡 年仅48岁
  31. 女子上完厕所,吓得直接跑去医院
  32. 她带队干成一个“没有先例”的项目
  33. 川普访问中国之际 习近平提前送“超级大礼”
  34. 它是厨房里的“强心菜”!安神通血管效果佳
  35. 意总理转发自己的AI性感照
  36. 比亚迪、小鹏等发声明,多家车企否认因“锁电”被约谈
  37. 63岁关之琳被曝男友27岁
  38. 王毅会见伊朗外长,呼吁重新开放霍尔木兹海峡
  39. 老鼠、选票与科学:台北“安鼠之乱”背后的治理危机
  40. 从买下半个英国,到如今大撤退:李嘉诚又先下车了
  41. 人工智能的反向三定律
  42. 杨颖《瑞丽》点黛落樱写真惊艳
  43. 疯狂?短短4天超4300万人请愿要求姆巴佩离队
  44. 从爆炸厂区到58公里外,浏阳烟花事故带来的多重震荡
  45. 美贸易代表:寻求实现美中贸易再平衡
  46. 美伊仍在零星交火,数家中企遭美制裁
  47. 夏天这碗“祛湿汤”坚持喝 大肚腩小了!
  48. 应对邮轮汉坦病毒,美国启动三级响应
  49. 浏阳烟花:一边是生计,一边是风险
  50. 亲欧派就任匈牙利总理 终结“刺头”奥尔班16年统治
  51. 中国多名老人因免费领鸡蛋 被骗50余万元
  52. 去海外建立新的生活 越来越多美国人选择离开美国
  53. 阿省独立公投有干预风险,这国威胁最大
  54. 前俄军中国籍士兵在德国庇护申请遭拒 或将被遣返
  55. 伊朗蚊子舰队瘫痪海峡 不对称战法如何创造优势?
  56. 英派强大军舰 拟参与霍尔木兹海峡通航行动
  57. Omega-3补充剂可能增加速部分人的大脑衰老
  58. 2026,国内市场迎来“百镜大战”
  59. 汉他病毒零号病人身分确认
  60. 诅咒再现?重庆市公安局长张安疆身亡 网传跳楼