从维特根斯坦看大模型的演进-墙外头条

数据作为现实世界向数字空间的映射，是数字空间（赛博空间）中的元素，其描述了现实世界（包括物理世界、社会存在等）中的某元素（事物）的某个属性、状态、关系、结构、行为、事件，即记录了现实世界的事实（信息、内容）。

维特根斯坦说，世界是事实的总和，而非事物的总和。

因此，简要说，数据是事实的记录。数据并非对事物的静态记录，而是对事实的动态记录。数据的总和即对世界的全面记录。

数据的总和作为以数字空间为基底的数据空间，便是现实世界的数字孪生。关于现实世界某个元素的映射产生的数据的总和，便是该元素在数据空间的数字孪生。

这个数字孪生自然是对该元素的动态记录。这些映射是动态的，不断增加的，不断更新的，因而其总和作为数字孪生，只是对世界以及世界中的元素的不断逼近，而不是全等。

每一个映射，也就是每一条数据，对现实世界元素的描述都是确定性的。这样的对应关系，显然就是图像论的图景。

这也就是维特根斯坦早期哲学（哲学1）的图像论的图景。

数据遵从维特根斯坦哲学1的图像论。

语言的边界就是世界的边界，只是哲学1的结论，已经被维特根斯坦晚期哲学（哲学2）否定。

哲学1的语言（语词）是有着清晰语义的语言。用符号学的话语来说，每一个能指（符号）都对应着清晰的所指（语义、信息、内容）。用数据的话语来说，每一条数据（数字记录）都对应着清晰的信息（内容）。这就是典型的图像论，这样的语言只是理论语言或科学语言，这样的数据也可以看作是理论数据或科学数据。

哲学1认为语言的边界就是世界的边界，是基于一个先验承诺，即语词与语义对应的确定性，这个确定性基于人类共识，假定这种共识是人类的先验存在，具有先验的客观性。

尽管如此，哲学1还是为个人保留了一块温润的自留地，在语言的边界之外，还有不可说的，让我们保持沉默吧。

维特根斯坦哲学2从理论语言（科学语言）回归到了日常语言，后者才是现实世界的语言。

现实世界中发生的语言现象首先是日常语言，不是先有理论语言，才有日常语言，而是相反。远古的人类先有话语进行交流，形成日常语言，之后才发展出文字，向更具准确性、确定性、普遍性的记录发展。儿童总是从咿呀学语开始，习得或唤醒对语言的使用，即使用日常语言，之后才会形成对带有一定准确性、确定性、普遍性的概念的理解。

理论语言是在日常语言基础上的提纯，基于更具普遍性的共识，形成更具普遍性的概念语言，即将语义固化在语词中，而不依赖于语境。例如我们说电磁相互作用、核衰变等概念，就是语义清晰的科学语言，而非日常语言。

因此，可以说，理论语言只是语言的特例，理论语言是日常语言通过消除语境影响而泛语境化即普遍化的结果。

日常语言是基于现实世界场景（语境）的语言应用。按照维特根斯坦哲学2，现实世界在人类交往中，人类交往是语言游戏，是语言实践。语言的意义在于用法，在于语言使用（交往）的有效性，能用（能理解）即好。

语言的语义随语境而动，随交往而动。语境的概念其实暗含了一个承诺，或者叫一个信仰——无理由地相信——即人是独特的，人有自由意志，而不是被不管什么有形无形的力量决定的。这种哲学上的主体性，不管在本体论、认识论，还是语言哲学，还是形形色色的后哲学文化，都是消除不了的。

后哲学文化会说，这种信仰是形而上学，是人类中心主义，而人是xx（语言、权力、算法，等等）的产物，也就是被决定的。没错，人是处在语言、权力、算法等等的网络之中，也就是处在人类交往的语境之中，是被语境影响和塑造的。但即使这种所谓的决定，也依然暗含了对人的独特性的承诺。毕竟，语境也是人与人之间相互造就的。质而言之，语言、科学，甚至数学，不都还是人构建起来的吗？

广义的语言，不只是文字、口语，还包括手势、眼神、表情、体态等，甚至包括与物理环境的互动，与语言对象、与人群之间的互动，充满了指代、比喻、象征、互文等生动的修辞，而在具体场景（语境）中，言传意会。这些在现代信息技术、数字化技术中，都可以程度不同地数据化，借助于多模态而数据化。

广义的语言数据化，广义的数据也会随语境而动。这不仅鲜明地体现在数据动态性、实时性上，也就是数据使用需要瞬间集成，而且也是如下一些数据特性的原因：鉴于数据的语境相关性，也就是与人类交往的相关性，数据便具有与人类主体的相关性，大而言之，数据具有主权属性、公共属性，小而言之，数据具有人身属性；数据所包含的意义（语义、内容）是语境（场景）相关的，因而与数据相关主体、对象、使用者、记忆、预期、上下文等都是相关的，不仅需要辨析相关权利关系，还需要在这些相关性中，在相互关系中来准确理解数据的意义和价值；数据的价值属性也是语境相关的，针对不同的语境，即不同的应用场景，数据具有不同的价值，需要在一次使用一次价值化中体现；如此等等。这些都会深深影响对数据的理解，包括对数据价值化的理解。

人工智能大语言模型不仅针对科学语言、编程语言等理论语言具有非常高的有效性，而且已经具有针对日常语言乃至多模态数据的有效性。这意味着大语言模型已经突破了维特根斯坦哲学1的图像论的桎梏，具有了一定的依赖上下文的维特根斯坦哲学2的语用论、语境化、关系性的成分。

不过，大语言模型参数的固定只是迈向哲学2的一个中间状态。参数固定，不能随语境（场景）而动，这就是大语言模型的局限性。而生动的人类语言实践是随语境而动的。

大语言模型，需要进化到广义大语言模型。理解物理规律、拥有空间智能的世界模型或物理模型也只是这个广义大语言模型的中间状态，只是逼近而已。

人工智能的大语言模型也好，世界模型也好，物理模型也好，都不是生物模型，更不是人类模型。从物理世界到生物世界乃至人类智慧世界的演生是不清楚的，进化的细节机理是不清楚的。

广义大语言模型可能就是一个乌托邦。如何让大语言模型随语境上下文而动，依然是一个问题。

至于通用人工智能（AGI），能力上超越人是可以期待的，要达到广义大语言模型的人工智能，即随语境（场景）而动的人工智能，也依然遥不可及。

AGI终归是人工的。硅基终归不是碳基。智能终归不是人生。