AI大模型6个关键拐点

2025-12-19 21:25:29 · chineseheadlinenews.com · 来源: 华尔街日报

AI大神Karpathy指出,2025年AI大模型出现六个关键拐点:基于可验证奖励的强化学习改变训练范式,模型展现"锯齿状"幽灵智能特征,Cursor引领垂直应用崛起,Claude Code开创本地智能体新模式,Vibe Coding让编程能力普及化,Nano Banana开启图形界面时代。他认为LLM正演变成全新智能形态,既博学又笨拙,目前潜力仅实现不到10%。

OpenAI创始人之一,AI大神Andrej Karpathy近日发布年度复盘,称2025年是大型语言模型领域蓬勃发展的一年,出现了六个关键的"范式转变"拐点。这些变化不仅改变了行业格局,更重要的是揭示了LLM正在演变成一种全新的智能形态。

12月20日,据硬AI消息,Karpathy在社交平台X上发布的年度复盘中表示,LLM正在演变成一种新型智能,"比我预期的要聪明得多,同时也比我预期的要笨得多"。

他指出,今年出现了6个改变行业格局的"范式转变"关键拐点,其中基于可验证奖励的强化学习(RLVR)成为LLM生产流程中的新阶段,各大实验室将原本用于预训练的算力转向了更长周期的强化学习训练。

他特别强调了LLM智能的"锯齿状"特征,称这些模型既是博学的天才,又像是思维混乱的小学生。Karpathy表示,LLM不是在"进化动物"而是在"召唤幽灵",这种全新的智能形态需要用不同的视角来理解。

他在复盘中指出,从预训练到强化学习的技术演进、从文本交互到图形界面的用户体验革新,以及从专业编程到"氛围编码"的能力普及,都标志着AI应用正在进入新的发展阶段。

尽管目前能力已经极其有用,但Karpathy认为整个行业实现出的LLM潜力还不到10%,预计将看到持续且飞速的进展,但技术挑战仍然艰巨。

拐点一:基于可验证奖励的强化学习改变训练范式

2025年最重要的技术突破是基于可验证奖励的强化学习(RLVR)成为LLM训练的新阶段。

Karpathy称,传统的生产级LLM训练流程包括预训练、指令微调和基于人类反馈的强化学习三个阶段,而RLVR的加入彻底改变了这一格局。

RLVR通过在数学题、代码谜题等可自动验证的环境中训练,使LLM自发演化出类似"推理"的策略。模型学会将问题拆解为中间计算步骤,并掌握多种来回尝试、推导解决问题的方法。DeepSeek R1论文展示了这些策略的具体表现。

与计算量较小的SFT和RLHF不同,RLVR针对客观且不可作弊的奖励函数,允许更长周期的优化。这种方法具有极高的"能力/成本比",吞噬了原本用于预训练的算力。2025年大部分能力提升都源于各实验室消化这一新阶段的"算力积压"。

OpenAI o1是RLVR模型的首次展示,但o3的发布才是真正的拐点,让人能直观感受到差异。RLVR还带来了一个全新调节旋钮:通过生成更长推理路径、增加"思考时间"来控制推理能力。

拐点二:"幽灵智能"展现锯齿状性能特征

2025年,业界开始真正理解LLM智能的独特"形态"。

Karpathy指出,我们并非在"进化动物",而是在"召唤幽灵"。LLM的神经架构、训练数据、算法和优化压力都与生物智能完全不同,产生了全新的智能实体。

人类神经网络为丛林部落生存而优化,LLM神经网络则为模仿人类文本、获取数学题奖励和在LM Arena获得点赞而优化。这种差异导致LLM展现出"锯齿状"性能特征:既是博学天才,又像认知障碍的小学生,前一秒解难题,后一秒就可能被简单提示词破解。

随着可验证领域的RLVR应用,LLM在这些领域附近出现能力"激增",但整体表现极不均衡。这种现象让Karpathy对基准测试产生信任危机,因为基准测试本质上就是可验证环境,极易受到RLVR攻击。实验室团队通过"刷榜"在测试集周围构建环境,"面向测试集训练"成为新艺术形式。

拐点三:Cursor引领新一代LLM应用层崛起

Cursor的崛起不仅在于其成功,更在于它揭示了"LLM应用"的全新层级。人们开始讨论各行各业的"Cursor版本",标志着垂直领域LLM应用的兴起。

像Cursor这样的LLM应用为特定垂直领域封装并编排LLM调用,具备四个核心功能:

处理"上下文工程";在底层编排多个LLM调用,串联成复杂的有向无环图,平衡性能和成本;为人类参与提供特定应用的图形界面;提供"自主程度调节滑块"。

2025年业界热议这个新应用层的"厚度"问题:LLM实验室会通吃所有应用,还是给垂直应用留下发展空间?

Karpathy认为,LLM实验室倾向于培养通用能力的"大学生",而LLM应用则通过提供私有数据、传感器、执行器和反馈闭环,将这些"大学生"组织成特定领域的专业从业者。

拐点四:Claude Code开创本地AI智能体新范式

Claude Code成为LLM智能体的首次令人信服展示,它以循环方式串联工具调用和推理,进行长时间问题解决。更重要的是,Claude Code运行在用户电脑上,使用私有环境、数据和上下文。

Karpathy认为OpenAI在这方面走偏了,过度专注云端容器和ChatGPT编排,而非本地部署。虽然云端智能体集群像"AGI终局",但在当前能力参差不齐的过渡阶段,直接在电脑上运行智能体,与开发者具体配置协作更有意义。

Claude Code抓住了正确的优先顺序,将其打包成精美、极简的命令行形态,改变了AI的样貌。AI不再是被动访问的网站,而是"住"在电脑里的灵体。这种本地化、个性化的AI交互范式为未来发展指明了方向,强调了隐私保护和个性化体验的重要性。

拐点五:Vibe Coding让编程能力普及化

2025年AI跨越关键能力阈值,使人们仅凭英语就能构建复杂程序,完全忽略底层代码存在。"Vibe Coding"概念的流行标志着编程门槛的彻底降低。

Vibe Coding使编程不再是专业人士专利,任何人都能参与。这印证了LLM"权力归于人民"的特点:与以往技术不同,普通人从LLM获益远超专业人士、企业和政府。不仅普通人能尝试编程,专业开发者也能创造更多原本不会开发的软件。

Karpathy分享了自己的实践经验:

用Rust开发高效BPE分词器,创建各种快速Demo应用,甚至为找单个Bug开发整个临时应用。代码变得免费、瞬时、可塑,用完即弃。这种变化将重塑软件生态,改变职业定义,让创意实现的成本接近零。

拐点六:Nano Banana开启LLM图形界面时代

谷歌Gemini Nano Banana被Karpathy称为2025年最震撼、最具范式转移意义的模型。在他的世界观中,LLM是继1970-80年代计算机后的下一次重大计算范式,将产生类似历史意义的创新。

当前与LLM对话类似80年代向电脑控制台输入命令。文本虽是计算机和LLM偏好的原始数据表示,但并非人类偏好格式。人类不喜欢阅读长文本,更喜欢视觉和空间方式消费信息,这是GUI在传统计算中被发明的原因。

LLM也应以人类偏好格式交流:图像、信息图、幻灯片、白板、动画视频、网页应用等。Emoji和Markdown是早期尝试,但真正的"LLM GUI"需要更深层创新。

Nano Banana提供了这种可能性的早期雏形,其显著特征不仅是图像生成,更是文本生成、图像生成和世界知识在模型权重中的交织融合。

这种多模态融合能力预示着未来AI交互界面的根本变革,从纯文本对话转向富媒体、多感官的沉浸式体验。


    24小时新闻排行榜更多>>
  1. 李连杰婚姻引热议 利智探视老公仅15分钟?
  2. 被批对美国缺乏感恩,谷爱凌怒怼
  3. 川普宣布:全面暂停“绿卡乐透”抽签制度
  4. 蓝白弹劾不了赖清德 但台湾内乱空转将持续到2028
  5. 法债遭遇抛售潮
  6. 川普太空政策重心转向月球
  7. 县城编制,锁死多少人的人生
  8. 北京经济全面熄火 失业大军越来越多
  9. 法国文化部长的住所和办公场所遭反腐搜查
  10. 川普精心撤退后 世纪大博弈才显出最冷酷一面
  11. 上海精神病院爆满 网民:太恐怖了!万万没想到
  12. 新"总统星光大道"亮相,川普给多位前总统写"嘲讽批语"
  13. 美防长吐槽征兵难:不是胖就是笨
  14. 国家科学技术学术著作出版基金资助项目
  15. 上海电信回应“罗永浩吐槽网速” 遭质疑
  16. 香港10亿日元大劫案,警方已抓获1人
  17. 中共空军被无期限倒查 分析:或带来大震荡
  18. 发福后的鲁豫很养眼,如今胖出新宽度
  19. 马斯克"炮轰"核聚变,川普旗下公司"火速"入局
  20. 最新!爱泼斯坦案68张新照片公布
  21. 职校女生遭多名同学殴打侮辱
  22. 中国养老金7连涨达每月143元 民讽:农民的福音
  23. 川普签行政命令:美目标2028重返月球!
  24. 微信管控草木皆兵 “玫瑰花开”也成敏感词?
  25. 对委内瑞拉动武?川普惊语“出兵不用国会授权”
  26. 百保君爆雷 实控人李雪峰涉嫌集资诈骗被捕
  27. 一文看懂 委内瑞拉抗美失败 为何中共遭打击
  28. 中共高层财富即将爆光?马兴瑞搬运大师 彭丽媛富可敌国
  29. 瑞典以“安全”为由叫停中国Qwen3大模型
  30. 外企投资意愿下降 分析:放缓布局降低风险
  31. 日本央行升息至0.75% 利率达30年新高
  32. 打假神器,这款App一扫便知真伪
  33. 耐克中国市场连续6季度萎缩 股价暴跌
  34. 台北持刀袭击者杀害三人伤五人 在警方追捕中死亡
  35. 胡锡进:南京导航集体失灵 官方通报隐晦表述不合适
  36. 美法案要求公布中南海高官财富 中共跳脚
  37. 白宫:肯迪尼艺术中心决定改名加入川普名字
  38. 机场包名争议,旧金山屋仑达初步和解
  39. 9个明显征兆提醒你:该远离消耗你的人了
  40. 周恩来安排一位乡下老人赴台
  41. 美重启安全第三国政策 如何影响庇护申请者
  42. 《维尼的终局》干净世界首播 精彩的寓言剧
  43. 山东维权人士李向阳为民发声 遭公检法打压
  44. 高市回应中共旅游制裁:国内观光同样重要
  45. 怀乌鲁军营的低语 新西兰士兵的超自然亲历与传闻
  46. 皖南事变中 毛泽东对项英见死不救的原因何在?
  47. 上海访民公园喊冤 高喊“打倒共产党”
  48. 黑龙江16岁女生在雪地上遭殴打脱衣霸凌 致抑郁
  49. 广西再爆持刀伤人案 致三死一伤
  50. 南方技校里,滑落的少男少女
  51. 江苏访民狱中肾病恶化 申请透析治疗遭拒绝
  52. 台美合作破获跨国运毒集团案 7人遭起诉
  53. 金山学区拟削预算,校园掀反对声浪
  54. 美入籍面试无预警取消?
  55. 因布朗大学枪案 川普政府暂停“绿卡抽签”
  56. 大陆中央戏剧学院院长郝戎被调查
  57. 重庆与大连干细胞库 复制“柬埔寨模式” 还是重回源头
  58. 从黑云压城到自由飞翔:尹修贤穿越迫害
  59. 器官被领导看上了?成都大学生失踪家长维权被带走
  60. 欧洲出手仍不够!泽伦斯基:不能取代美国安全保障