国产AI首次“长出”原生记忆

2025-07-26 17:25:18 · chineseheadlinenews.com · 来源: 新智元

就在刚刚,这家国产黑马首创的非Transformer架构大模型,再次重磅更新!训练效率远超Transformer架构,在WAIC上直接引起了火爆围观。现在,端侧智能的iPhone时刻真正来临了。

就在刚刚,WAIC世界人工智能大会上,国产黑马RockAI又给我们带来满满的惊喜。

全新版本的大模型Yan 2.0 Preview正式亮相了!

现学现记,猜猜我们喜欢的饮料是哪瓶?

它不仅可以在灵巧手、机器狗、PC、平板等多个终端上应用了,还是无损部署的。

由此展现出的模型自主学习能力和多模态能力,都让人为之惊叹。

原生记忆

一教就会,精准回答

比如有个机器狗,刚开始还不会和人打招呼。

为此,工作人员给机器狗亲自演示,展示打招呼的动作。

之后,机器狗竟然就秒速学会了这个动作!

下一个指令,是让它帮忙拿一瓶饮料。没有学过的它,同样不会做。

接下来,只要对着摄像头向它展示——“这是我喜欢喝的饮料”,它就立马学会了。

在两瓶饮料中,它正确选出了指定的那瓶,表现实在惊艳。

甚至,下面这个会看、会听、会想的灵巧手,既能自主玩游戏,还能听懂人类指令,立刻在黄金矿工游戏中完成抓黄金和推箱子的任务。

注意,这个过程中不仅需要灵巧手极其精细地操作键盘,还需要它用“大脑”来完成思考,做出精准判断。

令人惊喜的是,它非常准确地做到了!

这些能力,即便是OpenAI在内的大厂商目前都做还不到。足以见得,RockAI已经走在了行业的最前沿。

离线智能

真正的端侧AI

为什么说,Yan架构大模型能够实现100%的离线部署,成为真正的“端侧AI”?

答案,就藏在它颠覆性的底层架构之中。

和目前绝大多数的模型不同,Yan2.0 Preview基于的是RockAI首创的非Transformer架构。

它不仅非常轻量而且性能强悍——仅凭3B的原生参数,便在多项关键测试超越了规模更大的Llama3 8B。

更重要的是,它的训练效率远超统治当今AI界的Transformer架构。

据悉,更大更强的40B模型已经在路上了!

而今,继Yan 3B模型成功通过备案后,Yan 2.0 Preview版更是带来了两大突破性的能力飞跃。

第一点,就是它有了连续的视频理解能力。

比如当人在机器狗面前做各种连续动作,它就可以原样复刻,这部分归功于模型的视频能力。

Yan 1.3通过多模态扩展实现对图像与音频的理解和处理,而Yan 2.0 Preview进一步支持视频模态,相当于补齐了多模态里的视频的最后一环。

因此可以说,Yan 2.0做到了真正的多模态:一个模型不仅能处理文本,还能处理图像、音频和视频,同时端到端生成文本和音频。

第二点,就是在1.3的架构上,2.0创新性地引入基于神经网络的记忆单元。

具体来说,在神经网络参数层“内置记忆”,通过可微的记忆模块来实现信息的存储、检索和遗忘。

Yan 2.0 Preview架构示意图

如上图所示,前向过程可分为记忆更新与记忆检索两个阶段。

记忆更新是动态调节:前向过程中,既能通过门控式更新保留长期依赖,又能基于输入分布特性灵活整合新知识。

不同于“上下文工程”等方案对记忆信息的显性存储,RockAI将有效信息隐式地记忆到多层神经网络的权重,通过神经网络的多层级抽象、非线性建模等能力,实现更优的记忆性能。

在原理上,这种记忆机制与其他记忆机制的差距,好比早期机器学习与深度学习的差距。

这种记忆机制,不像其他远端的大模型通过RAG等形式加入前置数据库。要知道,后者的记忆模式都是外置的,模型并没有真正记住这些信息。

可以说,采用了特征状态驱动的记忆机制方案的Yan 2.0 Preview,已经初步验证——记忆网络是有效的。

之所以加入记忆模块,是因为要让AI像人一样边说边学,AI必须要有记忆。

在基于训推同步的自主学习路线上,RocKAI迈出了坚实的一步。

这一点,无论是在灵巧手玩游戏时的多模态实时人机交互上,还是机器狗的训推同步上,都淋漓尽致地体现了出来。

而在这个过程中,RockAI发现,他们并不孤独:自己的路线,竟然跟硅谷大厂的探索所见略同。

无论是谷歌的Titan架构,还是Meta首席科学家LeCun都在强调——必须给模型引入记忆模块,因为AI的学习能力≈记忆能力。

但不同的是,这一次,RockAI是先行者。

Yan 2.0 Preview不光探索了非注意力机制的记忆可能,还第一次实现了LLM记忆能力验证。

接下来,我们就进入了下一个问题:非Transformer架构的创新,给Yan架构大模型带来了什么?

真正在消费级硬件上跑通

因为架构层面的这种创新,Yan架构大模型就完全不需要依赖云端算力,可以在消费级硬件上跑通了。

因此,它可以直接赋予每个端侧设备“灵魂”。

它不仅能在无人机、机器人、PC、手机等终端设备中丝滑适配,而且还能让模型智能迎来全新升级。

因为无需阉割模型,端侧设备就更加具备了完整性、可持续性。

而基于Transformer架构的模型,若想在端上运行、并自主学习,根本就不可行。

因为模型通常会被量化裁剪压缩之后,才会植入端设备。而被阉割之后的模型,就不再具备学习能力。

但Yan架构大模型,就规避掉了这种短处。

在不同小型终端条件下,Yan架构大模型表现始终卓越。

在手机端,Yan架构大模型已广泛适配高通、联发科等芯片。Yan架构大模型可在CPU运行、零压缩零裁剪、量化等,RAM只要8G,而且表现不俗。

在小米13上,每秒至少可输出18 token;在红米K50上,每秒至少可输出12token;在T-phone上,每秒可输7-8token。

在机器人端,Yan模型已广泛适配Intel、树莓派、英伟达等芯片。

只要8G内存,Intel i7 1255u上,Yan架构能让机器人拥有看听说想动的能力!

为什么要如此执着,将技术做到如此精细的程度呢?这背后,自然是源于他们对于“端侧智能”一直以来坚定的信念——让世界上每一台设备都拥有自己的智能。

只有为每一台设备安装大脑,才能做到AI普惠,在三四五线城市,在老年人和小朋友都能用的情况下,端侧设备才是真正普惠的应用场景。

说起来,RockAI是怎样决定,不走Transformer这条主流路线的呢?背后的故事是这样的。

非Transformer架构,他们走出了第一步

近些年来,学界和业界逐渐发现,大家好像被OpenAI带偏了:注意力机制并非万能,Transformer缺陷也很多,比如它的复杂度太高,算力需求惊人。

最早的质疑,来自OpenAI的Ilya:“如果互联网公开数据耗尽,GPT预训练如何继续?”

另外,谷歌Gemini产品负责人Logan Kilpatrick在最近公开的未来路线图中,就指出当前注意力的最大缺陷:

以当前注意力机制和上下文处理方式,是不可能实现无限上下文的。

我们需要在核心架构层面进行全面创新,才能实现这一目标。

同时,谷歌也一直在探索非自回归模型Gemini Diffusion。

此外,CMU大牛Albert Gu在2023年就提出了Mamba架构,主张用状态空间模型对序列建模。

最近,他更是痛斥Transformer模型能力上的局限性太大,所谓“token”就是胡扯。

在2024年,“vibe coding”之父Karpathy也列出了“tokenization”的数条罪状。

可以说,在某些情况下,Transformer绝对不是首选,注意力机制更不是什么铁律!

大模型原生记忆能力,意味着什么?

记忆,不再是外挂

在传统的大模型架构中,知识和信息往往以外挂式方式调用。

无论是依赖RAG来补足知识,还是借助外部数据库临时存储用户数据或者搜索引擎,这类方案都更像是一种“拼接式智能”——强大但缺乏连续性。

而如今,RockAI正在将记忆能力“注入”模型本身。它不再是一个外挂模块,而是模型的一部分,甚至是它的核心。

比如他们展示的那只机器狗,已经能在不断交互中展现出对环境、人的偏好乃至过往经历的“记忆”,表现的行为更像生命体,也意味着:AI开始真正“记住”你。

从交互到理解:个性化的跃迁

有了原生记忆,大模型就不再只是“下一次回答你问题”的工具,而开始成为理解你的人。

它能记住你喜欢什么样的语言风格、你的偏好、你过去的决策习惯;甚至能在你没有明说的时候,通过长期观察为你做出更合适的建议。

原生记忆能力不仅让AI变得更加“个性化”,也让人机关系发生质的变化。

它不再是工具和操作者的关系,而更像是伙伴与合作者的互动。你不需要每次都从零开始,它会逐步成为你思维方式的延伸。

离线部署,隐私与速度的双赢

更重要的是,这样的“有记忆的大模型”并不依赖云端,而是实现了离线部署,所有记忆都发生在你的设备本地:更高的响应速度,更小的延迟,更强的数据安全。

在隐私日益重要的今天,大模型要想真正走进用户的日常生活、深入个人决策层,必须在保护隐私的基础上实现智能化。

而“端侧+记忆”的模式,或许正是这条路的关键解法。

人类智能的底层机制,大模型也开始拥有

人类智能的演化,从来离不开记忆。没有记忆,就无法理解上下文、无法学习经验、无法形成个性。而现在,大模型也终于开始接近这一认知本质。

RockAI的创新之路在国内略显“孤独”,从非Transformer架构设计到终端的记忆能力,再到他们提出的通过群体智能迈向通用人工智能,似乎RockAI成为了创新的孤勇者。

孤独的拓荒人,还是吃螃蟹第一人?

在采访最后,新智元问了RockAI联创一个放飞的问题:几年后,未来的终端智能设备会发展出怎样的新形态?

2007年,乔布斯站在台上,掏出这部小小的手机,让全世界都沸腾了。

自此,iPhone 4改变了人类对工具的使用、延展了人类感官。

但iPhone 4的诞生离不开四个条件:全新的触控交互方式、ARM架构恰巧成熟、iOS操作系统,以及App Store带来的应用生态大爆发。

现在的硅谷大厂,有的押注AI眼镜,有的押注脑机接口,而Rock AI,押注的是芯片和操作系统。

他们判断:AI时代的操作系统一定会出现AI模型层,让设备更智能。

而能在离线设备上运行、功耗极低还是多模态的Yan大模型,就是他们的第一张王牌。

如果“打造AI时代操作系统”这个终极目标能实现,手机、平板、冰箱、电视,这些设备都将真正“长出脑子”。

环顾周围,电子设备已经无处不在:从冰箱到电脑,全球设备总数远远大于全球总人口。

如果每个设备都装上AI,市场懊有多大?

如今,3B的RockAI多模态模型能覆盖70%的场景。翻译、会议纪要等常见功能,本地Yan架构大模型就能做到。

如今在行业的上下游,RockAI都有许多合作意愿强烈的伙伴,比如很多芯片厂商、音视频厂商等。

下一个iPhone时刻,或许很快就会到来。假如每个设备都能离线运行AI,我们就将看到未来的图景成真,达到真正的“万物有灵”。


    24小时新闻排行榜更多>>
  1. 小学文凭的他,40天救下中国工业命脉
  2. 北京洪灾 人祸震动官场 山东帮尹力不妙?
  3. 因习一句话释永信落败,习近平先宠后弃有玄机!
  4. 瑞士媒体:习影响力变弱 胡锦涛重返政治舞台
  5. 财政部通报点名厦门、成都新增隐性债务均超600亿
  6. 英伟达芯片遭中共审查 美中科技脱钩压力加剧
  7. 紧要关头 它狠狠捅了北京一刀
  8. 川普:鲍威尔不降息 理事会应接手控制美联储
  9. 宗馥莉,首战输了
  10. 很多癌症是“省”出来的
  11. 川普:已部署两艘美军核潜艇
  12. 尹锡悦拒捕现场曝光:门口僵持140分钟,终失败
  13. 泰空军F-16咆哮空袭,中国远火跨山狙杀
  14. 《731》被曝淡化罪恶,洗白日本人
  15. 防止洗产地 美将全面加征40%惩罚性关税
  16. 川普怒斥梅德韦杰夫
  17. 中国队,打破一项亚洲纪录
  18. 中美贸易谈判:美方劝中国再平衡消费型经济
  19. 726罢免大挫败 民进党团总召曝主因
  20. 川普:鲍威尔再不降息 美联储理事会应接管控制
  21. 【百年真相】刘志丹之死与毛泽东的忌讳
  22. 人民日报发表评论:英伟达,让我怎么相信你?
  23. 诸神的黄昏:香港四大家族集体谢幕
  24. 24岁大陆男子飞抵柬埔寨数小时即被抛尸郊外
  25. 从童年苦难中走来 在信仰中坚定前行
  26. 美联储官员:就业市场风险可能增加
  27. 北京洪水淹养老院31死 官员承认失职遭网民怒轰
  28. 台海战争剧集《零日攻击》揣摩“中共威胁”
  29. 香港高等法院对娃哈哈宗家“信托案”决定宣布了!
  30. 台风天满目疮痍 民宅、店铺挨淹 上班女崩溃!
  31. 一晚人数1000万,“擦边团播” 越擦越疯狂
  32. 从10个细微之处 看一个人的未来格局
  33. 川普:对台关税20%
  34. 马斯克,消停了
  35. 娃哈哈风波进展:信托协议存在但双方没谈拢
  36. 欧洲大国为何开始承认巴勒斯坦国?
  37. 宗庆后唯一信任的还是宗馥莉
  38. 新关税出炉 彭博点名最大输家是中国 最大赢家这些国
  39. 川普和美国深层政府为何爱反复“撞南墙”?
  40. 女子称彩超漏诊婴儿唇裂,到卫健委反映问题竟遭怒斥
  41. 娃哈哈遗产争夺首战打响:宗馥莉,败诉
  42. 暴雨侵袭美东 陆空交通中断 纽约州进入紧急状态
  43. 回应俄挑衅言论 川普下令部署两艘核潜艇
  44. 少年误食芬太尼致死 家长起诉社媒Snapchat
  45. 卡尼想在5个月内强制对燃油车征税
  46. 体检报告中这些“字眼”,可能是癌
  47. 新疆乌孙古道爆发山洪 至少2名徒步者遇难
  48. 美国一道闪电延伸829公里 刷新世界纪录
  49. 北京水库泄洪酿灾 密云一养老院31人被淹死
  50. 离奇命案和怪病皆是偿还各自的宿业
  51. 宗馥莉,败诉
  52. 数据不如意就走人 川普宣布开除劳工统计局长
  53. 美国为何不惜一切代价要搞垮沙姆哈尼父子?
  54. 【时政春秋】中共敲打英伟达 意欲何为?
  55. 华男疑赴迪士尼乐园途中绑走3子女 在巴拿马被捕
  56. 哈根达斯等品牌为何在中国炎夏中感受寒意
  57. 江西省政府发布一批人事任免通知
  58. 【时事金扫描】中国新疫情爆发 非洲诅咒蔓北京
  59. GTA又一商场将被拆除
  60. 香港经贸处加强与青年联系