腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 传进京高速令所有车辆尽快驶离 微信惊现大量诡异视频
  2. 张又侠落马未见军队上下表态 专家析内情
  3. 张又侠被抓细节流出 传一度枪战死伤30余人
  4. 习扮猪吃老虎骗过张又侠?爆特别小组进驻控制北部战区
  5. 日媒:共军高层被清洗 习近平或亲自指挥对台作战
  6. 爆料:张又侠应邀“鸿门宴” 习蔡李设局抓捕
  7. 无疫苗无特效药!致命病毒扩散 多地重启防疫+隔离
  8. 张又侠被抓 谁才是真正“一个军人身带弓”?
  9. 研究揭示人类丁丁尺寸之谜
  10. 乙巳之变马踏飞燕 习近平休矣还是驾崩?
  11. 美政府发生新一轮停摆的可能性接近80%
  12. 传中共体制内民政官员爆料:中国人口只有5亿多
  13. “性商教母”吸引不了男人,只能割女人韭菜
  14. 张又侠如何成了习近平“死敌” 解放军报露杀机
  15. 【独家】张又侠被政治定性 军内高度紧张
  16. 政变未遂 张又侠被抓!
  17. 军权之争:习近平的生死一搏
  18. 张又侠其人?子承父业 具实战经验的“上将之子”
  19. 银行理财打响争夺战
  20. 金价十年涨四倍 为何钻石价格却暴跌?
  21. 【独家】张又侠从八一大楼被带走 北京岗哨密布
  22. 内部通报曝光:张又侠涉卖官和滥用职权
  23. 【海国日志】写于赤龙党政变 反习派落马之际
  24. 70年代东北农村冬天:3件事现在想都后怕
  25. 委代总统宣布不承认马杜洛债务 中国贷款或成坏帐
  26. 分析:习张在同一辆飞车上厮杀 后果会怎样
  27. 英国首相斯塔默将访华
  28. 爆料:京西宾馆枪战细节 双方几十人被击毙
  29. 华人偷渡失败引爆纠纷,法院最终这样判决…
  30. 川普与明州州长通话,同意合作!霍曼接管行动
  31. 习近平式反腐打穿“底座”,必然撕裂权力共同体
  32. 俗话说“男怕八月,女怕腊月”啥意思?
  33. 张又侠被抓大局未定?中共官网现多个异常
  34. 2名村民7次性侵,山西女硕士“被收留”的13年
  35. 五大伤肾酱料排行榜 第一名竟是它
  36. 连2天凌晨3时集合!苞团游北京 倒路边猝死
  37. 密大留学生因实习离美 因旅行禁令无法返美
  38. 欧洲想单干?北约秘书长一句话警告
  39. 台北101徒手攀登 霍诺德玩命酬劳曝光:尴尬小数目
  40. 新年伊始 中共对神韵发动新一轮攻击
  41. 未来3年,具身智能产品成本或下降 50%
  42. 太原国企董事长欠货款 上门打伤经销商惹议
  43. 福建“豪门”,打响继承之战
  44. 北约秘书长:没有美国 欧洲别幻想自保
  45. 宝马:美国对V8发动机的需求远高于平均水平
  46. 美天然气价格突破6美元 创2022年以来新高
  47. 重庆一居民楼出现50米长裂缝
  48. 好莱坞地标惊见挂满胸罩 女星攀爬宣传引争议
  49. 张又侠泄核武军机?学者:当小说看看即可
  50. 川普乾坤大挪移!“西方”面临崩解 三根柱子一起松动
  51. 【袁红冰热点】独家内幕:习指示:枪响之前清除内部隐患
  52. 先爆张又侠被抓!蔡慎坤:他当面顶撞习近平
  53. 川普首揭卫星情报 证实武汉初期“遍地尸袋”惨况
  54. “不三不四”,究竟指哪“三”哪“四”?
  55. “张将军反维尼”?海外爆红讽刺剧引发中共腥风血雨
  56. 【独家】知情人:张又侠从八一大楼被抓
  57. 中国产添加成分污染令欧洲奶粉公司警惕
  58. 武汉名校党员失业3年当保安 被母校约谈要求换工作
  59. 浪漫主义的反讽观
  60. 吴佩慈安以轩们的旧式婚恋,把赌局具象化了