腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. GDP失灵了?AI创造的财富,连美联储都看不见
  2. 缅甸村庄大爆炸至少55死 炸出蘑菇云如世界末日
  3. 哈尔滨突遭罕见沙尘暴袭击 似“末日”来临
  4. 海底发现的人类古文明遗址
  5. 美军助4分之1受困船通过霍尔木兹 幕后手法曝光
  6. 最可怕的骗子是身边靠谱了半辈子的人
  7. 三孩政策第五年,走不出计划生育的人
  8. 步拜登后尘?川普体检结果出炉 认知检测分数公开
  9. 六四秘闻:红墙外屠城 红墙内搬钱
  10. Google秘密计划曝光 拟在美国放出3200万只蚊子
  11. 卡斯特罗家六指孙子 已成古美中间人 奢华生活引关注
  12. 美军摧毁伊朗防空系统 德黑兰称进行报复
  13. 埃克森美孚高层预警:每桶160美元“不是梦”
  14. 山东鸡蛋兽药残留超标69倍 河南猪肉抗生素超标37倍
  15. 川普小女儿携富豪丈夫访泰姬陵 高规格待遇引质疑
  16. 沃什改写“美联储最爱的通胀指标”
  17. 最伤气血的四件事 很多人每天都在做
  18. AI大潮中的横店:演员刚走红就无戏可拍
  19. 关停3年后,天涯社区宣布正式重启
  20. 常常“闪到腰”?几招教你矫正不良姿势
  21. 老翁高楼悬空,举手机对准邻居家
  22. 黄仁勋,成了河南老乡最爱的男人
  23. 普京如何成为形象操控大师?
  24. 中方敦促捷克:立即消除恶劣影响
  25. 耿同学打假后效应 《柳叶刀》查出3000余篇论文 涉嫌AI生成或虚构
  26. 传说中的5种穷人思维,你中了几个?
  27. 川普币、川普钞、川普护照,美国还剩多少美国?
  28. 道士和尚纷纷送外卖开网约车 背后是谋生难…
  29. 七千万年前的故事 被冰封的城堡
  30. 免开冷气 实用又不花钱的“室内降温法”
  31. 重庆反共标语事件勇士戚洪 在英遭亲共口译员斥责
  32. 台湾半导体经济起飞,但却存在年轻世代经济困境
  33. 川习会后美中互逐记者 起因被曝与赖清德有关
  34. 奇迹!特斯拉坠落百米深渊!车上两人仅受轻伤
  35. 美封堵AI芯片漏洞 阻英伟达AMD流向境外中企
  36. 改进型“基因魔剪”更安全更可靠
  37. 250建国周年音乐会爆明星退演潮 川普怒呛三流艺人
  38. 中国外卖骑手超编1600万人 网约车市场亦饱和
  39. 什么是穷人思维?答案扎心了:5种思维习惯
  40. "六四"前夕 纪念馆遭破坏 王丹:作案动机不难想像
  41. 摩根大通:本轮存储超级周期将“更高、更长”
  42. AI抢饭碗 大陆短剧演员无戏可拍
  43. HONDA到了生死边缘,上市69年首次出现巨额亏损
  44. 伊朗“四大红线”踩中川普所有雷点 和谈卡关
  45. 习“雄安看门人”被免职 新任保定书记是李克强旧部
  46. 中共得罪硬茬了 摩萨德秘密行动细节首次曝光
  47. 德州云霄飞车卡高空!8人受困仰躺4小时才获救
  48. “天安门母亲”呼吁习近平秉持胡耀邦精神“有错必纠”
  49. 中共纵容童工现象滋生 强制中职生实习日工时达12小时
  50. 这场“香会”带给人们哪些信息和启示?
  51. Google计划在加州和佛州释放3200万只蚊子
  52. 华尔街顶尖分析师:这三只股票增长潜力强劲
  53. 售卖用户手机内文物照 中国交易平台闲鱼道歉
  54. 台商走了!埃建“台湾小镇”一夜间空了!惨状惊人!
  55. 中国发布无人机“团灭”算法 6.6毫秒决策 100%杀伤率
  56. 华人老板突失联!大巴惨剧5死44伤 联邦调查发现…
  57. 哈佛最年轻华人教授入职OpenAI 但可能没那么简单…
  58. ICE凌晨突袭华人海鲜酒楼 16人被带走 背后牵出大案
  59. 亚裔男刑满30年面临遣返 曾登上“全美头号通缉犯”
  60. 美国要打巴基斯坦?