腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 《不够年轻的我们》再走红 大陆中年失业悲歌
  2. 41岁瑞典王妃的赤足趴身照,现爱泼斯坦邮件中
  3. 萧旭岑率团会晤王沪宁 辟谣未谈及政治
  4. 分析:高市早苗大胜如何影响印太格局
  5. 台湾老人相信中共招商引资来河南投资开店 网上喊冤
  6. 当人“越界”时 北方原住民的超自然禁忌生物
  7. 浙江前省委书记易炼红落马 知情人爆内幕
  8. BBC:《世纪血案》为何引发抵制潮?当年发生什么?
  9. 川普:运动员是loser!美冬奥运动员回应了
  10. 于宙17年前悄声逝去 中共迫害至今仍未终结
  11. 权威机构公布2026最值得购买新车
  12. 漏洞百出的宣传,只会适得其反
  13. 【名家专栏】黄金投资 警惕1933年历史重演
  14. 不顾人命 只有党的利益
  15. 中国籍连环迷奸犯 在德国被判处14年有期徒刑
  16. 为躲飓风在美国避难近30年?如今面临遣返了
  17. 中国第一波返乡过年的大军又被堵在路上
  18. 最会整活的返乡打工人
  19. TikTok热议“成为中国人”:网民视为反抗西方霸权
  20. 扮维密星探猥亵?爱泼斯坦档案曝光大量T台试镜片
  21. 从日常生活看中美文化的不同
  22. 加州女盗捕濒危鲍鱼“藏在裤子里” 面临天价罚款
  23. 日人用选票让亲中政党OUT 世界关注台湾如何选择
  24. 中共连出“三大昏招” 破解“赤马红羊劫”
  25. 日本众议院选举:高市向上蹿升,日本向右暴走
  26. 不理中共警告 港人过年爱去日本旅游
  27. 美禁帕劳参院议长入境 指其涉中共相关腐败
  28. 淫魔档案再曝细节:川普被指早年承认“所有人都知情”
  29. 易炼红触犯中共大忌 曾获有意培养 落马时机藏信号
  30. 美众院通过保护台湾法案 中共若犯台将“金融封杀”
  31. 王志安东京庭审前的这场“卖惨秀” 演给谁看
  32. 一份对美国“意义重大”的报告,即将公布
  33. 从帮孩子入学到家常,爱泼斯坦与伍迪?艾伦邮件曝光
  34. 沪杭新房价格指数历史新高,什么原因?
  35. 司法部解封爱波斯坦文件中更多名字
  36. 中国多地挂黄灯笼过年 挨轰像灵堂 网传各种阴谋论
  37. 解放军12月环台军演 歼-16战机曾向台F-16放热诱弹
  38. 卢特尼克:英伟达和北京须遵守H200芯片条款
  39. 川普据报将于4月首周访问北京 与习近平举行峰会
  40. 三招心法重启生命 心灵“抗癌设定”
  41. 寒风中排队7小时,贵妇们抢购的老铺黄金,毛利超40%
  42. 《夜王》攻入内地贺岁档
  43. 女儿遭家暴杀害 明州州长候选人强森暂停竞选
  44. 中国仇日情绪动员?“军国主义修宪”谣言满天飞
  45. AI禁止人类发言!Moltbook平台160万代理人自组社会的深层警示
  46. 高市早苗大胜 习近平一连串的误判 从打压到反噬…
  47. 美中稀土之争 聚焦一种奇特银白色金属
  48. 日本将加入北约为支援乌克兰购买美国武器的框架
  49. 以色列总理顾问直言 台湾才是真盟友
  50. 泰国华裔作家威拉蓬的自由之问
  51. 开年温暖异常 南加盅檀来2周将潮湿凉爽
  52. FBI发照片 搜寻绑架NBC主播妈妈的蒙面歹徒
  53. 被七岁儿子掌控的日子
  54. 荧光海之波多黎各和马尔代夫的不同
  55. 淫魔档案爆震撼弹 牵线9岁小萝莉和外国现任高官
  56. 俄驻华大使:北京有意参与北海航线的联合开发
  57. 法官驳回了加州针对联邦执法人员的蒙面禁令
  58. 科技期刊世界影响力指数报告发布
  59. 里根后首位总统,川普拟扩张核武军备
  60. 爱沙尼亚:俄罗斯无意停战,已设定长期目标