腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 这国总统亲信激战爆乳女高官 不雅片疯传 互揭疮疤
  2. 孙绍聘落马 曾是军委办公厅主任方永祥上司
  3. 斯塔默到访故宫,多名中国游客偶遇拍照
  4. 传张又侠、刘振立被暗杀身亡 红二代大骂习“坏了规矩”
  5. 全军“静默”太反常 张又侠事态将如何延烧?
  6. 美联储暂停降息,鲍威尔发重要讲话
  7. 爆料:张又侠被捕前准备好的密信公开
  8. 抵御地缘政治风险 马斯克要在美国盖巨型晶圆厂
  9. 鲁比欧:无论发生何事,习近平这一目标不变
  10. 张又侠致习近平公开信 网评翻车
  11. 中共军委办公厅主任方永祥正部级前上司落马
  12. 中共军报谈反腐避提张又侠 军队动向异常
  13. 【独家】张又侠等军头和习矛盾激烈
  14. 日经:清洗张又侠幕后 元老与习沟通渠道消失
  15. 参议院两党达成协议 政府关门或可避免
  16. 阿里巴巴自研芯片,传比肩H20
  17. 【独家】知情人:张又侠曾批习贪生怕死
  18. 美国男约会“靠ChatGPT” 女子神提问 AI揭穿他是渣男
  19. 斯塔默:我想看清中国这头大象 人们往往盲人摸象
  20. 内幕:张又侠落马当日 军方启动临战状态
  21. 【翻墙必看】中共军方高层出现根本性分歧
  22. WSJ:美国裁员潮的真正原因,不是AI,而是…
  23. 糖尿病男性“硬不起来”:元凶竟是乳酸堆积
  24. 霍曼明州上任放低身段 改善移民扫荡 究责ICE探员
  25. “十分聪明用七分,三分留子孙”啥意思?
  26. 美国人预期寿命:创历史新高
  27. 2026年博士后国(境)外交流项目申报启动
  28. 《孤注一掷》女星金晨被爆肇事逃逸 令助理代罪
  29. 上海访民顾国平进京上访遭行政处罚
  30. 瞒着苏爹发动823炮战 彭德怀:拿战士命去填海
  31. 特斯拉永久停产Model S和X 全力转向Optimus机器人
  32. 活人制?兵马俑唯一“绿脸战士”成考古悬案 被禁出国
  33. 《我不是药神》原型陆勇抗癌23年停药 见证医学革命
  34. 遭跨国打压 律师许思龙吁国际社会制裁中共
  35. 黄仁勋:还没收到任何中国客户的H200芯片订单
  36. “万一美元迅速衰落,中国也不应该去做第一”
  37. 中共内部人士惊曝:2025年1400万人惨遭活摘器官
  38. 中国转为零工经济国 民众挣扎求生存
  39. 一周13人伤亡!建议中国游客春节避免前往俄罗斯
  40. 高市旋风席卷日本 自民党剑指单独过半 保守势力强势回归
  41. “今年20天村里死7人”大陆博主:年轻人说没就没
  42. 波士顿红线通勤时间翻两三倍
  43. 纽约犹太中心被撞,曼达尼回应
  44. 委内瑞拉签署新法 告别石油国有化时代
  45. 巴拿马最高法院裁定长和营运港口合约违宪
  46. 全球退党中心:2025年1500万人登记三退
  47. 边境沙皇空降明州:不解决问题就不走了 定"撤军"计划
  48. 美参院未通过拨款法案 加剧政府停摆担忧
  49. “奥巴马健保”注册人数在补贴到期后大幅下降
  50. 绕开欧盟27国一致同意,德国邀五国打造“多速欧洲”
  51. 移民团体状告ICE:拘留中心不人道
  52. RAV4等车型热销 丰田车稳坐全球销量第一
  53. 青少年成瘾案开庭前 TikTok与原告达成和解
  54. 王岐山故交翁永曦去世 曾是赵紫阳智囊
  55. 证监会最新发声
  56. 鲁比奥:在空军一号上要躲着川普睡觉 裹成木乃伊
  57. 大陆知名手办工厂遭故意纵火 部分产品被烧毁
  58. 一封误发“死亡日历”,引爆亚马逊16000人大裁员
  59. 前FIFA主席拍案:球迷别去美国看世界杯!枪口对准平民
  60. 为中国创业项目窃取AI技术,前谷歌工程师被定罪