腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. “4.25”内幕爆料:军人枪弹上膛 欲重演“六四”
  2. 从嗤之以鼻到“中国真酷”:中国品牌如何赢得印尼人?
  3. 许家印留下恒大鬼城处处 烂尾现状触目惊心
  4. 中国船员困霍尔木兹海峡53天 有人已精神崩溃
  5. 从一人决策到集体领导:揭秘伊朗新政权权力结构
  6. 中共黑手伸入非洲 南加侨界:文明秩序不容践踏
  7. 华女盗刷卡被通缉 竟早已在监狱 刑满还将被遣返
  8. 许家印背后神秘金主浮出水面,竟是他?
  9. 川普政府反恐高官在“糖爹”网站上曝光 传被包养遭停职
  10. 微波炉是健康杀手吗?避开5个坑使用安心
  11. 美军空中垂降登船 扣押往中国伊朗走私船 震撼画面曝
  12. 加大伯克利分校接连两起死亡事件
  13. 苹果新CEO:曾为一颗螺丝跟同事吵翻的细节狂魔
  14. 上海经济今年彻底熄火 越来越多人离开上海
  15. 华人移民案在最高法院引发大法官辩论
  16. 中东局势骤变 谁能笑到最后?谁是最大的赢家?
  17. 把握机会实现财务飞跃 台美老移民理财经验谈
  18. 美国务院:悬赏400万美元缉捕达伦·李
  19. 何以为家:一个被战争反复“清零”的国家
  20. 妹子连睡64天 吃饭如厕全靠梦游 俩月毫无记忆!
  21. AI烧钱太猛!Meta裁8000人 微软推“买断”方案
  22. 拼多多被曝暴力抗法?夹断执法人员手部、员工吃纸
  23. 川习会前白宫发备忘录:中国以工业规模窃取AI技术
  24. 伊朗不甘示弱 释出扣船视频 蒙面突击队强登货轮示威
  25. 川普政府锁定384人 欲撤销其公民身份
  26. 从现在开始,任何截图都不要相信
  27. 加州$5.2亿直接发放 账单集体减免 无需申请自动到账
  28. 美伊戰爭啟示 台灣應加強能源、不對稱戰略與防衛韌性
  29. 黎驻美大使:川普能让黎巴嫩再次伟大
  30. 湖北一中学禁止学生背书包 改用“透明塑料袋”引热议
  31. 传反恐高官被包养遭停职
  32. 前CIA官员:中共用全球最大情报系统打压美企
  33. 美智库预估伊朗经济损失已达1440亿美元
  34. 一人公司泡沫:1200万人涌入,六成陪跑
  35. 封闭的海岛高中,蒸发了他们半生积蓄
  36. 全职妈妈9年,一个赛车手想重新坐回车里
  37. 细思极恐!中共社媒分析系统曝光 精准还原现实身份
  38. 早已写下的预言?表面强大却内部崩坏的世界
  39. 库克带苹果走向辉煌,也给习近平帮了大忙
  40. 伊朗战争是如何从全面轰炸转向美伊意志较量的?
  41. 触目惊心!中国90%小县城正在消失
  42. 中共严查产业链泄密 知情人曝内幕
  43. 他们都被救了 但救援的人并不存在
  44. 女大生去泰国却被转卖缅甸 园区老板还有神操作
  45. 粤港澳携手,共筑科学教育新生态
  46. 本田宣布:撤出韩国汽车市场
  47. 洛杉矶火灾区地块被爆最大买家来自中国
  48. 案件聚焦:关于一条征婚广告的尸解报告
  49. 4.25上访 军队镇压未遂(2)暗设陷阱
  50. 三星劳资危机再升级
  51. 逢人只说三分话 为什么话不能说太满?
  52. 高盛:中东57%原油产量停摆 预估需数月恢复
  53. 警方教扫院,揪迷彩偷拍器
  54. 布什号逼近伊朗 美三航母舰队极限施压伊朗
  55. 性侵案尚无一人报案,地检长发声
  56. 马兴瑞被曝咬出不该咬出的人 时评人这么看
  57. 前OpenAI工程师掀起网页革命:HTML死了
  58. 一碗麻婆豆腐 换美人追随一生
  59. 首位通过申请 他拿到“川普金卡” 商务部:数百人在排
  60. 川普移民贴文惹议,印度批评品味低俗