腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 中共《解放军报》称“换羽重生”是暗指“换习”?
  2. 中英达成数十亿英镑贸易协议
  3. 新加坡“斩杀线”到底有多可怕?
  4. 川普不受民众欢迎?他的支持率被低估了吗?
  5. 美财政部敦促中国允许人民币升值 称“被严重低估”
  6. 华裔民权领袖遭活活打死,孽子下毒手
  7. 军方缺席中共政治局会议 专家析内讧后遗症
  8. 伊朗要在霍尔木兹海峡实弹演习 美军划红线
  9. 赖清德当局加紧备战,害怕春节被“斩首”?
  10. 中共吁官兵支持处理张又侠 被指旁证军心不稳
  11. 惊传张又侠亲属集体撤离北京
  12. 中国水果千万吨大滞销 果农商贩哀嚎
  13. 倒计时开始,中药大限将至
  14. 中国31省份去年GDP成绩单全部揭晓
  15. 中国人大代表巴黎家中遭窃遇袭
  16. 张又侠蒙冤 孙绍骋“买单”
  17. 法周刊:中国秘密网络潜伏巴黎 向异议人士施压
  18. 伊朗两起爆炸,以色列否认参与
  19. 正部级王祥喜任上被查
  20. 中国新生儿数量创历史新低
  21. 字节阿里DeepSeek决战春节
  22. 沃什接掌美联储后,“强势美元”时代将终结?
  23. 又一老领导去世 张又侠所送花圈传遭拆除
  24. 委内瑞拉临时总统宣布大规模特赦计划
  25. 中国应急管理部部长王祥喜被查
  26. 他教日语22年带学生拿奖无数,专业停招后他主动转岗
  27. 一觉醒来,金饰克价一夜大跌上百元
  28. 明尼苏达州ICE暴力执法枪杀案 改交由FBI侦办
  29. 疯传张又侠“密信”:制度不改 下一个受害就是你
  30. 新冠对学生造成的损害,在大学中浮现
  31. 军方代表缺席政治局会议 攻台成习、张核心矛盾
  32. 斯塔默上海行 身边为何是这位“中文十级”的英国女星?
  33. 贺立宁宣布参选州参议员 挑战共和党议员陈学理
  34. 黄金史诗级暴跌,与一纸提名有关?
  35. 柯文哲:郑丽文讲什么是她的自由 我没有心理创伤
  36. 正部级王祥喜落马 或涉国家能源集团窝案
  37. 解放军报:查处张刘具重要意义 全军官兵要坚决拥护
  38. 川普:下达最后通牒后,德黑兰“想达成协议”
  39. 老年人吃阿司匹林防癌,死亡风险不降反升
  40. “懂战争的人”被双双落马 中共军队作战成“纸上谈兵”
  41. 在川普的批评声中,斯塔默结束访华之旅
  42. 骗 杀和玩玩女人也是打江山?“红色江山”来历
  43. 美国女生抗议暴力移民执法 被川普支持者驾车撞翻
  44. 众院休会无法审议拨款 美联邦政府部分技术性“停摆”
  45. 河北老板含冤入狱病亡 孙子十九年后帮其翻案
  46. 为什么德国企业投资中国?
  47. 肺移植专家陈静瑜发文为器官移植辩解 遭网民群轰
  48. 中国学者:在最危险的时候,现场直击德黑兰街头
  49. 菲方划设军演区覆盖黄岩岛?中国军机带弹穿越
  50. 猫脸龙出没阿尔卑斯 塔泽尔沃姆传说
  51. 史上最难时刻:OpenAI,何以至此?
  52. 年轻人开始沉浸“拼豆”
  53. 明州请求立即阻止ICE行动 被法官驳回
  54. 小酒窝到天津找亲爸,商场尬舞火了
  55. 中世纪小镇布拉索夫、德古拉城堡
  56. 伊中俄将举行海上联演 沙特防相敦促美国打击伊朗
  57. 美国欢迎巴拿马最高法院裁定终止中资港口特许经营
  58. 华人在好莱坞做团播:单场直播最高获6千美元打赏
  59. 28岁博士生,意大利失联逾10天
  60. 川普投书:关税让美重返荣耀 许多公司前来设厂