腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 41岁瑞典王妃的赤足趴身照,现爱泼斯坦邮件中
  2. 萧旭岑率团会晤王沪宁 辟谣未谈及政治
  3. 分析:高市早苗大胜如何影响印太格局
  4. 没想到吧,茅盾文学奖得主竟是“集句大师”文抄公
  5. 春运一票难求却空座运行,中国售票机制受质疑
  6. 命理专家:习近平也就这一届了
  7. 多辆陌生车加入远嫁婚车交替陪跑
  8. 权威机构公布2026最值得购买新车
  9. 中共连出“三大昏招” 破解“赤马红羊劫”
  10. 川普:运动员是loser!美冬奥运动员回应了
  11. 日人用选票让亲中政党OUT 世界关注台湾如何选择
  12. 陆媒揭易炼红落马内幕 提“湖南七公子”
  13. 中国婚礼惨变修罗场!接亲当天加价50万
  14. 巴基斯坦太阳能革命,能源转型的启示
  15. 一份对美国“意义重大”的报告,即将公布
  16. 《夜王》攻入内地贺岁档
  17. 从帮孩子入学到家常,爱泼斯坦与伍迪?艾伦邮件曝光
  18. 寒风中排队7小时,贵妇们抢购的老铺黄金,毛利超40%
  19. 日本众议院选举:高市向上蹿升,日本向右暴走
  20. 不理中共警告 港人过年爱去日本旅游
  21. 三招心法重启生命 心灵“抗癌设定”
  22. 泰国华裔作家威拉蓬的自由之问
  23. KK园区2.0版内部照片首次曝光:铁栏铁网双重封窗
  24. “打倒共党,前往北京,逮捕近平”视频火了
  25. 美国气候法规基石,川普本周将废除
  26. 班加西事件
  27. 爱泼斯坦死后,一具“假尸”从监狱运出骗过媒体
  28. 英伟达两篇论文,带来具身智能的新范式
  29. 被遗弃的油轮,阴影下的世界
  30. 河南保利百万精装房变霉菌房 业主集体投诉
  31. 【翻墙必看】纪录片《不够年轻的我们》爆火
  32. 美国男子收藏《怪奇物语》纪念品创纪录
  33. 高金素梅遭约谈后急送医 蓝营质疑:办案还是清算?
  34. 外国人也赶春运:China Travel说走就走
  35. 马斯克酝酿在月球造AI卫星工厂
  36. 法拉盛合法右转罚单将撤销
  37. 格思里失踪案进展:警方拘留一名男子讯问
  38. 有人生下来就有功能 能游走于阴阳界之间
  39. 耍小聪明伪造“残趴” 多名中国留学生被捕恐遭遣返!
  40. 黎智英遭重判,美国的道义在哪里?
  41. Seedance 2.0冲击波来了
  42. 李谷一确认缺席2026年央视春晚,原因竟然是...
  43. 白宫:川普已审阅南希·格思里失踪案监控录像
  44. 辉达AI芯片销中国受阻 美商务部长暗示“川普是关键”
  45. 爱泼斯坦案亚裔受害者故事实录:女生受资助堕陷阱
  46. 向中共泄露机密 驻德美军承包商获刑近3年
  47. 纽约时报刊文:我刚从中国回来,我们没赢
  48. 消息:乌克兰或将宣布选举计划
  49. 历史性首访!万斯到访俄罗斯“后院”,签数十亿大单
  50. 爱泼斯坦文件隐藏人名揭露 “内衣教父”赫然在列
  51. 借反战之名行外宣之实?美报告揭极左团体与中共深层联系
  52. 他提议从越南等国“进口处女”,被开除党籍了
  53. 贝索斯阴阳怪气的商战:黑白乌龟照让马斯克破防?
  54. 法国各地召回这些饼干
  55. 白银腰斩后反弹30%,谁在抄底?
  56. 精神病院骗保,为何成了全国性难题?
  57. 加国校园枪案酿9死 凶手曾性别过渡先杀至亲
  58. “寿命长不长 低头看看脚” 2个特征可判断
  59. “娇妻”流水线上 躺满绝望主妇!性商之下 热钱涌动…
  60. 张又侠罪在破坏军委主席负责制 “架空”习近平?