腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 美军扣押第6艘油轮 委内瑞拉对中国出口被锁喉
  2. 4月起,中国将发生历史性转变
  3. 天津大学原校长金东寒院士出事 曾任军工高管
  4. 中央政研室换主任 王沪宁政治老巢黑幕引关注
  5. 跑5公里和走5公里,哪个健康获益大?
  6. 川普:非常恶劣,委内瑞拉行动“泄密者”已被抓
  7. 《柳堡的故事》演员陶玉玲去世:丧女丧夫3次患癌
  8. 1个半月狂买189笔,川普买入5100万美元债券
  9. 想仿效习近平独掌大权,他要兼任国家主席
  10. 强脑科技冲刺IPO,脑机接口第一股要来了!
  11. 为何中国出生人口恐低于900万 一文看懂
  12. 格陵兰执政党执委:我们不是待售商品 民众感到恐惧
  13. 重夺“汽车第一城”,西部大佬杀回来了
  14. 16亿只是保底,马斯克想给朱晓彤的是100亿
  15. 川普终于圆梦诺贝尔!马查多将和平奖转赠川普
  16. 与债权人持续拉锯,万科再推出57亿境内债展期方案
  17. 加总理卡尼:加中关系正进入“新的时代”
  18. 联邦法院裁决 维持加州有利民主党的选区地图
  19. 印度向苹果发出最后通牒:再不配合,就...
  20. 宏福苑大火死亡人数增至168 邓炳强:暂不公布名单
  21. 贾国龙为华杉正名:有事冲我来!还会跟华与华合作
  22. 李湘全平台账号禁止关注:被禁后其微博账号频繁上线
  23. 白银50天涨逾80%,疯狂程度远超黄金
  24. 湾区这地开展执法行动,34名司机被罚
  25. 赵紫阳516 谈话泄露国家“最高机密”李鹏暗喜
  26. 中共反腐再现电视认罪 徐宪平案被指政治恐吓
  27. AI之后AGI又来了 AGI是啥?马斯克称今年就将实现
  28. 情歌王子遭前员工控性侵 揭长期受害细节如沦奴隶
  29. 26人涉嫌操纵美中篮球赛事 被美当局起诉
  30. 涉违美国移民法规 中国女富商在塞班岛被捕
  31. 江苏访民控诉北京派出所剥夺其医疗权利
  32. 马查多转赠川普诺贝尔奖章
  33. 美没收运往中国反潜训练设备 防技术落入敌手
  34. 杨兰兰案再起波澜 “替身”到警局报到被抓包
  35. 计划关店102家,贾国龙发文确认
  36. 邓莎疑似官宣离婚,丈夫曾贬低她
  37. 纪念村山富市:日本转瞬即逝的“良心”
  38. 涉嫌违反美国移民法规则,吴佩慈“婆婆”在美被捕
  39. 多伦多GO火车撞上除雪车
  40. 同性恋为何没有在进化中消失?
  41. 2026警示 她说那不是终结,而是一道门
  42. 自动书写者的警告 2026是一个灵性“分水岭”
  43. 计划关店102家,贾国龙发文:不懂公关就该被欺辱?
  44. 美股收盘:三大指数集体收涨 台积电财报点燃AI行情
  45. 一毁终生,中国运动员的兴奋剂“奉旨滥用”(下)
  46. 章泽天不是不真诚,而是离人间太远
  47. CIA策反中共官员 教授安全联系九步骤
  48. 她逃离了人间地狱,曝光所有真相
  49. 马杜罗被擒 中共在美“后院”的双重损失浮现
  50. 中国游客“争夺战”进入2.0时代
  51. 演员邓莎发文疑似官宣离婚,老公曾被曝行贿千万元
  52. 每天撮合上万笔交易!70后清华硕士干“网红生意”
  53. 艾未未嫌弃德国 把中国夸成一朵花 这番话戳痛了谁?
  54. 马克龙右眼血管破裂,俄媒调侃:又被家暴了?
  55. 知道“锋菲”甜,但没想到这么甜
  56. 马查多向川普转赠了诺贝尔和平奖章
  57. 伊朗知名导演与演员遭枪杀 女网红:百姓已活不下去
  58. 男性肾功能好不好?这3个部位发黑 千万别大意
  59. 湖南骑士没戴头盔被监控拍到 系统惊现个人隐私
  60. 911报警录音助佛州警方找到11岁失踪男孩