腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 五角大楼重塑“自由兵工厂”摆脱中国供应链
  2. 45岁后,这4个器官用得越“勤”越长寿
  3. 海南三亚曝血案 52岁男子持刀伤人致3死
  4. 纽时批川普第2任外交哲学:利益至上 民主靠边站
  5. 钱学森现代科学技术体系研究分会学术交流会举行
  6. 假扮农夫,躲过纳粹追捕的美军飞行员
  7. 川普新国安战略,加勒比海之战就要打响?
  8. 俄副总理:俄罗斯已准备好迎接无限数量的印度技术工人
  9. 美推出新国安战略 专家析对华政策重大转向
  10. 应对中共超限战 为何西方需借鉴冷战智慧
  11. 国乒击败日本队,蝉联冠军
  12. 美国战略重心大转向,第一枪瞄准这个国家?
  13. 13岁女孩爬冰救人,对父谴啮了个谎
  14. 香港大火死了1500人?大量住户凭空消失
  15. 欠中国代工厂超25亿元,美知名机器人公司爆雷
  16. 52岁董卿近况曝光
  17. 美报告提出“西半球优先”
  18. 不只是降息?鲍威尔下周三或宣布450亿美元购债
  19. 马克龙:向泽连斯基分享访华期间会谈
  20. “郑习会”将登场?
  21. 全国首个:哈工程成立新学院
  22. 中国女性第一大癌症,不是乳腺癌,竟然是肺癌
  23. 郭美美等被点名!央视曝光劣迹网红套路
  24. 《阿凡达3》香港撤档 片名后缀因敏感字遭删
  25. 美沉默应对日中紧张,金融时报揭内幕:日本深感失望
  26. 没有大国崛起,就没有小民尊严吗?
  27. 全球首颗计算成像体制低成本光学载荷成功出图
  28. MIT神经科学家发现:人类与AI的逻辑惊人地重合
  29. 苹果爆高管离职潮,库克去向备受关注
  30. 大不同:利益优先,不谈民主
  31. 泽连斯基称与美磋商关键措施 双方已达共识
  32. Hinton最新预言刷屏:谷歌必赢,早该赢了
  33. 美连扔两震撼弹全面翻盘对中政策 北京措手不及
  34. 骇人听闻 朝鲜监狱“多名囚犯”连续人间蒸发
  35. 催眠治疗过敏症 意外发现前世记忆
  36. 诺贝尔得主:与中国相比,“英国越来越像第三世界”
  37. 泽连斯基:与美国就和平计划的谈判取得进展
  38. 以自由换取面包,终将失去自由和面包
  39. 县里的公务员老爷连编五个名字都不愿意费力气了
  40. 美国不再要求新生儿接种乙肝疫苗
  41. 美众议院通过三项议案,阻止中共对美国中小学课堂的影响
  42. 清华姚班学霸联手:逆向数学,破解50年难题
  43. 美国人为什么不结婚了呢?
  44. 赵紫阳谈戈尔巴乔夫“特别大声”触怒邓小平
  45. 穿越古今 遨游四海 长荣海事博物馆见证海洋传奇
  46. 社保新规让你重新规划退休
  47. 美“国安战略”只字未提朝鲜 韩媒:川普想见金正恩
  48. 伦敦三千港人悼香港大火遇难者 默哀及献花
  49. 美乌3天会谈无明显突破
  50. 黄日华退出娱乐圈,拒绝拍戏仍捐款百万
  51. 川普重申门罗主义 美国人民掌控西半球命运
  52. 黄仁勋坦言倒闭恐惧未消失 至今仍一周工作7天
  53. 美乌谈判第二天,美方吹风称谈妥“安保安排框架”
  54. 中共巨婴外交暴露真面目《华尔街日报》警告世界
  55. AI不只取代人类?黄仁勋:连“机器人服饰设计师”都可能成真
  56. 日资深外交官出炉“中国共产党指南”应对中共霸凌
  57. 灵界疯了 2026预言全公开 中国最震惊
  58. 改造白宫 修凯旋门 川普工程留个人烙印延续崇拜
  59. 美纪念珍珠港事变84周年 首度未见幸存老兵出席
  60. 电影《芳华》解说爆红引热议 胡锡进:文革是内乱