腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 世界杯为了等广告播完,让球员多站了40秒才比赛
  2. 日本制造业曾经辉煌的历史,一切都快结束了?
  3. 一小学女生被围殴 安徽校园霸凌事件引关注
  4. 习近平二十大低端官员与部级官员大比拼 蔡奇落败
  5. 这种事,潘金莲都下不去手
  6. 民主人士纪念自由女神抵纽约141周年
  7. 美国四位前第一夫人罕见同框,为奥巴马捧场
  8. 中方点名:特别是以色列
  9. 重磅!习近平生日之际 美国送上“最狠贺礼”
  10. 从《十万个为什么》到“禁书”《真实的朝鲜》
  11. 被美景震撼时 记得这八句古诗词
  12. 武昌火车站被淹 端午节暴雨突袭武汉
  13. 万斯警告以色列:川普是你们的唯一盟友
  14. 官员禁用智能手机,违者当场砸烂
  15. 埃森哲股价暴跌18%,创近十年新低
  16. 为何不能说“端午节快乐”?
  17. 居家生活这8物须常备 关键时候能保命
  18. 【翻墙必看】中共继续深度清理门户
  19. 一份家暴谅解书,换五处房产?
  20. 官方公布密云养老院水灾处罚结果 被指太轻
  21. 福建2居民因抬棺上街送葬被拘 引批评
  22. 以军杀入腹地,真主党老巢告急
  23. 神韵纪录片《坚不可摧》全面上线串流平台
  24. 中朝友谊的真相到底是什么?
  25. AI“接管”世界杯,哪个更靠谱?
  26. 暑期旅游旺季,新型航空诈骗高发
  27. 法国国家队薄荷绿客场球衣已售罄
  28. 哈尔滨——唯有美食慰我心
  29. 阿斯麦:未向中国发运过EUV设备
  30. 港府扶贫被批“越扶越贫”
  31. 泄漏蔡英文出访行程 台湾扯铃教练被判刑12年8月
  32. 美国卡脖子,又给中国AI打了广告
  33. 扎克伯格承诺Meta今年不会再裁员:未来或更艰难
  34. 美国24岁高中女教师性侵6名学生,被要挟改高分
  35. 美高官:中方想要更多市场份额 美政府在袖手旁观
  36. 已服役35年,美国“空军一号”总统专机正式退役了
  37. AI“接管”世界杯:看球、判球、猜球,哪个更靠谱?
  38. 温哥华往事:王竹杰的人生历程
  39. 网友:中国大模型何时达到Fable级别?马斯克回复了
  40. “对不起我是警察。”运城少年:“谁信?”
  41. 她从小婉君到北大高材生,45岁仍不婚不育
  42. 假健保转接假公安,华女陷连环诈骗
  43. 走出教室的人,又困在了材料里
  44. 信任危机:大陆全国血库告急 公众不愿献血
  45. 李在明:用制裁对付朝鲜已无效
  46. 618毁掉了AI购物试水:AI为何让消费者又爱又怕?
  47. 2026年大学生就业风向:哪些专业最吃香?
  48. 多数散户,为何在牛市也赚不到钱?
  49. 听音乐、读书和看展或能让你老得更慢
  50. C罗粉丝攻陷其队友社媒评论区
  51. 陈希遭羞辱性待遇 被免党校校长 分析:习大势已去
  52. 独家:前中国人权律师李双德谈中国司法黑幕
  53. 人物观察:不够“反贼”的“反贼喜剧演员”池子
  54. 港经贸办谍案,两被告遭重判
  55. 伊朗足协投诉美国
  56. 赖清德:美对台安全承诺未变,对军售获批寄以厚望
  57. 《揭秘日》解析:没懂的来看这篇文章
  58. 世界杯最火爆一战:6球+2红牌+断腿惨案
  59. 坑惨安帅?巴西队官宣内马尔无缘次战!
  60. 米歇尔·奥巴马聚餐急救呛噎好友,女儿全程呆坐