腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 中共拟推网络新法案 法律界斥其违宪违法
  2. 中共年度军政会军方将领名单大变 无上将出席
  3. 运河裁决惹怒北京 ! 中国传将全面反制巴拿马
  4. 赵薇离婚内幕曝光
  5. 美军在东太平洋击沉一艘运毒船 击毙两人
  6. 为何没有摄像头录下NBC主持人之母遭绑架过程
  7. 梅洛尼晤万斯 强调意美同盟 米兰爆反ICE示威
  8. 梅洛尼会晤万斯,强调意美同盟
  9. 川普批准公开UFO机密 国会议员将调查“外星人”证据
  10. 川普大女儿久违现身,被曝和梅拉尼娅“仍冷淡”
  11. 年轻人的“赛博伙伴”,拯救春节社恐
  12. FBI调查疑似中共关联的地下生物实验室网络
  13. 美印达协议 印度拟购800亿美元波音飞机
  14. 黄国昌直播收“抖内”被指非合法政治献金
  15. 邬君梅透露丈夫已病逝
  16. 小李子27岁超模女友惊艳冬奥会,被委以重任
  17. 成功采集深海稀土泥 专家:日本国产化还得等10年
  18. 川南县城“一元食堂”,供80岁以上独居老人
  19. 程序是如何一步步跑进内存的?
  20. 被皮夹克掌控的日子
  21. 两野猫把景观池当“自助餐厅”走红
  22. 美军唯一“混动”军舰,出港一天就返航维修
  23. 川普发布种族歧视奥巴马的影片,并且拒绝道歉
  24. 习近平模仿了几个古代帝王
  25. 2012年班加西美领馆恐袭案嫌犯被引渡回美
  26. 2025太平洋之旅——初抵悉尼
  27. “快手”遭罚1.19亿元 中共网安法首案巨额罚单
  28. 坐飞机要称体重,什么意图?
  29. 曾因呛声川普丢饭碗 ! 福特员工复职 还获网捐80万
  30. 陆媒:“万国来朝”,不代表中国终将“等到天下”
  31. 从一规则看签证误区:误会也可能变欺诈
  32. 美劳动市场濒临“断裂点” 引爆美联储恢复降息预期
  33. 贝森特畅谈“美元武器”砸烂伊朗经济 引爆全国示威
  34. 湖北应城警察利用监控迫害法轮功学员
  35. 消息:中共曾游说东南亚国家反日 遭冷遇
  36. 英国安全事务部长:威胁神韵的行为极其恶劣
  37. 绿茶搭配它们,“防癌力”上涨
  38. 【翻墙必看】赵乐际与习关系疑出现裂痕
  39. 汪文华近况曝光,得罪大人物遭雪藏?
  40. Uber美国首度败诉 须为司机性侵赔850万美元
  41. 一尼加拉瓜非法移民袭击ICE特工 被起诉
  42. 欧盟令TikTok修改上瘾性设计 否则罚巨款
  43. 霍金也登萝莉岛
  44. AI越强,为什么科技股反而越慌?
  45. 甜点控有好消息!3招血糖不飙高
  46. 陆企“快手”遭罚1.19亿元 各界忧言论空间收窄
  47. 斯德哥尔摩新城区,街道以16位女性命名
  48. 美上诉法院驳回对川普DEI禁令的挑战
  49. 挪威王储妃就与爱泼斯坦“露骨信息”致歉 她曾“心动”
  50. 刘强东拿下中兴
  51. 美股轮动新潮流:“抗AI”类股成避风港
  52. 股市动荡冲击对冲基金
  53. 立陶宛总理承认“犯大错” 官媒:口头表态不足止损
  54. 湾区迎来久违降雨信号
  55. “妄议党中央大政方针”,海南省委原常委倪强被“双开”
  56. 巴基斯坦首都爆炸已致31死 初判为“自杀式恐怖袭击”
  57. 美国媒体圈震动,有人惊呼:这是一场“谋杀”
  58. 超75%标普500企业实现利润增长
  59. 比亚迪财险,首年盈利
  60. 濒死体验?患者看到了整个的急救过程