腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 美无人艇首次自主穿越台海 监测中共军舰动向
  2. 美景变国安漏洞 挪威名厕疑因中国间谍案暂时封闭
  3. Anthropic估值$9650亿 超越OpenAI成硅谷最贵AI公司
  4. 巴西Viridis把稀土售给美欧买家 而非中国
  5. 川普政府放狠话:纽瓦克机场或“很快”停止国际入境
  6. 波音CEO:中国200架订单年内确定 属更大交易首段
  7. 德经济部长:中方愿听取德企关切
  8. 女村支书耳环风波背后:一个暴雨重灾区的“幸运村”
  9. 美国250周年纪念钞拟印川普肖像
  10. 洗热水澡舒服,心血管患者应避免
  11. 中国南方热爆 广州体感47度 网友嚷着“去非洲避暑”
  12. 华为“韬定律”刷屏:中国芯片迎来“DeepSeek时刻”了?
  13. 江苏南通润滑油厂爆炸 火球升10米高空场面骇人
  14. 专家:近十年来习的悲伤情绪大增
  15. 黄仁勋为提前吃夜市烤玉米,付费插队引热议
  16. 久居日本的郑伊健,印证了王晶的评价
  17. 川普推行250美元钞票,网友直呼数字也不吉利
  18. 赵紫阳母亲:共产党不好!拿人家东西?
  19. 欧盟深入调查京东德国并购案 或涉及中共补贴
  20. 前司法部长邦迪证实罹癌 术后转任白宫AI顾问
  21. 川普长子的海岛婚礼照曝光!和39岁名媛新妻备孕中
  22. 瑞士制药山德士控中国抗生素倾销
  23. 中组部拨党费救灾遭批做秀 中共黑幕引关注
  24. 《圣经》古城遗址出土千年雅典娜巨型雕像
  25. “最美科技工作者”发布
  26. 城市正在改变?英国灵媒帕克占卜预见“革命卦象”
  27. 美财长:阿曼不会在海峡收费 想和我们再好200年
  28. 美军是否重启军事打击 川普给伊朗划红线
  29. 李强视察储备基地 被指忧虑能源及粮食安全
  30. 从患抑郁症到读研究生 外孙女成功的秘诀
  31. 北京扩建古巴一处间谍设施 美国警觉
  32. 百年墓园地底的“王国”?地下藏有数百万只蜜蜂
  33. 第17选区候选人Ritesh Tandon:捍卫社区权益
  34. 日食是不祥之兆 发生灾难概率高?
  35. 鸡蛋3种错误吃法 伤身或致癌
  36. 美伊传达成初步协议 霍尔木兹海峡有望重启
  37. 伊朗军方:向“特定目标”发射导弹
  38. 一小时最大雨量达103.6毫米意味着什么?
  39. 电池自爆,她的豪宅20分钟变废墟
  40. 澳洲关键矿产计划获批 携手日本抗衡中共垄断
  41. 91岁“龙婆”罗兰被TVB除名
  42. 美债遭抛售引发市场警报
  43. 上海政法学院女厕所疑现偷拍设备
  44. 四川数百医护人员连续3天集会 抗议医院欠薪欠缴社保
  45. 小李子夜会27岁意大利超模,越发稳定
  46. 隐婚17年终曝光,任泉成赢家
  47. 抹红芯片“中国制” 雷虎提告红煤《钜闻天下》求偿5000万
  48. 美国财政部拟将川普肖像印在新版250美元纸币上
  49. 房贷利率降至6.25%
  50. 卡达国王与川普通话,讨论中东局势
  51. 美印太司令促增拨款 强化美军在台海威慑力
  52. 圣罗莎强风暴,一死一残毁两家
  53. 欧盟推产能新工具,中方必将反制
  54. 霸王茶姬转型,首季度增收不增利
  55. 英欧护照关键元件商涉受限中资背景 引发安全疑虑
  56. 电车车主,最怕去4S店修车
  57. 你有发现吗?美国物价正以三年来最快速度上涨
  58. 日元沦为全球最弱货币
  59. 麦当娜自曝与小肯尼迪的恋情,“最棒的情人”引热议
  60. 大陆网红美妆blank me母公司被申请破产及清算