腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 五星旗沦为泰军空袭“催命符” 小粉红“战狼神话”破灭
  2. 黄金白银刷新高,贵金属涨势能否跨年?
  3. “癌症”将有疫苗了,预计明年人体试验
  4. 鸡蛋每周吃几个最健康?
  5. 中共贪官获释后任国企高管 被举报违规任职
  6. 疑受于朦胧事件影响 大陆票房惨淡影院恐倒闭
  7. 特斯拉Robotaxi有望落地中国
  8. 大陆女星蒋欣晒减肥餐 画面搞笑又令人心酸
  9. “干掉所有说自己是改开派的人”邓小平晚年交代
  10. 明年红蓝卡处方药大降价 ACA 白卡花费恐增114%
  11. 北约秘书长:反对欧盟防务与美国脱钩
  12. 普京突然穿上了军装!释放一个强烈信号
  13. 香港知名天王身体疑出问题
  14. 2026年将是中国股市配置价值觉醒元年
  15. “机关枪”又要生娃了!川普这个圣诞信息量有点大
  16. 2026年股市展望供消遣
  17. "今年亚洲表现最糟糕的货币",印度卢比怎么了?
  18. 泽连斯基将与川普见面,俄美乌欧各怎么看
  19. 美股“圣诞行情”创新高
  20. 高圆圆的街头风,简约封神
  21. 长期吃阿卡波糖,要警惕3个危害
  22. 美国将于川普本届任期内登月
  23. 家贼几十年偷盗南京博物院文物 日军占领北京八年未抢劫国宝
  24. 敲锣抗议 罗帅宇家人在长沙法院门前讨公道
  25. 奥特曼摊牌:苹果才是真宿敌
  26. 复刻AlphaZero神话,AI甩开人类自修成神
  27. “修旧如新”?故宫养心殿大修后长这样
  28. 辛顿:LLM将以“推理自生成数据”突破Scaling Law
  29. 太空“出差”两个月,神二十一乘组做了什么?
  30. 川普重塑2025全球贸易格局,明年将面临哪些不确定性?
  31. 香港中大四书院学生会停运 “员生共治已死”
  32. 大陆机器人训练时攻击训练师 引热议
  33. 泰柬冲突背后的“清扫行动”美国“醉拳”谁在裸泳
  34. 致命冲突持续数周后,泰国与柬埔寨边境停火启动
  35. 这些赛道,芯片巨头不玩了
  36. FTC前主席助曼达尼提高施政效率
  37. 手机禁令揭学生不会看时钟
  38. 俄国亿万富豪人数创新高,政治影响力被剥夺
  39. 普京威胁泽连斯基:扩大控制范围
  40. 中南大学副校长郭学益被查
  41. 沙国联军警告也门分离派撤出占领区
  42. 财政部:2026年继续实施积极的财政政策
  43. 有人说男人没有真爱 只会权衡利弊 是真的吗
  44. 别再踩雷!7个减肥误区和正确减肥方法
  45. 《铁证如山》:中共活摘器官罪行蔓延到世界
  46. 张学良被蒋介石软禁54年 晚年亲述“4件事”
  47. 因为它,科学家找到火星最佳着陆点
  48. 磷酸铁锂“半壁江山”集体挺价
  49. 俄前副国防部长去世,与绍伊古是“老搭档”
  50. 李湘在-30度哈尔滨穿纱裙细跟鞋
  51. 令人震惊:46张照片讲述本世纪迄今为止的故事
  52. 范丞丞的“辣眼睛”,让这期《跑男》彻底被打脸
  53. 江特电机做空碳酸锂期货,浮亏超千万
  54. 在乌尤尼盐湖之上行走天空与大地的交界
  55. 在风化岩塔与热气球之间漫游卡帕多奇亚
  56. 穿越雪山冰川,去新西兰感受一场暖冬
  57. 纽约市警强制拘捕年增20%,创九年新高
  58. 强降雪袭纽约,各机场上百航班取消
  59. 华裔少女遭猥亵,警缉布碌仑男嫌
  60. 台湾地震,胡小祯差点只穿内裤跑出家门