腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 中国多所高校保卫处改隶党委 学者析背后企图
  2. 习军中亲信韩卫国被降级处理 与多名出事上将有交集
  3. 韭菜成刀 中共吓破胆 草木皆兵
  4. 别只盯着黄金白银,“战争金属”更凶猛!
  5. 最高法院裁决后 美国周二开始停征IEEPA关税
  6. 中共妇联出新书包装“人民领袖” 民间讥讽
  7. 刘美贤摘金 加州冰淇淋百年老店送她终身免费吃
  8. 西方与中国争夺矿产资源 战火延至希腊小岛
  9. 57岁没结婚,被骂风流成性,她做错了什么?
  10. 这个周末,莫斯科遭受重大羞辱
  11. 谷爱凌“玩弄”所有记者
  12. 天使、航母与蜥蜴人?布兰登2026异象预言
  13. 你在澳洲罢工,你爸在河南老家被传唤
  14. 京津冀沙尘暴肆虐 大陆130多城出现严重污染
  15. 荷马雷霆队,终结骑士7连胜
  16. 美东北部暴风雪肆虐,多地进入紧急状态
  17. 董宇辉自曝:我妈说“丑人多作怪”
  18. 金正恩再次当选
  19. 日本大阪获赠21公斤金条 指定用于修缮旧水管
  20. 新一轮谈判前,传伊朗考虑对美让步
  21. 张、刘案网络战成功?传习亲发嘉奖令 最新爆料流出
  22. 暴风雪袭美东 纽约新泽西等进紧急状态 波及5千万人
  23. 大年初五 98岁李嘉诚自己走进寺庙 没人搀扶
  24. 美将推破网平台 专家析对共产中国的影响
  25. 中共严防裸官、准裸官“跳船” 现实版“坑爹”上演
  26. 开12小时,还要12小时!浙江男子急了,车上鸡鸭鱼肉要臭了
  27. 两女孩扶起骑车摔倒老人 结果却出人意料…
  28. 去年中国大城市商铺租金续跌 今年或再跌
  29. 遭中共拘押者之女将出席川普国情咨文演讲
  30. 运动不减肥这件事,终于有研究说清楚了
  31. 高盛:专业投资者正为“某种突破”做准备
  32. 紧要关头爆马桶危机!美航母官兵陷排泄系统灾难
  33. 4000中国网军狂洗版 高市早苗靠这招破解
  34. 联合国秘书长:“两国方案”正在被侵蚀
  35. OpenAI的“星际之门”计划陷入僵局
  36. 大陆二手相机价格暴涨 热门机型溢价十倍
  37. 原来金正恩同志和赵匡胤一样,都是被拥戴即位的
  38. 山西万荣县令出租车给游客打折 否则罚款十倍
  39. 美警告:“美国公民就地避难” 中使馆急发通告
  40. 溥儒的画
  41. 法拉盛中超关门 法轮功真相点屹立风雪中
  42. 美AI公司指控中国DeepSeek“盗用”其人工智能模型
  43. “杀父弑母”的好莱坞逆子首度出庭 拒不认罪!
  44. Costco缩紧“无条件退货”政策
  45. 西安罕下真正“鹅毛大雪” 居民:老天,昨天还穿短袖
  46. 多国紧急提醒:立即离开伊朗
  47. 贝加尔湖惨剧,给鹅粉敲响警钟
  48. 川普接连出招,伤害性不大,侮辱性极强
  49. Costco罕为人知福利:这类旧货可换钱 最高值2550
  50. 供应链大洗牌!美墨联手斩首大毒枭 走私网恐改道…
  51. 网疯传美军吃牛排龙虾 “最后1餐”迷思遭查核
  52. 川普警告各国:别耍花样
  53. 精美山水画100幅,各具风格
  54. 美媒:川普考虑对6个行业加征新的国家安全关税
  55. 杜海涛沈梦辰德国被偶遇
  56. 国土安全部正在追查:所有在入籍前投过票的公民
  57. DeepSeek等中企被指非法挖取美AI模型能力
  58. 川普酝酿推翻德黑兰政权 代理人恐报复性恐攻
  59. 川普新关税|英国料沦最大输家 官员急求美国豁免
  60. 枪击案受害者家属遭威胁,葬礼被迫取消