腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 上海老太因强拆被软禁12年 遗体不知去向
  2. 伊朗最弱时刻 以色列的沉默 是场精心计算的豪赌
  3. “世界最大蜜罐陷阱” 艾泼斯坦档案普京被点名上千次
  4. 张又侠落马 “习转向不开一枪就瓦解台北决心的行动”
  5. 川普幕僚大婚,MAGA大咖齐聚
  6. 军报静默6天 张又侠落马后谁在抵制习近平?
  7. 《梅拉尼娅》创票房纪录 首映收入700万美元
  8. 川普幕僚海湖庄园大婚 大咖云集 马斯克携伴现身
  9. 奥运会主席与淫魔女友暧昧邮件曝光 妻怀孕8个月
  10. 日本试掘成功 六千米深海回收大量稀土泥
  11. 中共二十大后18名上将被查20上将“失踪”
  12. 胡力任:张又侠被关在京南警卫局基地
  13. 推背图52象振奋人心 “暗斗”已转向“明崩”
  14. 白萝卜正上市,不可与3物一起吃
  15. 军报痛批张又侠 凸显军心不稳 网传军队只剩四上将
  16. 全球连锁餐饮品牌“门店王”取代麦当劳
  17. [慎]“脑纤维”:膳食纤维对认知的保护力
  18. 中国人大代表巴黎家中遇袭遭窃 损失高达700万欧元
  19. 著名音乐人袁惟仁去世,享年57岁
  20. 美国政府局部关门
  21. 2.5吨白银建造"永兴银楼"被拍卖,其中1.75吨折算1205万
  22. 濒死经验相似性高 人生观变正向
  23. Costco、Nike限量联名鞋,转手价疯涨数十倍
  24. 李婧——亚毫米波的追光者
  25. 法拉盛失踪多日的华裔女高中生 被发现公园身亡
  26. 2026大逃亡 富豪全球造地堡 普通人怎么办?
  27. 无人安全的军队 全军指挥中心只剩习近平会怎样
  28. 网疯传“张又侠写给习近平的信” 专家:明显假的!
  29. 余茂春:军委副主席难为 1949以来已9人遭清洗
  30. 这国让50万无证移民就地合法
  31. X负责人爆:中国局势不稳时 就会散播大量色情洗版
  32. 美俄乌三方会谈推迟
  33. 以“四个农业”推动乡村全面振兴
  34. 爱泼斯坦文件:300万页新公开档案到底披露了什么
  35. 美联储资产负债表应“尽可能精简”
  36. 皮肤问题总反复,“心情”可能是病因
  37. 金银暴跌后,都盯着周一中国开盘
  38. 华裔民权领袖遭活活打死 儿子下毒手还列愿望清单
  39. 伊朗警告地区冲突,川普保持军事选项
  40. 印度宣布建稀土矿产走廊 减少对华依赖
  41. 狂撒10亿红包,腾讯坐不住了
  42. 泽连斯基:2月4日举行三方会谈
  43. 黑森州恐迎剧烈降温,最低零下17度
  44. 美南部多州被冻住!3500万人被极端天气吞没
  45. 乔州一旅馆枪击案 造成警员一殉职一受重伤
  46. 艾泼斯坦是俄以间谍?疑设美人计陷阱 名流全栽了
  47. 偷拍新疆拘留营 中国公民记者“润”美获庇护
  48. 猛涨6000亿,紫金矿业又拿下4座金山
  49. 受害人裸照全看光!淫魔档案惊见近40张无码照,司法部急下架
  50. 消耗战下的乌克兰
  51. 张又侠遭清洗 川普总统怎么看
  52. 当前加密货币的氛围:保命要紧!
  53. 探索量子与经典的边界:首次测到7000量子干涉
  54. 宝可梦靖国神社办活动“辱华” 中国炸锅 官网致歉
  55. 第四架歼-36亮相了,有哪些新变化?
  56. 艾泼斯坦档案:惊现纽约市长曼达尼母亲名字
  57. 川普想在华府盖76米高拱门!超过巴黎凯旋门高度
  58. 逾百人丧生! 炸弹气旋袭美国 四州紧急状态
  59. 夏洛山:伊朗暴政正迎来美军舰队、午夜之锤
  60. 董明珠的言语经常惹争议,但是她做的事为何都做对了?