腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. Space X的护城河
  2. 中共2026年将继续发行超长期特别国债
  3. 全球央行10月净买入49吨黄金
  4. 美科学院官宣人类必须亲自登火星
  5. 何晴去世,人们在怀念什么?
  6. 中共推灵活就业者买职工保险 分析:填社保窟窿
  7. 江西南丰县国道再发生一起交通事故 致4人死
  8. 可再生能源板块成美股大赢家
  9. 甘肃山体滑坡致45房被埋 官媒4天才报无伤亡遭轰
  10. 1年烧掉50亿吨,石油还能撑几年?
  11. 舍命拍下新疆集中营铁证 流亡美国的中国青年恐遭遣返
  12. 对冲基金冲入大宗商品实物资产
  13. 商务部等三部门:更大力度提振消费
  14. 我从哆啦A梦看懂了日本“陪伴式教育”
  15. 从中国出发 未抵达伊朗:美军一次高调的海上拦截
  16. 人的一生只能吃9吨食物?
  17. 华尔街罕见示警:2026年最大风险
  18. 骇人命盘 三大凶相同时引爆 2026清算启动
  19. 斯塔默准备任命新任驻美大使
  20. 柏林和谈启动 美推乌克兰2027入欧 欧盟冻结俄7.8兆资产
  21. 中国东部战区用“东倭”称日本,路透社这样翻译
  22. 医生将在“超级流感”高峰大罢工 英国首相急发文
  23. 行家才知道的几个秘诀 搭机时可派上用场
  24. 组图:摄影师捕捉到银河系的壮丽瞬间
  25. 利用明星演唱会牟利,2人获刑
  26. 光伏协会,为何要亲自下场参与产能收储?
  27. 因为一个骚操作,印度的反诈APP被全民抵制了
  28. 格鲁吉亚冬季深度游全攻略
  29. 巴黎圣母院新彩窗丑到违法?30万法国人签名起诉
  30. 接连发生坠机事故!美军承认:存在重大内部问题
  31. 这么多年了,孙正义可以忘掉马云了吧?
  32. 北京公示2个2025年拟支持项目
  33. 美媒爆料:美英贸易协议遇阻
  34. OpenAI取消“期权授予期”
  35. 芬兰选美冠军做眯眯眼手势 因歧视中国人被撤头衔!
  36. 中国大亨赴美,狂生超100个孩子
  37. 最后两周!Costco年底积分清零前的3个省钱关键
  38. 中驻悉尼总领馆发布提醒
  39. 泰总理:柬火箭弹炸断民众的手脚
  40. 广州推出“保交房房票” 烂尾楼安置引关注
  41. 两个习惯成就工程师的富豪之路 你想借鉴吗
  42. 华尔街投行:明年更大的风险是这个
  43. 布朗大学受困学生,被警车转移体育馆
  44. 女教师新婚当天坠楼,与逼婚有关?
  45. 奥特曼慌了,GPT-5.2降智遭全网差评
  46. 中共政治宣传踢铁板 重映台抗日电影票房惨败
  47. 悉尼枪击案16死40伤,两嫌犯是父子
  48. 何晴廖京生恋情真相揭秘
  49. 暮年得子,范曾最后一方闲章的意义
  50. 澳洲海滩枪案升至12死
  51. 沈睡海底万年 亚特兰蒂斯之谜
  52. 台湾正从传统载台对抗 转向灵活的不对称防卫
  53. “花了钱却看不到人”!梅西印度行,爆发骚乱
  54. 世界最宜居十大城市,BC省崭露头角
  55. 一个“荒野求生”火了,千万个“谎野求生”都出来了
  56. 川普说漏嘴,俄罗斯挖出CIA间谍?
  57. 李传良的逃亡与监控人生:逃到美国荒漠 也逃不掉…
  58. 重大转向!乌克兰放弃北约换和平 泽伦斯基松口…
  59. 玻利维亚转向美国 摆脱左翼路线与对华依赖
  60. 知名海滩11死29伤,2名枪手扫射人群