腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 张又侠儿子讲述父亲被关押情况 老军头斗胆为张刘喊冤
  2. 张又侠被抓 再有高级将领死讯遭延迟通报
  3. 王友群:高市早苗大赢 中共输在哪里?
  4. 纽约重夺全球披萨之都头衔
  5. 加护病房护士:临终病人都知道何时会死亡
  6. 回收火箭落海 中共官媒称“受控溅落”遭讽
  7. 谷爱凌摘银、刘美贤夺金 背后是中美价值观相争
  8. 组图:热带气旋重创马达加斯加 至少31死
  9. 喝热水、逛亚超,这些美国人为何想"成为中国人"?
  10. 纽时:喝热水逛亚超 美国年轻人为何想“成中国人”?
  11. 军工震荡 马兴瑞副手、国防科工局高官张建华被批捕
  12. 共和党6人倒戈!美众院219票通过"反川普对加拿大课税"案
  13. 新州昆州周末将迎强雷暴
  14. 海南封关后官民频爆冲突 村民吐心声
  15. 中国新年前倒闭 失业潮大爆发
  16. 盛雪:卡尼访华造成自由阵营的裂痕与极权的战略回血
  17. 为什么很多中国人都觉得“外国很危险”?
  18. 四大巨头抢购中国内存?
  19. 失业率最高的13个大学专业
  20. 加拿大校园枪案嫌犯身份、动机、武器全解读
  21. 俩俩失踪频发 河南32岁孕妇与7岁女儿同时失踪
  22. BBC:AI机器人会真的爱上你吗?
  23. 因未及时通报债务逾期 碧桂园被通报批评
  24. 宇宙新发现 首次证实暗物质天体存在
  25. 糖价腰斩,连梦龙也卖不动了
  26. 中央戏剧学院院长落马后 又一官员投案被查
  27. 百年施罗德,卖身美国资管巨头
  28. 华美银行集团去年净利创纪录13亿
  29. 被男子“撩”,梅拉尼娅提醒女孩们要“小心点”
  30. 美众院通过选举法案 要求选民出示身份证
  31. 对华非法出口芯片设备 应用材料被罚2.52亿
  32. EIA:美国去年电动车销量减 混动车续成长
  33. 遭体操教练打骂索财 浙13岁少女跳楼致重伤
  34. 网传私密影像侵害加州人 两党议员提案追责
  35. 站不稳10秒=7年内死亡风险翻倍?
  36. 上海警备区高层震荡 司令换人政委空缺
  37. 小屁孩改名热点,害两百多人差点丢命
  38. 才揭川普支持度剩36% 盖洛普宣布“结束总统民调”
  39. 佩戴含牺牲运动员照片头盔 奥委会取消乌选手资格
  40. 刘建超传遭降级处理 中联部人事接连变动
  41. 中欧有关世贸争端案件,答记者问
  42. 盖洛普终止总统支持率民调 近九十年传统落幕
  43. 高市加速扩军,防卫省内部人士担心
  44. 你吃的全麦面包纯不纯?看这里就知道
  45. 川普政府将于广州APEC峰会推广牵制中方海权技术
  46. 豁免权没了 挪威前总理卷入爱泼斯坦案 住家遭搜索
  47. 【百年真相】从三大事件观中南海变局
  48. 决议通过:反对川普对加国加征关税
  49. 深圳一公司年会送出5套房
  50. GLM-5登顶全球开源第一
  51. 上海地铁施工区塌陷 官方称“局部渗漏”惹议
  52. 北约防长会议 聚焦欧洲防卫转型
  53. 川普3月7日主持拉美峰会
  54. 金正恩女儿金主爱接班地位确立?韩国情报院评估出现关键转变
  55. 川普废除奥巴马时代气候政策 买新车可省$2400
  56. 美航多个工会不满营运表现 空服员举行抗议
  57. 大陆知名相声演员被法院执行悬赏公告引关注
  58. 美国生活费高企 近900万人身兼多职 有人不敢病
  59. 立陶宛总理:“台湾代表处”更名不影响支持民主
  60. 趁中共高层整肃之际 CIA发影片招募解放军军官线人