谷歌地表最强模型,发布即屠榜

2025-03-25 18:25:33 · chineseheadlinenews.com · 来源: 新智元

Gemini 2.5 Pro,刚刚深夜上线了!这个“思考”模型专为复杂任务打造,推理能力强大,一经诞生就横扫各大榜单、拿下各类TOP 1,还创下了历史上最大分数飞跃纪录。

就在刚刚,谷歌的全新模型Gemini 2.5 Pro,果然深夜上线了!

Gemini 2.5 Pro是一个“思考”模型,能够在回应前先进行思考推理,从而提升性能,并改善准确性。

谷歌称,它是世界上最强大的模型,具备统一的推理能力,以及用户所喜爱的Gemini的所有功能(长上下文、工具等)。

它在多个基准测试中达到了SOTA水平,并且以显著的优势在LMArena上排名第一。

现在,Gemini 2.5 Pro已经登顶了Arena排行榜的第一位,而且创下了历史最大分数飞跃,比Grok-3/GPT-4.5整整高出了40分!

在代号“nebula”的测试中,它也横扫所有类别夺得第一,并且独揽数学、创意写作、指令遵循、长查询和多轮对话五大领域的冠军!

在困难提示词和编程两大领域,它与Grok-3/GPT-4.5拿到了并列冠军,而且在所有其他比拼中都以微弱优势胜出,成功问鼎榜首!

此外,Gemini 2.5 Pro还成功登顶了视觉竞技场(Vision Arena)排行榜榜首!

在网页开发领域,它也同样大放异彩,成功斩获网页开发竞技场(WebDev Arena)亚军宝座!

它是首个实力媲美 Claude 3.5 Sonnet 的模型,相比之前版本的Gemini更是实现了质的飞跃。

这一次,谷歌的模型又展现出巨大的飞跃,OpenAI、Anthropic、DeepSeek等竞争对手,在多久时间内会赶上?

目前,Gemini 2.5 Pro已在Google AI Studio和Gemini应用中,向Gemini Advanced用户开放,并将很快在Vertex AI上推出。

而它的定价方案,会在未来几周内公布,用户可以在更高使用配额下,将模型应用于大规模生产环境。

网友实测后发现,它果然实力惊人,在所有模型中效果拔群,第一次尝试就只用几秒解决了一道难题。

Gemini 2.5 Pro上线!

谷歌表示,在AI领域,系统的“推理”能力不仅仅指分类和预测,而是指系统分析信息、得出逻辑结论、融入上下文和细微差别,以及做出明智决策的能力。

长期以来,谷歌一直在探索通过强化学习和思维链提示词等技术,让AI更智能、更具推理能力的方法。

正是在此基础上,他们在2月推出了第一个思考模型,Gemini 2.0 Flash Thinking。

而今天,通过Gemini 2.5,他们结合了显著增强的基础模型和改进的后期训练,让模型达到了新的性能水平。

推理和代码能力大幅提升

Gemini 2.5 Pro展现出了强大的推理和代码能力,在常见的编程、数学和科学基准测试中均处于领先地位。

另外,在各类需要高级推理能力的基准测试中,它都达到了SOTA水平。

无需使用测试阶段会增加计算成本的技术(如多数投票法),2.5 Pro就能在GPQA和 AIME 2025等数学和科学基准评测中表现卓越。

而且,在不使用任何外部工具的条件下,它就在挑战人类知识和推理能力的极限前沿“人类最后的考试”中取得了18.8%的准确率,达到业界领先。

在编程能力上,Gemini 2.5相比2.0版本也实现了质的飞跃,而这,仅仅是个开始。

2.5 Pro在创建视觉精美的网页应用和AI智能体代码应用方面都表现卓越,在代码转换和编辑领域中,也同样实力出色。

在智能体代码评估的行业标准测试SWE-Bench Verified上,Gemini 2.5 Pro靠使用自定义智能体配置,就获得了63.8%的优异成绩。

以下这波demo,就展示了Gemini 2.5 Pro如何运用强大推理,仅通过一行提示词,就能生成可执行代码,来创建完整的动画和游戏。

在下面这个demo中,仅仅根据下面这行prompt,它就生成了一段p5js的交互式动画,展示了“宇宙鱼”的场景,并且还显示了鱼们都在想什么。

它还根据以下prompt,生成了一个无限的恐龙跑酷游戏。

按照要求,它生成了像素化的恐龙图像和有趣的游戏背景。

随后,Gemini 2.5 Pro还通过编程实现了分形可视化。

它创建出了精细分形图案的模拟程序,展现出了神奇的曼德布洛特集合。

此外,它还能构建一个交互式气泡图,直观展示出了每个大陆的经济与健康指标随时间的变化。

或者用一段交互式的Javascript动画,展示了旋转六边形内多彩的人工生命群体,并且按要求做成了“超新星星云”的感觉。

另外,它还能开发粒子系统模拟,给出了一个HTML文件,创造出了反射星云的沉浸式交互模拟场景。

原生多模态和超长上下文

Gemini 2.5继承并发扬了Gemini 模型的优势——原生多模态能力和超长上下文长度。

自己发布之初,2.5 Pro就支持100万token的上下文窗口(而200万token也即将推出!),性能显著超越了前代模型。

这能让它理解海量数据集,并处理来自多种信息源的复杂问题,包括文本、音频、图像、视频,甚至完整的代码仓库。

最后,既然谷歌已经掏出了地表最强模型,接下来,就让我们坐等OpenAI的反应了。


    24小时新闻排行榜更多>>
  1. 中企在赞比亚因“生态灾难”遭起诉 金额达800亿美元
  2. 今年首次!美联储降息1码 预计年内还降两次
  3. 微软在华产品又被曝留后门
  4. 那个睡网吧的躺平小A,怎么就突然消失了?
  5. 【佳音时刻】非裔男生入住女宿 重庆高校惹议
  6. 尚不含在校学生 中国官方数据:青年失业率18.9%
  7. 大陆一公司集体降薪 最多降50% 引发争议
  8. 湾湾怎么总出邪门CP?
  9. 英王举行国宴 大赞川普 强调英美“最密切关係”
  10. 中国拟购500架波音飞机 川普访中“最后谈判阶段”
  11. 德国小伙在中国贫困山区支教10年,然后他去哪了
  12. 房子何时买卖?专业预测加州2026年房市
  13. 最阴毒大佬自订潜规则 送正派老婆来睡才办事
  14. 川普政府援乌解方:北约出资,美国出货
  15. 美国仅派出国防武官出席香山论坛
  16. “你们这样玩死我”于朦胧死前被吊窗外 绝望哭喊引来邻居
  17. 波兰关闭边境 数百中欧班列受阻 王毅游说被拒
  18. 为什么美国的电价上涨这么快?
  19. AI应用快速渗透 引爆美国电力荒!核能重返C位
  20. 中国下令停止采购辉达芯片 美众议长批加剧紧张
  21. 美联储降息了,释放何种信号?
  22. 于朦胧猝逝爆潜规则 葛斯齐揭“北京淫乱派对”内幕 网:细思极恐
  23. 2025年美国电价创下历史新高
  24. 华裔女学生公开挺政治暗杀 美民众:遣返回国
  25. 河南一公职人员霸占农地修坟 村民投诉无果
  26. 满天全是窟窿眼 大灾要来了?
  27. 加州议会通过堕胎药法案 允许医患保持匿名
  28. 三男子被ICE带走,有人被电击受伤
  29. 美国新版公民考试难度加大 采用口试
  30. 美联储会时隔九月降息,鲍威尔重申决策独立
  31. 美国入籍考试变难 题库题量双增 纳入这些新内容
  32. 中国138个收缩型城市名单,是如何出炉的?
  33. 异常信号 习近平“角色”改变 马云强势回归
  34. 分析:中共办香山论坛自娱自乐 西方冷眼观察
  35. 史无前例的抛售大潮,席卷中国各大城市
  36. 中共放宽外资购房限制 专家:难挽楼市颓势
  37. 德媒:欧美效法中国产业政策 不得要领 学错了重点
  38. 崇祯一朝灾祸有多严重?让我们看看历史的记载
  39. 唐元隽从“六四英雄”变“北京间谍” 中共渗透知道少
  40. 曼哈顿2赌场提案遭否决
  41. 日本台湾交流协会访团:日台都面临中共威胁
  42. “俩俩”同时失踪 贵州四川等多地大男孩失联
  43. 美联储降息 美四大银行同步下调优惠利率
  44. 华裔女生引毛语录 主张政治暗杀遭肉搜 网:遣返她
  45. “六四英雄”变“北京间谍” 唐元隽案揭露中共渗透
  46. 中国高校畸形经费指标逼教师“贷款上班”
  47. 消息人士:美国投资者财团 将掌握TikTok运营大权
  48. 鹰击-20的射程和速度,让敌人闻风丧胆
  49. 广西书记佩戴的“广西生产”AI眼镜爆火
  50. 奥巴马:美国正处于团结或分裂的转捩点
  51. 河南等省爆发猪盖塔病毒 死亡率极高正向全国蔓延
  52. DeepSeek论文Nature,作者梁文锋
  53. 批评党委书记 湖南媒体人尹建根遭批捕
  54. 川普“自己人”,投下唯一一张反对票
  55. 一场思想的巨震,正在美国发生
  56. “共产党是黑社会”重庆小学强制学生买书家长怒吼
  57. 当电视台不再播放商业广告之后,我问:为什么?
  58. 川普致信新公民:美国始终欢迎......
  59. 组图:柯克在犹他谷大学遇害 致哀者络绎不绝
  60. “九一八事变”94周年 深圳日本人学校停课