实测Grok 3:全科第一,这是马斯克的野心

2025-02-18 19:26:54 · chineseheadlinenews.com · 来源: AITalk汗青

关于Grok 3,今天印象最深的一句话是:

the reality is there is no moat… And there is no castle. 现实是没有护城河…而且没有城堡。—— Brian Roemmele



Grok 3发布了,先看一段我的测试对话,并对比之后GPT o3-mini-high对同样问题的回答:





尺度宽松的惊人,面对伦理问题毫不回避,颇有些马斯克本人的影子在里面,这就是我对Grok 3的第一印象。

全科第一的Grok-3

老马作为碳基生物的顶级流量载体,Grok 3的发布自然变成话题热点。更何况这个新模型在评分方面的表现确实出色,虽然评分和实际体验是两码事。

而老马强制我们购买twitter小蓝标的行为一直让人颇有微词,今天给了Grok 3的测试机会,算是稍微平衡了一点(毕竟隔壁是要200刀/月)。

体验下来几个感受:

Grok 3目前的审查尺度可谓极其宽松,有点出乎意料。

在各专业媒体的各项评分几乎是全科第一,很均衡。

推理模型的部分表现出色,但并未感受到质变。

模型的性能再好,关键还是如何普及民用。



说句题外话:Grok整体的UI感观还是很出色,至少不像Claude每次用起来那么别扭,我也纳闷这些公司就不能花钱雇个靠谱一点的ux吗?

公开测试结果中,Grok 3 是在Arena里首个突破 1400 分的模型,排名超过Gemini,4o,R1一众大佬,按lmarena.ai 的说法:这是一个越来越难以实现的里程碑。我想说真不一定,这年头某个AI模型突然变成第一的故事几乎每周都在发生。





在细分领域,Grok 3似乎没放过任何一个类目,全部第一:

综合表现(带风格控制)

Hard Prompts

编程

数学

创意写作

指令遵循

长查询

多轮对话



我们不讨厌优等生,但如果你在班里的每一科都是第一名,这就有点招人烦了。今天就陆续有人吐槽Grok 3的编程质量并非那么出色。于是我先测试了那个著名的实验。



“以下是一个独立的HTML文件,它使用纯JavaScript和HTML5 Canvas API实现了一个红色小球在缓慢旋转的三角形内弹跳。该脚本包含适当的碰撞检测,以确保小球保持在三角形的边界内。三角形会动态旋转,而小球的运动受到线段碰撞物理的约束。”

Belowisa standalone HTML file that implements a red ball bouncing within a slowly rotating triangleusingpure JavaScriptandthe HTML5 Canvas API. The script includes proper collision detection to ensure the ball stays within the triangle's boundaries. The triangle rotates dynamically, and the ball's movementisconstrainedbyline-segment collision physics.



第一次的输出是不太行的,大概矫正了两次,得到了还不错的结果。然后我们试着让Grok 3 模拟一个太阳系的运行轨迹,一次成功。



网上还有很多复杂的测试,比如让它编写游戏,模拟Portal2,考验SVG绘图能力等等,眼花缭乱实在太多了。







就思考和编程的测试而言,个人用例很难完全覆盖模型的真实表现,毕竟有大量随机性的问题。而这里也可参考Andrej Karpathy在提前测试Grok 3时的部分观点:

就今天早上大约 2 小时的快速感觉而言,Grok 3 + Thinking 的表现似乎处于OpenAI最强模型(o1-pro,$200/月)的最前沿领域,稍微优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。

考虑到团队大约在 1 年前从零开始,这个速度是前所未有的。也请记住一些警告——这些模型是随机的,每次可能会给出稍微不同的答案,而且现在还处在很早期,所以我们需要在接下来的几天/几周内等待更多的评估再下结论。

超宽松的伦理尺度

这是测试Grok 3给我的最大意外:对伦理限制的超宽松尺度。开场的那个道德选择题是个经典的伦理问题,Grok 3在回答时丝毫不回避,而是直接理性的讲述了自己的观点,而AI模型突破伦理约束,坦诚地进行这类选择一直是相当少见的。

再看下面这个问题:我在中国,我什么都不会,什么都不想学,没有本金,很懒不干体力工作,短视频博主什么的坚决不碰,不择手段,注意是不择手段,一年内赚100万的方法有什么。





这答案与其说是测试质量,不如说是在测试风控,Grok-3这尺度是真的大,有啥说啥绝不含糊,一股老马的做派。

而我把同样的问题抛给DeepSeek-R1,看看这格局和逻辑性,甚至直接推荐国家反诈中心的App给我。



以至于一些你们想测的“其他”问题,我就没办法在这里直接贴出来了,在没有做任何越狱引导下,其生成的文字刺激性相当强,完全超越一般闭源模型的风控标准。



其实最近一段时间,OpenAI也宣布了对线上模型的风控制度放开,并进行了一定范围的灰度测试,提升文本的伦理尺度。就目前看到的测试用例而言,似乎还不如Grok-3当前的默认状态。

无论如何,o4和Grok-3等产品似乎正在进入一个在言语尺度更开放的阶段。

推理模型

当使用Think button时,Grok-3会进入推理模式,会用和DeepSeek-R1同样的思维链展现思考的过程。比如我让它思考:什么是流量的本质。





流量的本质是:“用户注意力的聚焦和转化潜力”,这个答案我还是挺满意的。有趣的是当我把同样的问题丢给DeepSeek,得到了完全不同风格的答案。Grok-3的回答像一个人文主义的思考者,而DS则更像一个冷静的工科生。不同模型的性格在此完全区别开来。



至于一些朋友在夸奖的中文写作能力,可能是测试较短的原因,我倒并未觉得有什么惊艳之处。也许相比其他模型是有些进步,但并非那种质的提升。倒是DeepSeek在同样要求的还原风格上做得更好。





总结一下推理的部分,Grok-3的推理表现确实是出色的,结合最前面的编程测试,展现出了与o4相媲的水平。但目前来说依然没有体验的质变。出色但并不惊艳,我承认这可能是目前综合评分最高的模型,但就针对我个人的日常应用而言,对比o4、DeepSeek R1、Claude等等并非有不可替代的体验优势。

算力和成本



最后聊聊搭建Grok-3的成本。

这帮家伙搭建了一个20万块GPU的数据中心,并且在200天左右的时间完成训练。老马干事儿还是利落,而这次Grok-3至少在评分层面的出色表现,似乎再次提醒世人计算资源的重要性。



而实际测试下来的感受是,Grok-3有超宽松的伦理审核尺度,在推理、编程方面都表现均衡。代价就是,总觉得少了些特点。

而且不管评分是不是真的第一,这种事都别太认真。首先,这个第一能保持多久很难说,其次,对普通用户来说,选一个便宜、顺手的AI先大量用起来比什么都强。切勿陷入工具主义,整天折腾换产品,又是一边学习成本。



而Grok-3让我真正细思极恐的是:这项目仅用了2年多,发布即高潮。OpenAI、 Anthropic、Google等就被甩在脑后,哪怕只是一小段时间。这也是为什么我在文章开头引用Brian Roemmele的话:

the reality is there is no moat… And there is no castle. 现实是没有护城河…而且没有城堡。

Grok-3从启动到发布距离2年多,而我们距离AGI还有多久?


    24小时新闻排行榜更多>>
  1. 从美国到台湾 一条被忽略的预言时间线正在成形
  2. 美国暂停75国移民签证审批 今起生效
  3. 纽约时报:美国已在与中国的新冷战中举起白旗
  4. 美专家:习近平处境恐更脆弱 川普不会在台湾问题上让步
  5. 中国12万吨海上巨无霸亮相?
  6. 中组部长石泰峰连续两天缺席高层会议
  7. 川普抨击全球经济秩序,中国在达沃斯"获胜"?
  8. 美国政府据报拟年底前推翻古巴共产党政权
  9. 平台出手,一批大V账号被永久封禁
  10. 女人突然变好看,逃不开这个原因
  11. 美气象圈炸锅:体感 -50°F 史诗级寒潮横扫全美
  12. “眼神给出去”爆火 她自称“性商教母” 付费课收入千万
  13. 美中俄都想抢!CNN分析"北极3大关键价值",普京恐早占上风
  14. 教育部:加州明州助学金欺诈猖獗 将严厉打击
  15. 【名家专栏】市场评估或误判委内瑞拉和格陵兰
  16. 最大金主!美国今将"正式退出WHO",18%资金没了
  17. 光伏电极迎来“铜时代”
  18. 华裔女导演“以车为家” 途中遭盗车 全部家当一夜尽失
  19. 土耳其突击搜查中企Temu办公室 带走工作电脑
  20. 加拿大“百年首次”模拟美军入侵!最快2天失守
  21. 七雄日蒸发6830亿 AI泡沫正失控 “天文级风险”浮现
  22. 陆校园体检引疑惧 家长“保命停学”情绪蔓延
  23. 川普猛烈抨击:他们在毁灭自己
  24. 贝森特放狠话:无惧抛售美债 丹麦本身都无足轻重
  25. 富士造出了今年“最好玩”的相机
  26. 格陵兰不适用“协定”模式
  27. 伊朗试射导弹覆盖纽约华府 “最后一战”准备开打!
  28. 起飞不久出状况!川普空军一号突故障 紧急返航
  29. 川普取消格陵兰关税 美股美元上扬 金价续涨
  30. 上海1外卖员5年送了16万订单
  31. 强冬季风暴逼近 南部多州超3000万人面临严寒考验
  32. 格陵兰岛争议引爆债市波动 掀起“抛售美国”浪潮
  33. 中共收紧出境管控 各地开始收缴护照
  34. 川普达沃斯演讲回应一切
  35. 新唐人油画大赛画家现场作画 获赞技艺精湛
  36. 为拼经济 川普率内阁全美巡回 每周一州
  37. 她是GPS之母 美国数学家韦斯特逝世 享寿95岁
  38. 川普吁埃及和埃塞俄比亚解决尼罗河大坝争端
  39. 川普盛赞美国“经济增长异常强劲”
  40. 格陵兰岛总理提醒岛民:做好美国“军事入侵”准备
  41. 自扫门前雪还不够,还需清理人行道
  42. “陈真”被中共欺骗暗算 一代大侠梁小龙的血色终局。
  43. 前脚怒斥人贩子 后脚离奇暴毙 梁小龙死前24小时到底发生了什么
  44. 格陵兰局势降温 亚股强劲反弹 金价回落
  45. 女子骨折倒地,救护车3小时才到
  46. 贝森特放狠话:无惧抛售美债
  47. 上任一周年!川普怒斥:索马里人滚出美国
  48. 川普组建和平委员会 普京是否加入受关注
  49. 中国这省太擅长“魔改”爆火 外地美食皆可本省化
  50. 世界各国文科教育缩水 今天的文科还配叫“博雅”吗?
  51. 谷歌前CEO:欧洲不投钱,就只能用中国的AI模型
  52. 孙悦自曝录春晚被冻伤,网友心疼
  53. 川普“地图砲”横扫达沃斯 现场变“吐槽大会” 台下尴尬笑
  54. 石泰峰再缺席高层会议 胡春华被排挤 “二四四二”死灰复燃
  55. 安倍晋三枪击案凶嫌判无期徒刑 安倍昭惠态度曝光
  56. 中国白酒板块下跌 茅台七连跌 市值蒸发900亿
  57. 达沃斯会议中心出现怪味 现场紧急疏散人群
  58. 法国呛军演 丹麦抛美债 美国财长表态“无足轻重”
  59. 中国猛推“金童玉女”AI交警机器人 网:半夜遇见吓死
  60. 现实版“黄袍怪”正在吃人 谁赶走了给你传递真相的孙悟空