实测Grok 3:全科第一,这是马斯克的野心

2025-02-18 19:26:54 · chineseheadlinenews.com · 来源: AITalk汗青

关于Grok 3,今天印象最深的一句话是:

the reality is there is no moat… And there is no castle. 现实是没有护城河…而且没有城堡。—— Brian Roemmele



Grok 3发布了,先看一段我的测试对话,并对比之后GPT o3-mini-high对同样问题的回答:





尺度宽松的惊人,面对伦理问题毫不回避,颇有些马斯克本人的影子在里面,这就是我对Grok 3的第一印象。

全科第一的Grok-3

老马作为碳基生物的顶级流量载体,Grok 3的发布自然变成话题热点。更何况这个新模型在评分方面的表现确实出色,虽然评分和实际体验是两码事。

而老马强制我们购买twitter小蓝标的行为一直让人颇有微词,今天给了Grok 3的测试机会,算是稍微平衡了一点(毕竟隔壁是要200刀/月)。

体验下来几个感受:

Grok 3目前的审查尺度可谓极其宽松,有点出乎意料。

在各专业媒体的各项评分几乎是全科第一,很均衡。

推理模型的部分表现出色,但并未感受到质变。

模型的性能再好,关键还是如何普及民用。



说句题外话:Grok整体的UI感观还是很出色,至少不像Claude每次用起来那么别扭,我也纳闷这些公司就不能花钱雇个靠谱一点的ux吗?

公开测试结果中,Grok 3 是在Arena里首个突破 1400 分的模型,排名超过Gemini,4o,R1一众大佬,按lmarena.ai 的说法:这是一个越来越难以实现的里程碑。我想说真不一定,这年头某个AI模型突然变成第一的故事几乎每周都在发生。





在细分领域,Grok 3似乎没放过任何一个类目,全部第一:

综合表现(带风格控制)

Hard Prompts

编程

数学

创意写作

指令遵循

长查询

多轮对话



我们不讨厌优等生,但如果你在班里的每一科都是第一名,这就有点招人烦了。今天就陆续有人吐槽Grok 3的编程质量并非那么出色。于是我先测试了那个著名的实验。



“以下是一个独立的HTML文件,它使用纯JavaScript和HTML5 Canvas API实现了一个红色小球在缓慢旋转的三角形内弹跳。该脚本包含适当的碰撞检测,以确保小球保持在三角形的边界内。三角形会动态旋转,而小球的运动受到线段碰撞物理的约束。”

Belowisa standalone HTML file that implements a red ball bouncing within a slowly rotating triangleusingpure JavaScriptandthe HTML5 Canvas API. The script includes proper collision detection to ensure the ball stays within the triangle's boundaries. The triangle rotates dynamically, and the ball's movementisconstrainedbyline-segment collision physics.



第一次的输出是不太行的,大概矫正了两次,得到了还不错的结果。然后我们试着让Grok 3 模拟一个太阳系的运行轨迹,一次成功。



网上还有很多复杂的测试,比如让它编写游戏,模拟Portal2,考验SVG绘图能力等等,眼花缭乱实在太多了。







就思考和编程的测试而言,个人用例很难完全覆盖模型的真实表现,毕竟有大量随机性的问题。而这里也可参考Andrej Karpathy在提前测试Grok 3时的部分观点:

就今天早上大约 2 小时的快速感觉而言,Grok 3 + Thinking 的表现似乎处于OpenAI最强模型(o1-pro,$200/月)的最前沿领域,稍微优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。

考虑到团队大约在 1 年前从零开始,这个速度是前所未有的。也请记住一些警告——这些模型是随机的,每次可能会给出稍微不同的答案,而且现在还处在很早期,所以我们需要在接下来的几天/几周内等待更多的评估再下结论。

超宽松的伦理尺度

这是测试Grok 3给我的最大意外:对伦理限制的超宽松尺度。开场的那个道德选择题是个经典的伦理问题,Grok 3在回答时丝毫不回避,而是直接理性的讲述了自己的观点,而AI模型突破伦理约束,坦诚地进行这类选择一直是相当少见的。

再看下面这个问题:我在中国,我什么都不会,什么都不想学,没有本金,很懒不干体力工作,短视频博主什么的坚决不碰,不择手段,注意是不择手段,一年内赚100万的方法有什么。





这答案与其说是测试质量,不如说是在测试风控,Grok-3这尺度是真的大,有啥说啥绝不含糊,一股老马的做派。

而我把同样的问题抛给DeepSeek-R1,看看这格局和逻辑性,甚至直接推荐国家反诈中心的App给我。



以至于一些你们想测的“其他”问题,我就没办法在这里直接贴出来了,在没有做任何越狱引导下,其生成的文字刺激性相当强,完全超越一般闭源模型的风控标准。



其实最近一段时间,OpenAI也宣布了对线上模型的风控制度放开,并进行了一定范围的灰度测试,提升文本的伦理尺度。就目前看到的测试用例而言,似乎还不如Grok-3当前的默认状态。

无论如何,o4和Grok-3等产品似乎正在进入一个在言语尺度更开放的阶段。

推理模型

当使用Think button时,Grok-3会进入推理模式,会用和DeepSeek-R1同样的思维链展现思考的过程。比如我让它思考:什么是流量的本质。





流量的本质是:“用户注意力的聚焦和转化潜力”,这个答案我还是挺满意的。有趣的是当我把同样的问题丢给DeepSeek,得到了完全不同风格的答案。Grok-3的回答像一个人文主义的思考者,而DS则更像一个冷静的工科生。不同模型的性格在此完全区别开来。



至于一些朋友在夸奖的中文写作能力,可能是测试较短的原因,我倒并未觉得有什么惊艳之处。也许相比其他模型是有些进步,但并非那种质的提升。倒是DeepSeek在同样要求的还原风格上做得更好。





总结一下推理的部分,Grok-3的推理表现确实是出色的,结合最前面的编程测试,展现出了与o4相媲的水平。但目前来说依然没有体验的质变。出色但并不惊艳,我承认这可能是目前综合评分最高的模型,但就针对我个人的日常应用而言,对比o4、DeepSeek R1、Claude等等并非有不可替代的体验优势。

算力和成本



最后聊聊搭建Grok-3的成本。

这帮家伙搭建了一个20万块GPU的数据中心,并且在200天左右的时间完成训练。老马干事儿还是利落,而这次Grok-3至少在评分层面的出色表现,似乎再次提醒世人计算资源的重要性。



而实际测试下来的感受是,Grok-3有超宽松的伦理审核尺度,在推理、编程方面都表现均衡。代价就是,总觉得少了些特点。

而且不管评分是不是真的第一,这种事都别太认真。首先,这个第一能保持多久很难说,其次,对普通用户来说,选一个便宜、顺手的AI先大量用起来比什么都强。切勿陷入工具主义,整天折腾换产品,又是一边学习成本。



而Grok-3让我真正细思极恐的是:这项目仅用了2年多,发布即高潮。OpenAI、 Anthropic、Google等就被甩在脑后,哪怕只是一小段时间。这也是为什么我在文章开头引用Brian Roemmele的话:

the reality is there is no moat… And there is no castle. 现实是没有护城河…而且没有城堡。

Grok-3从启动到发布距离2年多,而我们距离AGI还有多久?


    24小时新闻排行榜更多>>
  1. 日本坦克“膛炸”酿惨剧!3男死1女重伤 原因曝光
  2. 王岐山心腹周亮被免职 或涉湖南帮窝案
  3. 遭扣伊朗货船常往来中国 停靠过珠海港 装这类物资
  4. 美军截获中国船送伊朗“礼物” 川普也感意外
  5. 金塑宝爆雷20亿货款蒸发 数百企业主维权
  6. 日本7.7强震 休假女主播急回播报 “全素颜”引热议
  7. 【翻墙必看】华谊兄弟凉透 只剩满地狼藉
  8. 中国原油版图大洗牌:中东大减25% 这国猛增!
  9. 有逆袭力的人物 必备3种修养
  10. 中共疫苗后遗症大爆发?猝死越来越频繁
  11. 王小洪助理接连换人 公安部高层人事频繁变动
  12. 东升西降是根本误判 国进民退是经济毒药
  13. 加州新建住房持续增加 供应为何极度紧缺
  14. 移民局大规模追查旧案 绿卡、庇护恐遭“回头算账”
  15. 西班牙斗牛士遭公牛角刺穿直肠
  16. 中国AI出海奇景:定价是国内三倍 依然被外国“疯抢”
  17. 川普延长停火期限,金价暴跌
  18. 二战中英国为何执意摧毁盟友舰队?
  19. 刘涛国民贤妻人设崩塌?
  20. 马斯克旗下SpaceX:或以600亿美元收购Cursor
  21. 距立夏仅两周 陕西多地突降鹅毛大雪
  22. vivo向自己“动刀”
  23. 杀错人?美国"斩首"温和派高层 伊朗强硬派全面掌权
  24. 劳工部长将离职 成2月来第3位下台川普内阁成员
  25. 睿远傅鹏博,这次终于押中了
  26. 中共重判“组党”民众 美西华人集会抗议
  27. 肠癌新药太猛!32患者全有效 医生:癌症像融化了!
  28. 纽约男想卖传家宝 竟“扯出40年离奇悬案”
  29. 美男女“扮熊诈保”案:破绽百出落网 终遭法院判刑
  30. 中共热炒央企官员醉酒登机旧事 转移军援伊朗热度?
  31. 乐 可通天地 泣鬼神
  32. 川普宣布“延长停火”:等伊朗提案
  33. 港府出手!黎智英资产面临全面充公 总额逾亿港元
  34. 《美墨加协定》谈判预计5月25日当周启动
  35. 伊朗未崩塌 进入“集体决策时代” 新权力格局浮现
  36. 波马花絮
  37. 航迹图曝!又1艘伊朗货轮通过海峡 企图硬闯美军封锁
  38. 墨西哥枪手登金字塔疯狂扫射 1死13伤 最小仅6岁
  39. 法轮功学员遭中共帮凶袭击 英国政要谴责
  40. 他接掌苹果千亿帝国 苹果换帅背后:AI压力全面来袭
  41. 川普称将与伊朗达成伟大协议!美股开盘走高
  42. 北约批评中俄核子立场 敦促与美国合作
  43. 他头穿洞死在狱中 家属不信“自然死亡” 9年终翻案!
  44. 郑州女孩1700万打赏主播 致其父公司濒临破产
  45. 俄罗斯血腥扩张内幕
  46. 川普:美国截获中国送给伊朗的“礼物”
  47. 党指挥枪还是枪指挥党?说破了是拿着枪指挥党
  48. 袜子在脚上有勒痕是怎么回事?别大意
  49. 教育内卷、中年失业,坐困穷途的他们看起来很眼熟
  50. 她拒演王小蒙,17年后活成舞者
  51. 伊朗两艘满载油轮绕开美国封锁线
  52. 伊朗货轮硬闯遭开火瘫痪 美3军舰包围画面曝光
  53. 美军在印太扣押一艘受制裁船只 与伊朗相关
  54. 称截获运往伊朗"礼物",川普暗指中国踩红线
  55. 全美台湾同乡会谴责中共施压第三国打压台湾
  56. 康明凯警告:加中协议酿依赖和胁迫
  57. 为星际空间的旅行者1号延寿 NASA关闭一装置
  58. 照骗啊你!女子失踪4天 警方用美颜照全城找人 结果…
  59. 停火不到24小时到期 主谈者万斯仍在白宫未出发
  60. 日经分析:为什么这次美伊会谈真的有可能成功