马斯克的Grok 4.3悄悄上线

2026-05-02 07:25:32 · chineseheadlinenews.com · 来源: 新智元

Grok 4.3 是 xAI 一次务实升级:更便宜、更快、更像能干活的助手。但它在硬推理、稳定性和可信度上,仍落后 GPT-5.5 与 Claude Opus 4.7。

xAI 发布 Grok 4.3,没有把声量拉到最大,马斯克甚至没单独发推,看起来只是个过渡版本。

它更像一次安静的产品换挡:把模型放进 API,把价格打下来,把工具能力补上,再告诉开发者可以从旧版 Grok 迁移过来。

没有 AGI 宏大叙事,也少了马斯克式的“即将改变一切”。这反而让 Grok 4.3 看起来更真实。

对普通消费者来说,Grok 4.3 最重要的变化并非某个榜单分数涨了几分,而是 AI 助手正在变得更便宜、更快,也更像一个能替人完成文件、表格、演示文稿的合格助手。

然而,Grok 4.3 的聪明程度仍然没追上 GPT-5.5 和 Claude Opus 4.7。

它是一款性价比很强的新模型,也是一款仍有明显天花板的模型。

消费者真正需要关心的,是它在哪些场景能省钱省时间,在哪些场景会因为判断不准、想太久或说太多,反而增加成本。

它确实变强了

尤其像一个更会干活的助手

Artificial Analysis 给 Grok 4.3 的 Intelligence Index 打到 53 分,比 Grok 4.20 0309 v2 高 4 分,也超过 Claude Sonnet 4.6 和 Muse Spark。

这个提升不算小,尤其在 xAI 自家模型线里,Grok 4.3 已经是目前最强的一档。

更值得看的是代理任务表现。

Grok 4.3 在 GDPval-AA 上拿到 1500 Elo,相比 Grok 4.20 0309 v2 的 1179,提升了 321 分。

这个榜单更接近日常“让 AI 做事”的场景,比如整理资料、执行复杂步骤、处理真实工作流。这对普通用户有实际意义。

让 AI 帮忙写周报、搭表格、做方案、拆会议纪要、生成 PPT,Grok 4.3 的体验会比前代更完整。

Grok 可以创建演示文稿、文档和电子表格,可以在一个计算机环境里写代码、运行代码、安装依赖并产出文件。

对不懂代码的用户来说,这意味着很多原本需要在 Excel、PowerPoint、浏览器之间来回切换的操作,可能会被压缩成一句指令。

这也是 AI 消费级产品真正该竞争的地方——用户更在意它能不能把一个报销表做完,把一份旅行计划排清楚,把一封语气得体的邮件写好。

Grok 4.3 在这部分的进步,是真进步。

更便宜

是这次最直接的产品卖点

Grok 4.3 的价格很有侵略性。

它的 API 价格为每百万输入 Tokens 1.25 美元、每百万输出 Tokens 2.50 美元,相比 Grok 4.20 输入价格低约 40%,输出价格低约 60%。

Artificial Analysis 测算,运行整套 Intelligence Index 评测成本约为 395 美元,比 Grok 4.20 0309 v2 低约 20%。

这会影响消费者,只是方式没那么直观。

大多数普通人不会直接调用 API,但他们会用到基于 API 构建的产品。

AI 写作工具、客服机器人、语音助理、教育应用、办公插件,背后都要为模型调用付费。

当底层模型价格下降,应用厂商有空间降低订阅费,或者在同样价格下提供更多次数、更长上下文、更复杂任务。

Grok 4.3 还有一个优势是速度。

Artificial Analysis 的 xAI 模型页显示,它是 xAI 当前输出速度最快的模型之一,约 196 Tokens/s,属于很快的一档。

对语音聊天、实时客服、长文生成和批量内容处理来说,等待时间会直接影响体验。

但速度有一个细节容易被忽略:Grok 4.3 的首 Token 延迟并不低。

它会先“想一会儿”,然后快速输出。

长答案里,这种速度优势明显;短对话里,用户可能先感受到停顿,再感受到快。

用于客服、语音助手、移动端聊天时,这个差异会被放大。

它更会说人话

这是 Grok 的隐藏优势

Grok 一直有一个微妙优势:语气更像真人。

Hacker News 上有人提到,一些英语非母语用户认为 Grok 在把握文本语气、正式程度和微妙人际表达上,比其他模型更自然。

有人拿它和 ChatGPT、Claude 比,认为 Grok 在非正式朋友语气、同事沟通、语音输入识别上表现更贴近真实交流。

https://news.ycombinator.com/item?id=47972447

Grok 可能受益于 X 平台海量口语化表达训练。

它更容易捕捉社交网络里的语气、节奏、松弛感等;它也可能因此继承社交网络的噪音、偏见和表达习惯。

对 C 端用户来说,这种“更自然”的能力会让 Grok 在写消息、口语转写、语音助手、轻办公场景里很讨喜。

它未必最聪明,但可能更像一个愿意按你的语气说话的助手。

Yes, BUT...

它比不过 GPT-5.5 和 Claude Opus 4.7

Grok 4.3 最大的问题,是它看起来已经进入第一梯队边缘,却还没站到最前面。

Grok 4.3 的 Intelligence Index 为 53,GPT-5.5 为 60,Claude Opus 4.7 为 57。

这个差距不只是排行榜上的几分。

对普通消费者来说,它会体现在复杂推理、代码调试、长文核查、专业咨询和多步骤任务的稳定性上。

在 GDPval-AA 上,Grok 4.3 的提升很大,但仍落后 GPT-5.5 xhigh 276 Elo,按标准 Elo 公式,面对 GPT-5.5 的预期胜率约 17%。

它在幻觉控制上也有代价。

Grok 4.3 的 AA-Omniscience Accuracy(准确率)提升 8 分,但 Non-Hallucination Rate(非幻觉率)下降 8 分。

这里的准确率和非幻觉率是不同的,准确率只看你答对了多少,而非幻觉率是看你没答出来的问题里面,有多少是模型老实承认自己不会的——不会但振振有词,就是所谓的“幻觉”。

换言之,Grok 4.3 的知识覆盖率变高了,但也更容易出现幻觉了。

而消费者最怕的情况就是 AI 答得很流畅、很自信、很像那么回事,结果关键事实错了。

人类已经很擅长自信地犯错,机器不必急着加入这个传统项目。

这意味着,在医疗、法律、金融、学术和工程等高风险场景里,Grok 4.3 仍需要谨慎使用。

它适合帮用户起草、整理、生成初稿,适合做低风险的辅助工作;涉及最终判断,GPT-5.5 和 Claude Opus 4.7 仍更稳。

长上下文和工具能力很好

但消费者买账的是结果

Grok 4.3 提供 100 万 Token 上下文窗口,这对长文档、代码库、合同、报告和资料库很有吸引力。

用户可以丢进去更多材料,让模型在更完整的信息环境里工作。

对研究、办公和创作来说,这是一种实用能力。

它还支持文本和图像输入,输出文本,并围绕工具调用、网页搜索、X 搜索、代码执行、文件搜索、RAG 等能力加强。

xAI 还推出了 Custom Voices、语音代理、TTS 和 STT 等产品,把 Grok 的边界从文字扩展到语音。

对普通用户来说,未来的 Grok 可能不只是一个聊天框,而是一个能读文件、查网页、写表格、说话、听话的多模态助手。

问题在于,功能多不等于体验好。

消费级 AI 的竞争,最后会回到三个朴素标准:少等、少错、少折腾。

Grok 4.3 在“少等”和“少花钱”上明显前进,在“少错”上还没给出足够强的答案。

Grok 4.3 的准确定位:

性价比模型,不是最强模型

Grok 4.3 最适合的定位,是一款高性价比的工作型模型。

它适合高频内容生成、语气改写、长文本初筛、语音产品、客服场景、批量办公任务、轻量级代理工作流。

它也适合那些对成本敏感、对响应速度敏感、对最强推理没有执念的产品。

很多消费者并不需要每次都调用最强模型,就像不应该只是为了买菜开超跑,除非另有所图。

但如果任务要求深度推理、严谨事实核查、复杂代码、数学证明、长期项目记忆和专业判断,Grok 4.3 还不该成为第一选择。

GPT-5.5 和 Claude Opus 4.7 仍然更适合承担这些高价值、高风险任务。

这次 xAI 的策略很清楚:先把模型做得足够强,再把价格打下来,用速度和工具能力扩大可用场景。

它没有赢下“最聪明模型”的头衔,但可能会赢走一部分真实使用量。

因为市场并不总奖励最强者,也奖励够强、够快、够便宜的选择。

Grok 4.3 的意义正在这里。它把 xAI 从一个经常靠马斯克声量吸引注意的模型供应商,往更务实的 API 和消费级工具竞争者方向推进了一步。

它看起来很好,确实很好;只是还没好到能让 GPT-5.5 和 Claude Opus 4.7 紧张。

消费者可以期待它降价、提速、让更多 AI 应用变得便宜。

也该记住,在需要真正聪明和可靠的地方,Grok 4.3 仍然只是备选项。


    24小时新闻排行榜更多>>
  1. 发呆大赛七女坚持七小时平分奖金
  2. 成都闹市轿车冲撞人群 死伤十余人 现场惨烈
  3. 成都闹市区发生轿车无差别冲撞事件 1死11伤
  4. 五一成都惊传恐怖献忠案 死伤惨重官方急封消息
  5. 千万字史料的李锐日记 存世美国堪称“奇迹”
  6. 浙江女喊冤:15年前买的两根金条仅不含黄金
  7. 红朝躺平赋
  8. 女律师彭静失联 疑涉多名重庆高官受贿案
  9. 伊朗石油只剩12天就憋爆
  10. 先前囤的机票,还没到五一就被取消了?
  11. 伊朗向美提交新提案 川普和白宫回应
  12. 澳洲重稀土量产打破中国垄断! 美加速布局供应链
  13. 相比美国,中国更有远见
  14. 林昭遇害58周年 中国民主党时代广场举办纪念活动
  15. 赵薇被封杀5年终现身 与黄晓明一起参加同学会
  16. 因长相酷似习近平 山东男子抖音帐号遭限
  17. 川普:不满意伊新谈判方案
  18. 伊朗最高领袖:当前需要推动“经济抗争”
  19. 中共金监总局高层震荡 67岁副部级高官去世
  20. 美军中央司令部传向川普简报 拟对伊朗最后一击
  21. 知名品牌召回近820万保温产品
  22. 川普参与暗杀自己?一场宇宙启示录般的事件即将发生!
  23. 川普:对欧盟汽车加征25%关税
  24. 全球各地举行庆祝或示威游行
  25. 孔子第76代孙结婚,妻是大马名媛
  26. “5月吃三白,一年病不来”哪三白家常菜?
  27. 中国专家警告:对美研究“太表面”
  28. 大佬们集体犯下叛国罪 李鹏当了谁的替罪羊?
  29. 中方点名个别超级核大国
  30. 美股半导体股狂飙,聊聊趋势
  31. 躺平都不行?对年轻人不那么友好的时代来临
  32. 那些画下“坏种子”的孩子,被他接住了
  33. 超7000亿美元AI豪赌:美股六巨头交卷
  34. 刘晓庆被指和“王婆”互动冷淡
  35. 中国东航班机落地上海后 连续碰撞廊桥
  36. 雷军估计更绝望了,北京车展181款新车卖给谁呢?
  37. 武侯百年乩预言灭共天机
  38. 许家印为何必须进去?
  39. 这种植物将被认定为非法树木
  40. ICE全美“大扫荡”后,留学生加速逃离
  41. 听取中央司令部简报 川普:对伊朗有两选项
  42. 15岁蒋林静首夺跳水世界杯总决赛女子10米台冠军
  43. 加州交警准备给无人驾驶车开罚单
  44. 年轻人暮气沉沉 中共恐慌下架“死了么”
  45. SemiAnalysis:下游大模型公司已经爆赚
  46. 急诊室里,AI比医生早12小时诊断出致命感染
  47. 穆杰塔巴下令抓人,川普急了要开火
  48. 川习会前未解决国防预算 美智库:台湾恐惹上大麻烦
  49. 东航回应上海虹桥机场一客机碰擦廊桥:机械故障
  50. 华埠举办心肺复苏术培训 实例分享急救显关键
  51. 美防长:我们得让中国“看到美军毋庸置疑的实力”
  52. 川普18岁孙女罕见穿低胸亮相 与妈妈合影如姐妹
  53. “33枚蛋挞的热量能上5次珠峰”,甜点刺客把中产骗哭了
  54. 生物科学公司计划复活蓝马羚
  55. 五角大楼“内斗” 昔日“越南难民”今成美国海军掌门人
  56. 商务部就阻断美国对5家中企实施制裁措施答记者问
  57. 王宗源荣膺跳水世界杯总决赛四连冠
  58. 800元的老干部风酒店,年轻人抢着住
  59. 哈佛汉学家宇文所安去世 他的妻子是天津著名才女
  60. 考核不达标,马斯克去年天价年薪一分没拿