ChatGPT Agent口碑两极化,Manus隔空对战

2025-07-18 23:26:42 · chineseheadlinenews.com · 来源: 智东西

智东西AI前瞻7月18日报道,今日凌晨,OpenAI正式推出了ChatGPT Agent,一个整合了网页交互、深度检索和代码能力的全新“AI助手形态”。

从产品逻辑上看,网络交互工具Operator和深度信息检索工具DeepResearch不再分家,ChatGPT内部出现了一个能够“查找-思考-执行”一体化的Agent,用户能直接让AI跨网页、代码、个人数据源完成完整任务。

相较于OpenAI接连被挖角引发的舆论热度,ChatGPT Agent的发布似没达到“革命性Agent”的期许,略显反应平淡。社区用户体验后褒贬不一,有人认为“初见AGI的雏形”,但也有人指出PPT排版简陋、复杂逻辑易中断和幻觉等问题。

ChatGPT Agent发布后,竞品Manus第一时间接招,放出10个实测案例,试图通过财务建模、生活规划、行程安排、消费购物、航班筛选等不同场景任务,证明ChatGPT Agent在任务闭环和可视化交付上并不占优。

ChatGPT Agent口碑两极化,Manus隔空对战

▲(图源:Manus X平台)

回过头来看,ChatGPT Agent在网页浏览、执行任务等多个测评中实现了SOTA,在“人类的最后考试”(Humanity’s Last Exam)测试中取得了41.6的高分。这一成绩证明了其能力,也同时需要进一步在真实场景中验证。



ChatGPT Agent将首先向Pro、Plus和Team用户推出,Pro用户每月可获得400次查询,其他付费用户每月40次。面向企业和教育用户的版本,预计将在本月底前上线。

目前,ChatGPT Pro版的订阅价格为每月200美元,包含Agent和终端功能。相比之下,xAI的Grok 4最新的Agent产品定价高达每月300美元,两者价格相差1.5倍。

一、一次“功能拼图”的交付,ChatGPT Agent有哪些升级?

ChatGPT Agent的定位可以简单理解为“把Operator和DeepResearch合并”,并补上了一个“终端”和“图像生成API”的工具栈。

1、文本浏览器(DeepResearch功能)负责批量搜索网页、阅读长文本;

2、可视化浏览器(Operator功能)负责网页点击、拖拽和表单填写;

3、终端可以跑Python脚本、生成和分析文件(Excel表格、PPT幻灯片)和调用API,甚至接入Google Drive、GitHub等外部数据;

4、图像生成API补足基础的可视化内容生成,可以为报告或幻灯片创建视觉素材。

这套“工具箱”搭载在一个虚拟机环境下,由经过强化学习训练的模型调度,能实现从自动检索、分析、生成文档,到最终下单、预约的完整闭环。

在发布演示中,OpenAI选择了一个贴近生活的案例:用Agent帮用户策划一场婚礼行程。



▲婚礼策划实测(图源:OpenAI)



ChatGPT团队提供婚礼网站链接,提出“帮忙推荐服装、选酒店、挑礼物”三个需求。Agent先自动抓取婚礼时间、地点和着装要求,再查询天气并推荐适合的服装,随后跳转到Booking.com查找酒店选项,最后搜索礼物推荐。最终,Agent生成一份“婚礼准备报告”,按服装、酒店、礼物分类整理,附带来源链接和截图,完整交付给用户。



▲ChatGPT Agent所生成的婚礼策划(图源:OpenAI)

二、Manus隔空叫板:十大对比,功能对齐,体验分化

ChatGPT Agent发布后,作为竞品的Manus第一时间在X平台发布多轮实测对比,主动“迎战”。

从展示效果来看,Manus通过可视化呈现、跨平台操作和交付形式展示了自身优势,试图证明其在任务闭环和最终输出上的完整度优于ChatGPT Agent;相比之下,ChatGPT Agent更多聚焦于基础信息检索和文本型交付,功能覆盖相近,但在交互体验上呈现出不同方向。

具体案例呈现:

1、案例1:新加坡公司选址与政府资助

Manus输出完整调研资料和资助方案PPT,含生态概览、政策详情与图片;ChatGPT Agent只生成基础幻灯片,缺少要点总结与可视化呈现。



▲(图源:Manus)

案例2:高收入FIRE模型

Manus完成包含城市生活成本、税务规划的完整PPT,含关键图表和视觉元素;ChatGPT Agent只列出基础生活成本清单,税务信息方面并不完善,且无投资策略或可视化分析。



▲(图源:Manus)

案例3:三日网球行程制定

Manus生成含每日日程、预算及订票链接的可视化行程卡片;ChatGPT Agent输出纯文字行程,排版单调无整合。



▲(图源:Manus)

案例4:旧金山ACFR财务表格

Manus整理2020-2024年财务数据并生成可视化预算趋势PPT;ChatGPT Agent只生成无视觉呈现的财务表格。



▲(图源:Manus)

案例5:电动车行业研究

Manus制作5页完整PPT,包含行业增速图表、旗帜等定制视觉元素;ChatGPT Agent停留在信息收集,未完成PPT交付。



▲(图源:Manus)

案例6:筛选500美元以下风衣

Manus整理符合条件的商品清单并生成对比文档;ChatGPT Agent只停留在电商页面截图,无完整输出。



▲(图源:Manus)

案例7:英伟达估值建模(DCF模型)

Manus完成全流程,包括历史财务数据抓取、WACC估算、现金流预测、敏感性分析和完整图表输出;ChatGPT Agent仅停留在搜索公开年报信息,未完成建模和分析。



▲(图源:Manus)

案例8:季度财报拆分更新

Manus完成季度表格更新和PPT生成,ChatGPT Agent只完成基础表格更新,无季度拆分和PPT。



▲(图源:Manus)

案例9:预订高评分寿司餐厅

Manus全流程完成订座并返回确认页面,ChatGPT Agent只完成基础餐厅信息检索,无预订动作。



▲餐厅预定成功界面(上)和Manus实操界面(下)(图源:Manus)

案例10:查询机票并筛选优选航班

Manus完成可视化航班票价对比卡片,ChatGPT Agent仅展示网页搜索信息,无可视化总结和筛选逻辑。



▲(图源:Manus)

作为“参赛选手”,Manus的展示更侧重自身产品优势,ChatGPT Agent实际效果如何,还需持续观察更多用户的真实体验反馈。

三、体验有惊喜也有槽点:效率在线,复杂检索还需人类兜底

社区实测也迅速给出了“褒贬对半开”的反馈。

X平台用户用Agent在20分钟内完成了FIRE计划,称相同服务在人类顾问处花费可能高达5000美元。

ChatGPT Agent首先查找了本地税收政策(温哥华),分析了用户的月均开支,测算出在30岁退休所需的储蓄金额,接着生成了投资组合建议,并梳理出用户此前未接触过的税务优化策略,最后构建了多个退休方案的对比情景,生成了一份完整的可下载PPT文件。



▲(图源:X平台)

他还补充道,Agent在生成电子表格和PPT上的能力最让人印象深刻,但整体结果与他用Manus、Genspark等其他Agent工具的体验“差异不大”。在他看来,对没用过这些工具的大多数人而言,ChatGPT Agent的能力“依然足够震撼”。



▲(图源:X平台)

不过,ChatGPT Agent在社区的用户反馈中也暴露出不少实际体验上的短板。不少用户吐槽,在网页交互过程中经常出现卡顿或404错误,生成的PPT排版简陋、审美效果较差,遇到稍微复杂的逻辑需求时,任务流程也往往需要频繁中断和人工修正。

沃顿商学院教授、AI研究者Ethan Mollick也分享了类似感受。他在X平台称,自己用ChatGPT Agent分析了Kaggle上的数据集,虽然Agent能够顺利完成分析流程并生成PPT和Excel文件,但初步结果中存在明显的数据异常。只有在他提供反馈后,Agent才成功识别出问题并修正结果。



▲(图源:X平台)

Agent在执行流程上已经具备高效率,但在数据判断和逻辑把控上仍然离不开人类监督。

从跑分和社区反馈来看,ChatGPT Agent擅长处理指令明确、路径清晰的任务,比如生成婚礼准备清单或根据财务数据制作PPT,在这类标准化流程中,Agent能够高效执行,显著节省人工操作。

但遇到模糊指令或需要开放式判断的任务,比如整理行业隐性趋势或挖掘未被报道的新闻线索时,Agent往往难以给出有效结果,容易陷入“找不到”或“请明确需求”的反复循环。

四、跑分成绩亮眼:擅长流程跑通,难在开放推理

在数据测评上,Agent模式在人文学科推理、金融分析、网页交互和电子表格四大维度上对o3有不同程度领先,最高实现翻倍提升。

ChatGPT Agent在“人类的最后考试”(Humanity’s Last Exam)评估中取得41.6%的最高分,相比o3无工具模式(20.3%)实现翻倍提升,在跨学科专家级问题上展现了推理与工具调用能力。



▲Humanity’s Last Exam(来源:OpenAI)

DSBench聚焦数据分析类实际任务,Agent在数据分析子任务中准确率达到87.9%,显著高于o3(64.1%),首次超越人类参考水平。在DSBench的数据建模子任务中,Agent准确率达到85.5%,优于o3(77.1%)和GPT-4o(45.5%),接近人类表现。



▲DSBench数据分析任务与DSBench数据建模任务(来源:OpenAI)

SpreadsheetBench测试Agent对电子表格的编辑操作,ChatGPT Agent在直接访问.xlsx文件时,准确率提升至45.5%,显著优于Copilot in Excel(20.0%),但与人类水平(71.3%)存在较大差距。



▲电子表格任务(来源:OpenAI)

在投行分析师任务中,Agent完成复杂财务建模的准确率达到71.3%,大幅领先o3(48.6%)和DeepResearch(55.9%)。



▲内部投资银行分析师任务评估(来源:OpenAI)

WebArena测试Agent在网页交互任务的操作能力,ChatGPT Agent准确率达到65.4%,超越o3和CUA模型,接近人类水平(78.2%)。



▲WebArena网页交互基准(58.1%)(来源:OpenAI)

BrowseComp用于评估Agent对长尾信息检索任务的处理能力,ChatGPT Agent准确率达到68.9%,比DeepResearch高出17.4个百分点。



▲复杂网页信息检索任务BrowseComp(来源:OpenAI)

ChatGPT Agent在DSBench、SpreadsheetBench、BrowseComp等流程化任务中表现亮眼,数据分析、表格编辑和网页检索准确率大幅提升,部分任务超越人类水平。各类型任务相较于o3模型,Agent都实现了从10%到30%不同程度的提升。

结语:Agent潮起,OpenAI稳步迈进

ChatGPT Agent的发布再次证明Agent赛道正在加速进化。整合多工具、接入个人数据、具备基础执行力,正逐渐成为Agent产品进化的主流方向,但距离真正行业普及仍有不小距离。

这次,OpenAI并没有交付一个“划时代”版本,仅在个人助理和办公场景迈出了一步稳健但平淡的更新。

对用户来说,ChatGPT Agent值得体验,它确实让一部分琐碎事务可以交给AI代劳。但要说AI“重塑工作流”,显然还为时尚早。OpenAI还在路上,Agent也还在半成品阶段。它是一场值得肯定的进步,但并不是一场值得兴奋的飞跃。


    24小时新闻排行榜更多>>
  1. 鲁比欧发出内部指引 美国务院停止置评他国选举
  2. 习近平罕见批评地方政府 争相发展AI与新能源汽车
  3. 算命准吗?2位看相的高人解开疑惑
  4. 男子躲女厕偷拍被抓现行
  5. 美国单边主义展望
  6. 宗庆后三弟全家美籍负责在美资产 杜建英小儿生父存疑
  7. 三国行动 所有在委内瑞拉被拘美公民获释
  8. 微软聘中国工程师维护美军系统 美议员吁严查
  9. 中概股深夜大爆发
  10. “死亡之海”罗布泊的神秘和恐怖
  11. 食与色
  12. 美空军新副参谋长人选出炉 疑曾轰炸中国驻南大使馆
  13. 富国银行员工被禁出境 哪些外企高管在华受阻
  14. 中共示好欧盟不买账 专家:中欧深层矛盾难解
  15. 泽连斯基将把乌军武器自给率提升至5成
  16. 欧洲议会代表团将赴台访问
  17. 如何不靠运气变富有?纳瓦尔的财富哲学(二)
  18. 黄仁勋急了!英伟达H20解禁,却已挡不住“中国芯”
  19. 金正恩只给百姓4个月粮食?金主爱戴钻表与辍学求生小孩天壤之别
  20. 独家:王立群案 判决书揭荒唐判刑内幕
  21. 毛骨悚然的文革献寿仪式 婴儿诡异归天
  22. ???è????¨???????????§???????????????
  23. 组图:距今3800年 秘鲁佩尼科遗址对外开放
  24. 亚洲第一美男,如今73孑然一生
  25. 【纪元焦点】网络身份证 中共实施国家管控
  26. ChatGPT Agent口碑两极化,Manus隔空对战
  27. 赖清德:军演结束,以国军为荣
  28. 泰晤士报:习近平拟邀川普、普京出席抗战80周年
  29. 河北杜丽坤16岁遭酷刑 一家三口的遭遇
  30. 杭州厂房发生大火 黑烟冲天
  31. 宗庆后与原配施幼珍大概率没离婚
  32. 有熊出没 日本高尔夫球赛被迫取消开幕日
  33. 好久没在大银幕上这么燃了
  34. 农夫山泉4.5倍价买美商业建筑 为何引担忧
  35. 宗庆后遗产案新进展,这次国资大股东不忍了!
  36. 众院委员会主席:勿重启英伟达H20对华出口
  37. 美股跌超140点,特斯拉股价大涨
  38. 数百万可负担健医保投保人 或面临更高健保费用
  39. 电竞选手丑闻发酵,涉事女生坠楼?
  40. “超音速跳伞第一人”意外逝世
  41. 手机没讯号!美国母子加州森林中迷途留字条获救
  42. 松绑监管自肥?川普内阁逾3成官员持有加密货币
  43. 英伟达H20对华解禁 分析:中国芯片界面临冲击
  44. OpenAI的智能体来了,但这次掌声不多
  45. 张家界也没人了 桂林也赔钱 古镇600亿投资血本无归 中国旅游业大亏损!
  46. 韩国消防员救灾,拾获543万现钞
  47. 地表温度73度,阿嬷3度烫伤
  48. 美国人的平均薪资是多少?
  49. 消息:ICE获准访问Medicaid数据 追踪非法移民
  50. 美司法部调查芝加哥大学国际学生招生问题
  51. 985,成立人工智能学院
  52. 与美关税谈判遭瓶颈,日欧抱团“过冬”
  53. 中国制玩具枪竟能“发射实弹” 日警紧急召回
  54. 川普的大而美法案对你的钱包有何影响?
  55. 加州伯克利教授雅典探视孩子遭枪杀 前妻等人被捕
  56. 洛杉矶县警署培训中心发生爆炸 3警察殉职
  57. 王菲女儿李嫣换头成功
  58. 美农业部解雇70名外国研究人员
  59. 美国人的“反移民高烧”正退烧
  60. 川普拟对欧盟全商品征15-20%关税 德总理:欧洲过去搭美国便车