OpenAI 发布 Agent,自己报道自己

日期:2025-07-18 17:42:00 / 人气:8



在 7 月 18 日凌晨,OpenAI 正式推出了 ChatGPT Agent,这无疑是其在 Agent 化进程中的又一重大里程碑,继 1 月推出 operator 以及 2 月上线 deep research 后,再次吸引了全球目光。当下的 AI Agent 领域,正呈现出两大鲜明流派。以 OpenAI 和 Claude 为代表的 “基座派”,专注于将 Agent 能力深度融入底层模型,致力于打造更为强大且通用的智能基础;而 “应用派” 则另辟蹊径,聚焦于特定应用场景的深耕细作,凭借灵活多变的工具调用设计,力求在细分领域中崭露头角。
早在 3 月,Manus 的惊艳亮相便已点燃了通用 Agent 市场的第一把火,引发了广泛关注和热议。随后,Genspark、Flowith、Fellou 等众多新兴力量纷纷入局,从不同的应用场景出发,迅速在 Agent 赛道上开疆拓土,各自形成了独特的竞争阵营。
然而,OpenAI 的这一举措并非毫无争议。在 ChatGPT Agent 发布后不久,Genspark 便在社交平台 X 上公开质疑,直言其在视频演示中的表现不尽如人意。Manus 也不甘示弱,通过对比自身与 OpenAI 展示案例的结果,试图证明自己的优势。
为了深入探究各 AI Agent 产品的真实能力,我们进行了一次别开生面的测试。我们要求几个备受瞩目的 AI Agent 产品对 ChatGPT Agent 的发布进行报道。不同于常规的简单指令,我们采用了类似深度报告的方式,期望它们能生成一份融合设计元素的 one pager。
Manus 的 Agent 在经过分析后,表现出了与官方 X 账号截然不同的态度,对 OpenAI 给予了较高评价。Genspark 则生成了一份更为复杂详尽的报告,不仅全面捕捉了 OpenAI ChatGPT 的相关信息,还精心制作了一份详细的对比分析。令人意外的是,其 Agent 同样对 OpenAI 的技术水平表达了高度认可。Flowith 则充分理解了我们的长指令,紧紧抓住制作 one pager 的核心要点,最终呈现出的结果在格式设计上最为精美,给人留下了深刻印象。
在报道环节结束后,我们进一步对这些 AI Agent 进行了实战考验。我们选取了 OpenAI 视频中展示的四个典型案例,包括行程策划、图像设计和资讯分析等常见场景,这些场景自 Manus 推出以来便备受关注。以婚礼规划场景为例,我们将视频中的 Prompt 提交给 Manus、Genspark、Flowith、Fellou 等产品。结果显示,Manus 输出了一个长文本页面,虽提供了婚礼参加指南和建议,但在着装推荐方面缺乏具体图片和款式,也未给出购买链接等行动指引。Flowith 同样给出了详细的婚礼参与指南,但在服饰挑选任务中出现了 bug,导致最终未能输出服饰结果。Fellou 则花费了 1 小时 14 分钟完成任务,其认真严谨的态度给人一种 “靠谱” 的感觉。它通过单开多个浏览器,仔细比较行程、路线、酒店信息等,最终以经过简单设计的格式呈现信息,但同样无法实现直接购买,更像是一个高效的信息搜集 AI 浏览器。
在 “做贴纸” 的场景测试中,尽管贴纸设计在近期的 Agent 测试中属于较为简单的任务,且部分产品如 Genspark 还调用了 GPT 的生图能力,但在订购环节,多数产品由于缺乏调用能力而无法完成实际操作。Genspark 和 Flowith 只能提供订购指引,而 Manus 则在流程中成功完成了购物车的添加,成为除 OpenAI 外唯一进行到这一步的 Agent。
综上所述,当前的 AI Agent 领域仍处于 “混沌期”。一方面,这些产品的表现不断给我们带来惊喜,展现出巨大的潜力;另一方面,它们的稳定性还有待提高,即使是行业巨头 OpenAI 发布的 ChatGPT Agent,也更像是一个占位动作。但不可否认的是,随着越来越多重要玩家的加入和竞争的日益激烈,这将有力地推动 AI Agent 技术的发展,有望在不久的将来,为我们带来能够稳定解决复杂任务的智能助手,彻底改变我们的生活和工作方式。

作者:安信14娱乐平台官网




现在致电 xylmwohu OR 查看更多联系方式 →

COPYRIGHT 安信14注册登录娱乐中国站 版权所有