爆!中国AI Agent 杀出「深 Seek」级黑马,Jack Dorsey 惊呼“杰出”!

2025-03-15 14:30:11 GenAI author

引言:AI Agent 热潮与 Manus 的出现

编者按聚焦了一位特殊的观察者——庄明浩,这位互联网行业的资深人士,从投资人转型为趣丸科技高管,并以播客栏目《屠龙之术》输出了大量高质量的行业洞察。本文正是基于他对近期 AI Agent 领域涌现的 Manus 的深度观察。

Manus 的出现迅速引发了行业内外的热烈讨论,不仅在国内备受关注,更引发了海外科技领袖的赞誉。Twitter 联合创始人 Jack Dorsey 称其“杰出”,AI 资讯平台 The RundownAI 的创始人 Rowan Cheung 甚至将其视为“中国的第二个 DeepSeek 时刻”。

庄明浩本人也坦言,在体验过 Manus 之后,才真正觉得此前关于 AI Agent 的一些概念不再是空中楼阁,而是有了实实在在的载体。那么,Manus 究竟展现了哪些可能性,又拨开了哪些迷雾呢?

OpenAI 对 AGI 等级的定义

OpenAI 对通用人工智能(AGI)进行了分级,从 L1 到 L5,不同等级代表着 AI 能力的不同阶段。理解这些等级,有助于我们更好地认识 AI Agent 的发展现状和未来方向。

L1(聊天机器人):以 ChatGPT 为代表

L1 级别的 AI 主要以 ChatGPT 为代表,其核心能力在于“对话”,能够流畅地生成文字。

然而,L1 级别的 AI 存在明显的局限性,例如严重依赖复杂的提示词工程,输出结果不稳定,并且容易产生幻觉。

L2(推理):如 OpenAI o1、DeepSeek R1

L2 级别的 AI 在逻辑推理能力上实现了飞跃,代表产品包括 OpenAI o1、DeepSeek R1 等。

这类 AI 通过强化学习,对结果进行激励(而非过程干预),从而提升逻辑推理能力。典型的应用场景包括数学解题、代码纠错等,用户可以感受到“AI 会思考”。

L3(Agent):尚处于探索期

L3 级别的 AI,也就是我们所说的 Agent,目前还处于探索阶段。其核心特征是自主规划、调用工具、交付成果。

用户可以感知到“AI 在工作”,例如自动分析财务报表、编写程序、生成调研报告。

被泛化的 AI Agent 概念辨析

AI Agent 的概念如今被广泛使用,但也因此出现了一些理解上的偏差。很多人将一些现有的 AI 应用简单地归类为 Agent,但实际上它们可能并不具备 Agent 的核心特征。

AI 搜索是否等同于搜索 Agent?

Perplexity 等产品是目前比较流行的 AI 搜索工具,但它们的本质仍然是“高级版搜索引擎 + 摘要生成器”。这类工具依赖大模型来重组信息,但缺乏自主执行和交付能力。

此外,垂直领域的 AI 搜索工具,例如医疗或法律搜索,面临着数据孤岛的问题,并且无法突破“检索-呈现”的模式,与 Agent 的“执行-交付”有着本质的区别。

AI 编程是否等同于 Coding Agent?

类似的,很多 AI 编程工具也面临着相同的问题。它们可能能够生成代码片段,但缺乏自主完成复杂编程任务的能力。

搜索与编程的启示:突破“套壳”质疑

当前很多 AI 应用都面临着“套壳”的质疑,即过度依赖大模型的能力,难以建立垂直领域的壁垒。真正的 Agent 需要突破“工具组合”的思维,转向自主决策的通用性。这意味着 Agent 不仅要能够调用各种工具,更要能够自主地规划任务、解决问题,最终交付成果。

Manus 的核心逻辑与实现

Manus 之所以能引发如此大的关注,在于它在 AI Agent 的实现路径上做出了创新。它并非简单地将现有工具组合在一起,而是构建了一个完整的数字环境,赋予 AI 自主操作的能力。

给 AI 一个虚拟机

Manus 的核心逻辑是为 AI 配备一个完整的数字环境,包括浏览器、数据库、编程接口等。这样,AI 就可以像人类员工一样操作设备,完成各种任务。

例如,当 Manus 接收到“分析 YouTube 视频中企鹅种类”的任务时,它会自主暂停视频、截图识别、统计帧数,全程无需人工干预。

任务规划-执行-归纳能力

面对复杂任务,Manus 能够自动拆解子任务、分配优先级、纠错迭代。例如,在“整理 AI 公司出海榜单”的任务中,如果首次结果遗漏了中国公司,Manus 会重新扫描官网、核对媒体报道,最终输出准确率超过 80% 的清单。

零预设工作流

与 AutoGPT 等早期 Agent 工具不同,Manus 不内置任何任务模板,例如“写邮件”流程。它的核心是通过强化学习,让模型自主探索工具组合的方式。

例如,在处理“小米 SU7”相关任务时,模型会自主决定先搜索维基百科,再调用设计模板,最后生成 PDF 文件。这种零预设的工作流,赋予了 Manus 更强的灵活性和适应性。

Manus 的成本与商业化挑战

虽然 Manus 在技术上取得了显著进展,但其商业化前景仍然面临着一些挑战,尤其是成本问题。

算力消耗暴增

由于需要模拟人类操作,Manus 在执行任务时需要消耗大量的算力。例如,单个复杂任务(如分析 100 家公司财报)的成本可能高达 2-20 美元,相较于传统的对话模式,成本增加了 100 甚至 1000 倍。

如果用户每天平均使用 Agent 2 小时,那么每年的算力成本可能会超过当前 C 端用户的付费意愿。

新指标 AHPU(Agentic Hours Per User)

传统的 DAU(日活跃用户)和留存率等指标,已经无法准确衡量用户对 Agent 的依赖程度。因此,需要引入新的指标 AHPU(Agentic Hours Per User),即每用户使用 Agent 的时长。

然而,如何将使用时长转化为收入(订阅制/任务计费)仍然是一个难题。如何设计合理的商业模式,平衡用户体验和盈利能力,是 Manus 以及整个 AI Agent 领域需要思考的问题。

Manus 的实际体验与效果

为了更直观地了解 Manus 的能力,作者进行了一项对比测试,将 Manus 与国内的元宝、豆包等产品放在一起执行相同的任务。

与元宝、豆包的对比测试

测试的任务是分析风投机构 Andreessen Horowitz(a16z)发布的 2025 年全球 Top100 生成式 AI 应用榜单,核心目标是统计其中由中国公司或团队开发的应用数量。

结果显示,传统的产品更容易出现错误,而 Manus 可以反复排查,直到得到一个最接近真实的结果。

Manus 的优缺点分析

尽管 Manus 在某些方面表现出色,但也存在一些不足。例如,让它做一个带截图的 PPT 时,Manus 会简单粗暴地直接截取网页的图片;让它做示意图时,画出来的简笔画非常粗糙。

但无论如何,Manus 似乎都在很认真地工作,只是完成的质量还有待提高。

结论:现阶段为实习生水平

综合来看,Manus 现阶段的能力水平大约相当于一个实习生。它能够完成一些基础的任务,但需要不断学习和改进才能胜任更复杂的工作。

行业观察:创新还是泡沫?

Manus 的出现引发了关于 AI Agent 领域是创新还是泡沫的讨论。很多人质疑 Manus 只是“套壳”,即过度依赖现有技术,缺乏真正的创新。

对“套壳”争议的本质分析

作者认为,简单地认为 Manus 只是“套壳”是一种傲慢的观点。工程化能力(如浏览器控制、多任务调度)和产品设计(用户感知工作流)构成了 Manus 的核心壁垒。

类比 Perplexity 早期被质疑,最终以体验和场景定义获得了不错的用户量和收入,Manus 同样有机会通过持续优化和创新,在 AI Agent 领域站稳脚跟。

大厂与创业者的博弈

头部公司必然会跟进 AI Agent 领域,例如阿里巴巴旗下的夸克最近也发布了新的更新。但创业者仍然存在窗口期。

技术+产品的双叙事是关键。Manus 通过“组合式创新”(搜索/浏览器/编程经验积累)实现了爆发,验证了黑暗森林法则——敢为者先得红利。

AI 时代普通人的生存法则

AI Agent 的发展对普通人来说意味着什么?在 AI 时代,我们应该如何调整自己的思维和技能,才能更好地适应未来的工作和生活?

用户需成为“好老板”

普通用户需要学会精准地提出需求、分配任务、过程干预,与 AI 形成协作闭环。Agent 的价值不在于完美执行,而在于降低复杂任务的门槛。

我们需要将 AI Agent 视为助手,而不是替代品。通过与 AI 的协作,我们可以更高效地完成工作,并释放更多的时间和精力去做更有价值的事情。

行业的朴素真理:用户至上

大厂恐惧错失风口,投资人纠结壁垒,创业者渴望复制成功,而用户只关心“这玩意儿到底能干啥”。

Agent 的终极考验是能否让非技术群体(如财务、教师)真正用起来,而非困在极客圈的自嗨。只有真正满足用户需求的 AI Agent,才能在市场上取得成功。

发表评论:

最近发表