昨晚全球首个通用Agent Manus预览版正式发布,其官方展示的效果令人惊叹,展现了强大的任务规划与执行能力。目前还没拿到邀请码,以下是通过对官方网站案例的拆解, 以下将从workflow,memory和前端交互三个方面进行拆解,总的来说就是整合了 computer use、deep research、coding agent等概念的产物。
“Manus 都能通过独立思考和系统规划,在自己的虚拟环境中灵活调用各类工具——编写并执行代码、智能浏览网页、操作各类网页应用——为你直接交付完整的任务成果,而非仅仅提供建议或答案。”
一、workflow
示例:7-Day Japan Itinerary with Proposal Ideas
todo.md示例
# 日本旅行计划清单
## 研究日本旅行基础知识
- [x] 创建项目目录结构
- [ ] 研究最佳交通选择(JR Pass、当地交通)
- [ ] 研究四月份的天气
- [ ] 检查美国公民的签证要求
- [ ] 研究货币兑换和预算分配
- [ ] 查看从西雅图到日本的航班选择
## 研究城市和景点
- [ ] 研究东京的景点和活动
- [ ] 研究京都的历史遗迹和文化体验
- [ ] 研究奈良鹿公园及周边景点
- [ ] 研究大阪的美食和文化体验
- [ ] 寻找隐藏的宝藏和非热门地点
- [ ] 研究文化体验(剑道、茶道、禅修)
## 规划7天行程
- [ ] 创建每日行程并安排时间
- [ ] 规划城市间的交通
- [ ] 平衡城市探索与文化体验
- [ ] 留出放松和自发探索的时间
- [ ] 确保行程符合预算限制(2500-5000美元)
## 研究求婚地点
- [ ] 确定风景优美且浪漫的求婚地点
- [ ] 研究所选地点的最佳求婚时间
- [ ] 规划求婚时刻的细节
## 整理日语短语和旅行建议
- [ ] 创建常用日语短语清单
- [ ] 整理文化礼仪建议
- [ ] 研究餐饮习俗和美食推荐
- [ ] 整理安全和紧急信息
## 创建HTML旅行手册
- [ ] 设计HTML手册结构
- [ ] 创建地图部分,标出关键位置
- [ ] 编写景点描述
- [ ] 加入日语短语部分
- [ ] 添加旅行建议部分
- [ ] 确保设计适配移动设备
## 完成并交付文件
- [ ] 审查并最终确定7天行程
- [ ] 测试HTML手册功能
- [ ] 整理所有文件和资源
- [ ] 向用户交付最终成果
2. To do ——computer use、deep research、coding agent
Manus将会根据md文件的to do list去逐一完成每个板块,其中每个板块的具体实现涉及大量的computer use、deep research以及coding agent。
2.1 deep Research
-
搜索网页(一次检索23个结果)
-
Browser use
Manus 通过browser use 去实现网页的浏览和操作(如滚动,点击事件),每一步操作都会截图保存。
-
浏览
-
向下滚动
-
点击
2.2 coputer use
虚拟机环境的交互,比如涉及虚拟机终端命令运行,浏览器的交互,文件的管理(增删改)等
-
终端交互:
-
浏览器的交互:如2.1 browser use
-
文件管理
2.3 coding agent
manus将涉及到代码的任务分发给coding agent进行完成,如html,py等文件的编写,coding agent 这块官方的实现效果有点像是用claude的模型实现的。
3.更新todo.md文件
综合以上,Manus会根据todo.md文件的事项清单通过computer use、deep research以及coding agent的结合逐步去完成任务。随着任务不断进行,每完成一定任务会编辑todo.md文件标识[x]已完成进行更新md文件(agent的上下文记忆)
示例:7-Day Japan Itinerary with Proposal Ideas
# 日本旅行计划清单
## 研究日本旅行基础知识
- [x] 创建项目目录结构
- [x] 研究最佳交通选择(JR Pass、当地交通)
- [x] 研究四月份的天气
- [ ] 检查美国公民的签证要求
- [ ] 研究货币兑换和预算分配
- [ ] 查看从西雅图到日本的航班选择
## 研究城市和景点
- [x] 研究东京的景点和活动
- [x] 研究京都的历史遗迹和文化体验
- [x] 研究奈良鹿公园及周边景点
- [ ] 研究大阪的美食和文化体验
- [x] 寻找隐藏的宝藏和非热门地点
- [x] 研究文化体验(剑道、茶道、禅修)
## 规划7天行程
- [x] 创建每日行程并安排时间
- [x] 规划城市间的交通
- [x] 平衡城市探索与文化体验
- [x] 留出放松和自发探索的时间
- [x] 确保行程符合预算限制(2500-5000美元)
## 研究求婚地点
- [ ] 确定风景优美且浪漫的求婚地点
- [ ] 研究所选地点的最佳求婚时间
- [ ] 规划求婚时刻的细节
## 整理日语短语和旅行建议
- [ ] 创建常用日语短语清单
- [ ] 整理文化礼仪建议
- [ ] 研究餐饮习俗和美食推荐
- [ ] 整理安全和紧急信息
## 创建HTML旅行手册
- [ ] 设计HTML手册结构
- [ ] 创建地图部分,标出关键位置
- [ ] 编写景点描述
- [ ] 加入日语短语部分
- [ ] 添加旅行建议部分
- [ ] 确保设计适配移动设备
## 完成并交付文件
- [ ] 审查并最终确定7天行程
- [ ] 测试HTML手册功能
- [ ] 整理所有文件和资源
- [ ] 向用户交付最终成果
4.完成交付
从todo.md可以看到最后一项任务是完成并交付文件
示例:7-Day Japan Itinerary with Proposal Ideas
## 完成并交付文件
- [ ] 审查并最终确定7天行程
- [ ] 测试HTML手册功能
- [ ] 整理所有文件和资源
- [ ] 向用户交付最终成果
示例:Comprehensive Tesla Stock Analysis and Investment Insights
## 10. 向用户提交报告
- [ ] 完成所有报告组成部分
- [ ] 确保所有分析完整且准确
- [ ] 将报告与所有支持文件打包
- [ ] 向用户提交最终报告
这一套工作下来会产生多个交付文件
为了增强用户体验,官方也设计了一个管理会话文件的地方方便用户管理。
二、memory
Manus有自己的知识和记忆,知识让 Manus 能够学习您的偏好和任务特定的最佳实践。Manus 会在需要时自动回忆相关知识。这样就可以教Manus在下一次处理类似的任务会怎么做?
这个知识关键是描述清楚让Manus知道在什么情况下需要用到这个知识。
以下是官方视频demo中提到的示例,“在为招聘目的筛选简历时,直接将结果汇总到电子表格中”,这样下次Manus处理类似任务就会继续通过表格汇总实现
三、前端交互
Manus的交互效果做的非常惊艳,特别是会话回放的流失输出效果以及右侧的实时进度跟踪。那这样就可以实时知道Manus完成任务的进展到哪了。
总的来说,Manus就是一个整合了 computer use、deep research、coding agent等概念的会规划并执行的Multiagent system ,并在前端交互用户体验上做到了极致。正如官方说那样:
“我们坚信并践行 less structure more intelligence 的哲学:当你的数据足够优质、模型足够强大、架构足够灵活、工程足够扎实,那么 computer use、deep research、coding agent 等概念就从产品特性变为了自然涌现的能力。”
以上主要是基于官方demo拆解的,有不对的地方欢迎大家多多指教,以下是交流群。
附:刚刚看到了aigclink 分享的观点,说的很好,分享给大家。