Manus背后的关键AI技术,让AI代理如同人类般精确操作浏览器,掀起全球热潮
Z Highlights
- Browser Use是一个开源产品,让AI Agent能够像真实用户一样操作浏览器,自动完成任务;它支持AI agents自动轮换,并允许用户按需运行任意数量的并行任务。目前,Browser Use的应用案例范围广泛,包括从登录自动化和数据提取到QA测试和CRM集成等。
- 自推出以来,Browser Use发展迅速,在GitHub上获得超过60k star,是增长最快的开源人工智能项目之一。15,000多名开发人员在积极使用Browser Use,并积极在技术社区中贡献idea和解决方案。Browser Use因为Manus的出圈而被广泛传播,且其增长势头持续至今。
- Browser Use两位创始人Magnus Müller和Gregor Zunic来自瑞士苏黎世联邦理工学院,二人在完成其数据科学硕士项目期间相识。2024年,两人一同在苏黎世联邦理工学院的学生项目之家加速器(Student Project House accelerator)中推出了Browser Use的原型。
- 2025年3月,Browser Use在官网上宣布获得1700万种子轮融资。本轮融资由Felicis Ventures领投,A Capital、Nexus Ventures、Y Combinator、Paul Graham、Liquid2、SV Angel、Pioneer Fund 等机构跟投。
01 Manus背后“黑科技”,让Agent轻松操作浏览器
如果一个基于LLM的Agent想访问或者操作浏览器,往往面临一些挑战:
- 网页结构频繁变化,导致自动化的脚本失效;此外,人们往往只有在任务已经失败过后才发现网页结构变化的问题,这进一步导致了开发效率低下。
- 网站会识别并拦截机器人。为了绕过对机器人的检测,开发者需要使用不同IP地址、不断输入验证码,并让agents模拟更自然的人类操作。
- 使用大语言模型(LLM)进行抓取时,许多人会遇到速率限制、解析错误以及API密钥管理等问题。
2025年初,随着Manus的火爆,其背后的“黑科技”Browser Use也同样引起了人们的关注。Browser Use专为解决上述痛点而设计,强调将AI agents与网页连接,实现对浏览器的自动化操作。它支持AI agents自动轮换,单次登录即可实现持久会话,并允许你按需运行任意数量的并行任务。在开源方面,Browser Use基于MIT开源许可,支持自定义,完全免费且高度灵活,用户可以自由接入任何模型。据TechCrunch报道,Browser Use是Manus用来执行各种任务的组件之一,例如点击网站菜单和填写表格。
此前,Research and Markets预测,AI agents的市场将从2024年的51亿美元增长到2030年的471亿美元;德勤数据显示,到2027年,将有一半左右的公司会部署Agents,以辅助完成不同业务。Bowser Use创始人对AI agents与浏览器自动化发展的前景同样颇为乐观,在同TechCrunch的访谈中公司创始人Zunic表示,“我们希望打造一个基础层,让所有人都能在此之上构建自己的浏览器智能体,到2025年年底,网页上agents的数量或将高于人类。”
02 准确率业界领先,流程透明可追踪
多维度功能,增长持续
Browser Use的主要功能包括:
- 视觉+HTML信息提取:将视觉理解与HTML结构提取相结合,实现全面的网络交互。
- 多重标签管理:Browser Use能够自动处理多个浏览器标签,以完成复杂并行的工作流程。
- 要素追踪:通过提取点击元素的XPaths并重复精确的LLM操作,以实现稳定的自动化。
- 自定义操作:支持用户添加个性化操作,如保存到文件、数据库操作等,同时也支持人工输入等功能。
- 自我纠正:当面对错误时,Browser Use能够智能处理错误并且自动恢复,以实现稳健的自动流程。
- LLM兼容:Browse Use兼容所有LangChain LLM,包括 GPT-4、Claude 3和Llama 2。
图片来源:https://www.star-history.com/
自推出以来,Browser Use发展迅速,GitHub上获得超过60k star,是增长最快的开源人工智能项目之一。15,000多名开发人员在积极使用Browser Use,并积极在技术社区中贡献idea和解决方案;目前,Browser Use的应用案例范围广泛,包括从登录自动化和数据提取到QA测试和CRM集成等各层次任务。Browser Use因为Manus的出圈而被广泛传播,且其增长势头持续至今。
准确率业界领先
2024年12月,据官网消息,Browser Use在WebVoyager基准测试中的表现在业界遥遥领先,在586项不同的网络任务中取得了89.1%的成功率。
图片来源:Browser Use官网
在不同领域中,Browser Use均可以出色地在浏览器上完成任务,比如,在Huggingface网站上,AI自动化完成任务的成功率可达100%,即便AI在Booking.com上自动化“表现不佳”,其成功率依然达到了80%。据官网报道,Browser Use可以涵盖多种日常任务,包括在Google Docs中编写文档、查找航班、投递简历等常见的生活场景。
图片来源:Browser Use官网
回避敏感数据,操作流程透明可追溯
让AI agents自动化处理任务面临的风险之一便是如何保障数据安全,Browser Use通过防止模型看到实际密码来安全地处理敏感信息。据官方技术文档介绍,在处理密码等敏感信息时,用户可以使用sensitive_data这一参数来防止模型看到实际值,同时仍允许模型在其作中引用这些值。
此外,为了同步追踪浏览器操作的数据,Browser Use与Laminar进行了原生集成,Laminar是用于跟踪、评估和标记AI agents的开源平台,用户只需在代码项目顶部初始化Laminar,浏览器使用和会话录制都会被自动跟踪。当用户选择跟踪时,可以看到浏览器会话记录和agents的执行步骤,浏览器会话的时间轴与代理执行步骤同步,在跟踪视图中,用户还可以查看agents的当前步骤、它使用的工具以及工具的输入和输出。
03 从午餐头脑风暴到席卷全球黑科技
左侧为Magnus Müller,右侧为Gregor Zunic
图片来源:Browser Use官网
Browser Use两位创始人Magnus Müller和Gregor Zunic来自瑞士苏黎世联邦理工学院,二人在其数据科学硕士项目期间相识。2024年,两人一同在苏黎世联邦理工学院的学生项目之家加速器(Student Project House accelerator)中推出了Browser Use的原型。在同TechCrunch的访谈中,Zunic回忆,“最初只是几次午饭间的随意头脑风暴,后来变成了一个挑战——我们来做个小项目,发到 Hacker News 上,看看会发生什么。”Zunic 说,“我们花了四天时间做出了一个MVP,上线之后——砰,直接登顶第一。之后的发展就像坐上了火箭一样。”
“许多AI agents依赖基于视觉的系统,并尝试通过屏幕截图浏览网站,在此过程中,往往就会出错……另外一些网站则常常会更改自己的运作方式(比如LinkedIn),因此agents也经常会失败。”Müller说到,“我们将网站转换为AI可以理解的内容,这种方法意味着我们可以以更便宜的成本一次又一次地运行相同的任务。越来越多的AI公司希望让他们的agents更优雅地与网站交互,Müller认为浏览器使用可以成为满足这一需求的“基本层”。他补充说,目前Y Combinator冬季批次中有20多家公司使用 Browser Use 来满足自己的需求。
Magnus Müller预计在2025年8月完成学业,除了关注AI与浏览器交互,他还深耕机器学习相关技术,并且在自动化与机械制造、交通管理等领域有兼职或是实习经历。2022-2024年,他在GreenWAI担任创始人兼CEO,该公司利用“浮动汽车数据”(Floating Car Data)来优化红绿灯控制,替代昂贵的传感器系统,从而大幅减少二氧化碳排放和车辆等待时间;2022-2023年,他在Aucos AG这家公司担任研究与发展领域的AI工程师,他的研究方向包括基于图像神经网络和深度强化学习的优化调度问题研究、基于Transformer的黑箱模拟与数字孪生技术、以及利用可视化模拟技术理解复杂流程等;2022年9月到12月,他还在Cambridge Care有过一段短暂的实习经历,这段实习经历中,他主要关注Temporal Fusion Transformer如何在动态知识图谱中进行时间序列预测。
Magnus Müller近三年实习与工作经历
图片来源:LinkedIn
另一位创始人Gregor Zunic于2024年12月从苏黎世联邦理工大学毕业,在此之前,他专注于利用AI技术来优化不同群体的工作体验。除了今年名声鹊起的Browser Use,2023年-2024年,他曾在Spexia担任联合创始人,专注于帮助创业者解决搜索引擎优化方面的诉求;同期,他还是Profaile公司的联合创始人,该公司专注于企业家和消费者提供AI解决方案,同时还会向青年人传授技术与创业相关的知识;2022-2024年期间,他和其他朋友共同成立了一家名为Real Fake Photo的公司,产品可以实现一键把休闲风格的自拍照转化成专业的职场头像。
Gregor Zunic近三年创立的公司
图片来源:LinkedIn
04 种子轮筹资1700万美元,Felicis Ventures领投
图片来源:LinkedIn
Browser Use为Y Combinator2025年冬季项目之一。2025年3月,Browser Use在官网上宣布获得1700万种子轮融资。本轮融资由Felicis Ventures领投,Y Combinator、A Capital、Nexus Ventures、Paul Graham、Liquid2、SV Angel、Pioneer Fund等机构跟投。产品创始人之一Müller在接受TechCrunch访谈时补充说,当前Y Combinator冬季批次中有20多家公司使用Browser Use来满足自己的需求.
Felicis Ventures称,Browser Use正在打造AI agents基础设施中最关键的一块:网页交互能力。它通过提取HTML和页面元素,大大简化了代理与网站的交互过程,同时可以按需重复执行工作流。它支持多步骤任务、持久会话(即保留登录状态等信息),并能在网页布局变化时进行智能自我纠错,与依赖视觉识别(vision-based)的系统不同,后者每运行一次就需要耗费昂贵的计算资源,Browser Use的代理可以以确定性的方式重复执行任务——这大幅提升了可靠性、速度和效率。
Elena Chen亦有贡献
References:
https://www.ycombinator.com/companies/browser-use
https://browser-use.com/posts/sota-technical-report
https://techcrunch.com/2025/03/12/browser-use-one-of-the-tools-powering-manus-is-also-going-viral/
https://www2.deloitte.com/us/en/insights/industry/technology/technology-media-and-telecom-predictions/2025/autonomous-generative-ai-agents-still-under-development.html
https://techcrunch.com/2025/03/23/browser-use-the-tool-making-it-easier-for-ai-agents-to-navigate-websites-raises-17m/
https://docs.browser-use.com/introduction
https://docs.browser-use.com/customize/sensitive-data
https://docs.browser-use.com/development/observability
-----------END-----------