Documentation Index
Fetch the complete documentation index at: https://browser-use.mingxi.ltd/llms.txt
Use this file to discover all available pages before exploring further.
概述
Agent 类是 Browser Use 处理浏览器自动化的核心组件。以下是初始化代理时可以使用的主要配置选项。
基本设置
必需参数
task: 代理要执行的指令llm: LangChain 聊天模型实例。查看 LangChain 模型 了解支持的模型。
代理行为
控制代理如何运行:行为参数
controller: 代理可以调用的函数注册表。默认为基础 Controller。详见 自定义函数。use_vision: 启用/禁用视觉能力。默认为True。- 启用时,模型会处理网页的视觉信息
- 禁用以降低成本或使用不支持视觉的模型
- 对于 GPT-4o,图像处理每张图片大约需要 800-1000 个令牌(约 0.002 美元),但这取决于定义的屏幕大小
save_conversation_path: 保存完整对话历史的路径。用于调试。system_prompt_class: 自定义系统提示类。查看 系统提示 了解自定义选项。
建议启用视觉能力以更好地理解网页交互,
但可以禁用以降低成本或在使用不支持视觉的模型时。
(重用)浏览器配置
你可以配置代理如何与浏览器交互。要查看更多Browser 选项,请参考 浏览器设置 文档。
重用现有浏览器
browser: Browser Use Browser 实例。提供时,代理将重用此浏览器实例,并为每个 run() 自动创建新的上下文。
记住: 在这种情况下,
Browser 不会自动关闭。重用现有浏览器上下文
browser_context: Playwright 浏览器上下文。用于维护持久会话。详见 持久浏览器。
你可以为多个代理重用相同的上下文。如果你什么都不做,浏览器将在
run() 完成时自动创建和关闭。运行代理
代理使用异步run() 方法执行:
max_steps(默认:100)
代理在执行期间可以采取的最大步骤数。这可以防止无限循环并帮助控制执行时间。
代理历史
该方法返回一个包含完整执行历史的AgentHistoryList 对象。这个历史对调试、分析和创建可重现的脚本非常有价值。
AgentHistoryList 提供了许多帮助方法来分析执行:
final_result(): 获取最终提取的内容is_done(): 检查代理是否成功完成has_errors(): 检查是否发生任何错误model_thoughts(): 获取代理的推理过程action_results(): 获取所有动作的结果
有关帮助方法的完整列表和详细的历史分析功能,请参考 AgentHistoryList 源代码。
无 LLM 运行初始动作
使用此示例可以在没有 LLM 的情况下运行初始动作。 将动作指定为字典,其中键是动作名称,值是动作参数。你可以在 Controller 源代码中找到我们所有的动作。使用规划模型运行
你可以配置代理使用单独的规划模型进行高级任务规划:规划器参数
planner_llm: 用于高级任务规划的 LangChain 聊天模型实例。可以是比主 LLM 更小/更便宜的模型。use_vision_for_planner: 为规划器模型启用/禁用视觉能力。默认为True。planner_interval: 规划阶段之间的步骤数。默认为1。
- 通过使用较小的模型进行高级规划来降低成本
- 改进任务分解和战略思维
- 更好地处理复杂的多步骤任务
规划器模型是可选的。如果未指定,代理将不使用规划器模型。