type
Post
status
Published
date
Sep 24, 2024
slug
system-arch
summary
整体系统架构概述
tags
category
系统架构概览
icon
password
在整个 WEB UI 测试智能体中,我们希望通过让大模型来模拟人类浏览器操作,实现高效、精准的功能测试并生成对应的 WEB UI 自动化测试代码。核心组件包括BrowserOperator、Brain Agent、Locator-Agent 等组件,共同协作从而保证端到端的成功率。
本文会介绍整个项目中最核心的主流程相关的整体框架,关于更多的细节 & 扩展能力,可以参考后续的【项目演进历程】章节。
 

系统架构

notion image
 

1. 三大核心组件

1.1 BrowserOperator 模块

  • 浏览器控制:负责启动浏览器、访问指定URL、执行具体浏览器操作,并收集页面 Tab 信息和截图信息等,它是与浏览器真实进行交互的组件。

1.2 Brain Agent

  • 智能决策:像人一样,基于当前的测试场景,结合当前的页面状态、历史操作步骤结果,分析当前状态,决定下一步操作,并管理测试进度。

1.3 Locator-Agent

  • 精确定位:负责页面元素的准确定位,生成定位策略并验证。
 
除了上述三大核心组件之外,为了端到端提升用户的使用体验并保证生成效果,其实还包括了一系列其他组件,包括 HTML 压缩组件、测试代码生成器、测试步骤拆解组件等等,这些内容会在后续的【项目演进历程】章节中进行展示介绍。
 

2. 工作流程

  1. 初始化:启动系统,访问起始页面。
  1. 分析与决策:Brain Agent评估当前状态,制定下一步计划。
  1. 执行操作:Action模块执行操作,必要时调用 Locator-Agent。
  1. 结果评估:分析执行结果,决定后续行动。
  1. 代码生成:成功后生成测试步骤代码。
  1. 任务总结:报告结果,记录经验。
 

3. 异常处理机制

  • 成功标准:所有步骤完成且达成预期目标。
  • 失败应对:动态调整策略,重新定位元素,生成调试信息。
 

系统优势

  • 智能自动化:模拟人类思维,大幅减少人工干预。
  • 高度适应性:灵活处理复杂场景和异常情况。
  • 精确操作:通过专门的Locator-Agent确保元素定位准确。