• 91porn。com 智能体丝滑玩手机,决策蔓延0.7秒!MSRA等提议考证器架构,不获胜依赖大模子生成最终操作

  • 发布日期:2025-04-06 06:05    点击次数:66

    91porn。com 智能体丝滑玩手机,决策蔓延0.7秒!MSRA等提议考证器架构,不获胜依赖大模子生成最终操作

    跟着东谈主工智能和大谈话模子(LLMs)的束缚松弛91porn。com,怎么将其上风赋能于试验宇宙中可骨子部署的高效器用,成为了业界祥和的焦点。

    近期,由微软亚洲酌量院、南洋理工大学、清华大学、香港科技大学等多家机构蚁合推出迁徙图形用户界面(GUI)任务自动化智能体——V-Droid。

    凭借其全新"考证器驱动"架构,V-Droid 不仅在职务见效用上刷新记载,同期在决策反馈速率上竣工了接近实时的发扬,为迁徙端自动化完毕设备了全新场面。

    演示视频 1:

    "请从 Broccoli 应用中删除以下食谱:鸡肉阿尔弗雷多意大利面、番茄罗勒烤面包以及番茄罗勒烤奶酪三明治",V-Droid 约使用 20 步操作完成此任务。视频无加快处置。

    演示视频 2:

    "发送短信息",V-Droid 约使用 8 步操作完成此任务。视频无加快处置。

    V-Droid 与其他迁徙 GUI 智能体在 AndroidWorld 上的任务见效用与决策反馈时候对比如下:

    关于 V-Droid 以相等他 7B,8B 基准模子,决策时候在双卡 4090 上测试得出;关于 72B 基准模子,决策时候在四卡 A100 上测试得出。

    恒久以来,迁徙配置上的任务自动化一直靠近两浩劫题:一是如安在复杂、多变的 GUI 环境中准确识别和操作界面元素 , 并以多设施见效完成任务;二是如安在保证任务见效用的前提下落低决策蔓延。

    以往依靠 LLM 获胜生成操作指示的标准,由于生成过程时常需要一语气输出渊博信息,导致在骨子应用中既不够高效,又容易出现决策偏差。

    在决策过程中,将 LLM 用作生成器与用作考证器的智能体架构的关键区别在于:考证器驱动的智能体不会获胜阐明任务现象获胜生成动作,而是在作出最终决策之前,明确地对每个候选皆动作进行评估。

    V-Droid 立异性地提议"考证器驱动"的想路。该标准不再获胜依赖大谈话模子生成最终操作,而是领先通过对 UI 界面的深远通晓构建出详备的动作蕴蓄,再应用经过玄虚覆按的基于大谈话模子的考证器对每个候选动作进行评估,最终选出得分最高的动作实行。

    这种作念法将操作生成与决策判断有用解耦:一方面,与从零入手获胜生成所需操作比拟,该决策使智能体约略在一个龙套且有限的动作空间内高效地进行考证,从而大大胁制了决策的复杂度;同期,由于每次考证仅输出极简的信息(仅一个 Token),何况不错对多个候选动作竣工并行考证,从而权贵裁减了每一步决策所需的时候。

    V-Droid 在多个全球迁徙任务自动化基准上均赢得了权贵提高91porn。com,举例在 AndroidWorld 基准上任务见效用达 59.5%,比现存智能体提高了近 10 个百分点,而决策蔓延在虚耗级硬件上(如 4090)则降至仅 0.7 秒支配。

    △V-Droid 的责任经由:① 从用户界面中索求动作并补充默许动作;② 针对每个候选动作使用模板构建考证指示;③ 应用前缀缓存对候选动作进行批量打分;④ 完成并实行所选动作;⑤ 更新责任回顾。

    V-Droid 的中枢松弛主要体当今以下几个方面:

    动作空间龙套化与构建

    由于迁徙配置屏幕尺寸有限,每个界面上可交互的元素数目本就较少,V-Droid 充分应用这一特色,从现时界面的 XML 描摹中索求统共可点击、长按、迂曲、文本输入等基本操作,将它们映射到一个有限的动作空间中。

    同期,为了应答界面上未获胜呈现的操作(举例复返首页或模拟系统操作),系统还预置了一系列默许动作。通过这种方式,正本无穷的操作可能性被玄虚差异为一个可陈列的蕴蓄,在这个蕴蓄上进行考证,大大胁制了决策难度。

    考证器驱动的决策机制与经由

    不同于传统依赖生成式模子获胜输出操作指示的决策,V-Droid 将 LLM 的脚色重新定位为考证器。系统帅先阐明现时任务现象构造出候选操作列表,并为每个候选动作生成一个预界说花式的考证指示(Prompt),其中包含任务成见、现时界面现象、历史操作记载以及具体的考证问题。

    经过事前微调的考证器(基于 Llama-3.1-8B 等小谈话模子)会对每个候选动作进行评分,最终系统遴荐评分最高的动作实行。由于考证过程只需要生成" Yes "或" No "这类随意回应。更重大是的,多组候选考证可被高效并行,且此过程中只触及 Prefilling 阶段,从而极地面减少了设想时候,竣工了近实时的决策反馈。

    对比式过程偏好(P3)覆按

    为了提高 LLM 手脚考证器的决策智商,V-Droid 提议 P3 覆按战略:对比式过程偏好覆按战略(Pairwise Process Preference)。在每个任务设施中,通过构建正负操作对(即记号正确操手脚正样本,其他操手脚负样本),系统约略应用渊博细粒度的覆按数据对考证器进行优化,使其更准确地区分正确与装假的操作。这种标准不仅提高了模子对相同界面元素的辨认智商,也在一定进度上增强了系统的容错与自我修正智商。

    东谈主机蚁合标注的数据收集战略

    由于针对迁徙 GUI 任务的细粒度标注数据极为稀缺,V-Droid 设想了一套东谈主机蚁合标注决策。系统启动阶段由东谈主责任业完成标注,随后应用经过初步覆按的考证器自动生成操作标注,再由东谈主工审核与修正。跟着迭代覆按的进行,考证器的准确性束缚提高,东谈主工介入比例磨蹭下落,从而高效构建起一个涵盖上万条任务轨迹的数据集,为后续大鸿沟覆按提供了坚实基础。

    △V-Droid 的任务见效用与单步决策反馈时候

    V-Droid 在多个迁徙任务自动化基准测试中均发扬出色。

    举例,在 AndroidWorld 基准上,V-Droid 的任务见效用达到 59.5%,比拟传统代理有赫然上风;在 AndroidLab 和 MobileAgentBench 上,其任务见效用分别为 38.3% 和 49%,均杰出先前系统约 2% 至 9% 的齐全提高。此外,决策反馈时候仅为 0.7 秒,使得该系统在实时性条目较高的迁徙场景中具有权贵应用后劲。

    大草原在线视频2018

    V-Droid 所接受的考证器驱动架构为迁徙端自动化任务带来全新想路。

    通过将智能体的动作生成过程解耦为动作空间构建与考证,该系统不仅在职务见效用上赢得了权贵提高,还在决策蔓延方面竣工松弛。改日,这一技巧有望扩充至更多骨子应用中,如自动化测试等领域。跟着大谈话模子技巧的束缚跳跃,以及高效覆按与数据收集战略的熟练,考证器驱动的迁徙 GUI 智能体或将成为智能交互领域的松弛口。

    论文标题:Advancing Mobile GUI Agents: A Verifier-Driven Approach to Practical Deployment

    论文作家:Gaole Dai, Shiqi Jiang, Ting Cao, Yuanchun Li, Yuqing Yang, Rui Tan, Mo Li, Lili Qiu

    迷惑:https://arxiv.org/abs/2503.15937

    一键三连「点赞」「转发」「留心心」

    接待在挑剔区留住你的成见!

    —  完  —

    学术投稿请于责任日发邮件到:

    ai@qbitai.com

    标题注明【投稿】,告诉咱们:

    你是谁,从哪来,投稿内容‍

    附上论文 / 神气主页迷惑,以及酌量方式哦

    咱们会(尽量)实时回应你

    � � 点亮星标 � �

    科技前沿进展逐日见91porn。com