苹果的Ferret-UI Lite是一款针对移动设备和桌面屏幕优化设计的30亿参数模型,该模型的功能包括解析屏幕图像、识别图标和文本等用户界面元素,并能通过读取信息、检查健康数据等方式与应用程序进行交互。

这项研究的重点在于开发体积小巧、能够直接在各种平台上与图形用户界面进行交互的终端代理程序,这些平台包括移动设备、网页以及桌面电脑。

在相关论文中,研究人员指出:“目前大多数关于GUI代理程序的研究方法都侧重于开发大型基础模型”,比如GPT和Gemini这类模型,这些模型确实在多种GUI导航任务中表现出了强大的能力。然而,这种设计方式也带来了“模型结构复杂、计算资源需求高、推理耗时长”等问题,同时还会导致延迟增加、隐私保护能力下降,以及依赖网络连接才能正常运行。正因如此,研究者们决定尝试开发体积更小、性能更强的终端端到端代理程序,但这仍然是一项具有挑战性的任务。

我们采用了专门用于开发小型模型的一系列技术,通过收集来自真实环境和合成环境的各种GUI数据,利用思维链推理机制和视觉工具使用技巧,并结合设计合理的奖励机制进行强化学习,从而成功构建了这款30亿参数的Ferret-UI Lite代理程序。

研究人员解释说,Ferret-UI Lite通过裁剪屏幕图像以及运用思维链推理技术,能够更准确地理解那些由众多小型用户界面元素构成的复杂布局。这种设计方式使得它在性能上“与大型模型相当,甚至在某些情况下更为优越”:在ScreenSpot-V2平台上进行GUI定位任务时,它的准确率达到了91.6%;在ScreenSpot-Pro平台上为53.3%;而在OSWorld-G平台上则为61.2%。在GUI导航任务中,它在AndroidWorld平台上的成功率为28.0%,在OSWorld平台上的成功率为19.8%。

在训练过程中,研究人员采用了两阶段训练流程。第一阶段利用真实环境和合成环境中的多种GUI交互数据进行了有监督的微调训练;第二阶段则运用基于可验证奖励机制的强化学习方法,来优化模型的任务完成能力,而不仅仅是使其能够模仿人类的行为。此外,他们还统一了动作执行的格式,并加入了“放大显示”和思维链推理等技术,以提高模型的感知能力。

研究者们认为,GUI定位数据和导航数据可以相互补充,而且从多种来源收集合成数据对于提升这两种任务的性能有着显著的帮助。不过,虽然思维链推理技术和视觉工具能够提高模型性能,但它们的效果仍然有限。另一方面,小型模型在处理需要长时间规划、多步骤完成的任务时依然面临困难,而且它们的表现也会受到奖励设计方式的影响。

研究人员指出,Ferret-UI Lite可以作为一种内置的“智能”代理程序,帮助苹果减少对谷歌云服务的依赖,从而保障Siri功能的正常运行,同时为用户提供隐私保护。

Comments are closed.