Copyright 2015-2024 二手车测评网 版权所有 京ICP备18049689号-25 客服QQ:318697669
机器之心编辑部
当我们谈到 AI 助手的未来,很难不想起《钢铁侠》系列中那个令人炫目的 AI 助手贾维斯。贾维斯不仅是托尼・斯塔克的得力助手,更是他与先进科技的沟通者。如今,大模型的出现颠覆了人类使用工具的方式,我们或许离这样的科幻场景又近了一步。想象一下,如果一个多模态 Agent,能够直接像人类一样通过键盘和鼠标直接操控我们身边的电脑,这将是多么令人振奋的突破。
近期,吉林大学人工智能学院发布了一项利用视觉大语言模型直接控制电脑 GUI 的最新研究《ScreenAgent: A Vision Language Model-driven Computer Control Agent》,它将这一想象映射进了现实。该工作提出了 ScreenAgent 模型,首次探索在无需辅助定位标签的情况下,利用 VLM Agent 直接控制电脑鼠标和键盘,实现大模型直接操作电脑的目标。此外,ScreenAgent 通过「计划-执行-反思」的自动化流程首次实现对 GUI 界面的连续控制。该工作是对人机交互方式的一次探索和革新,同时开源了具备精准定位信息的数据集、控制器、训练代码等。
- 论文地址:https://arxiv.org/abs/2402.07945
- 项目地址:https://github.com/niuzaisheng/ScreenAgent
ScreenAgent 可以帮助用户轻松实现在线娱乐活动,购物,旅行,阅读等也不在话下。它还可以是最了解你的贴心管家,帮助用户管理个人电脑。甚至无需动手,就帮助用户实现快速办公,成为你最得力的办公助手!话不多说,直接看效果。
带你网上冲浪,实现娱乐自由
ScreenAgent 根据用户文本描述上网查找并播放指定的视频: