前军教程网

中小站长与DIV+CSS网页布局开发技术人员的首选CSS学习平台

不要怀疑,你的电脑和手机都会被AI全面接管

GPT-4V 是一个强大的人工智能模型,但是它在处理图形用户界面(GUI)时存在一些问题,例如识别不准确、点击位置错误等。微软发布的全新模型 OmniParser 旨在解决这些问题,让 GPT-4V 能够更好地理解和处理屏幕截图内容。

OmniParser 是一个 “屏幕翻译官”,它能够将屏幕截图解析成 GPT-4V 能够理解的 “结构化语言”。OmniParser 结合了微调后的可交互图标检测模型、微调后的图标描述模型和 OCR 模块的输出,生成了 UI 的结构化、类似 DOM 的表示,以及覆盖了潜在可交互元素边界框的屏幕截图。

OmniParser 的工作原理是识别屏幕上所有可交互的图标和按钮,并用框框标出来,给每个框框一个独一无二的 ID。然后,OmniParser 用文字描述每个图标的功能,比如 “设置”、“最小化”。最后,OmniParser 识别屏幕上的文字,并提取出来。这样一来,GPT-4V 就能清楚地知道屏幕上有什么,每个东西是干啥的,想点哪个按钮只要告诉它 ID 就行了。

研究人员用各种测试来考验 OmniParser,结果发现它真的能让 GPT-4V “眼神变好”!在 ScreenSpot 测试中,OmniParser 让 GPT-4V 的准确率大幅提升,甚至超过了一些专门针对图形界面训练的模型。在 Mind2Web 测试中,OmniParser 让 GPT-4V 在网页浏览任务中的表现更上一层楼,准确率甚至超过了使用 HTML 信息辅助的 GPT-4V。在 AITW 测试中,OmniParser 让 GPT-4V 在手机导航任务中的表现也得到了显著提升。

虽然 OmniParser 很厉害,但它也有一些小毛病,比如面对重复的图标或文字容易犯迷糊,需要更细致的描述才能区分;有时候框框画得不够精确,导致 GPT-4V 点错位置;对图标的理解偶尔会出错,需要结合上下文才能更准确地描述。不过,研究人员正在努力改进 OmniParser,相信它会越来越强大,最终成为 GPT-4V 的最佳拍档!

发表评论:

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言