不要怀疑，你的电脑和手机都会被AI全面接管-前端教程-前军教程网

GPT-4V 是一个强大的人工智能模型，但是它在处理图形用户界面（GUI）时存在一些问题，例如识别不准确、点击位置错误等。微软发布的全新模型 OmniParser 旨在解决这些问题，让 GPT-4V 能够更好地理解和处理屏幕截图内容。

OmniParser 是一个 “屏幕翻译官”，它能够将屏幕截图解析成 GPT-4V 能够理解的 “结构化语言”。OmniParser 结合了微调后的可交互图标检测模型、微调后的图标描述模型和 OCR 模块的输出，生成了 UI 的结构化、类似 DOM 的表示，以及覆盖了潜在可交互元素边界框的屏幕截图。

OmniParser 的工作原理是识别屏幕上所有可交互的图标和按钮，并用框框标出来，给每个框框一个独一无二的 ID。然后，OmniParser 用文字描述每个图标的功能，比如 “设置”、“最小化”。最后，OmniParser 识别屏幕上的文字，并提取出来。这样一来，GPT-4V 就能清楚地知道屏幕上有什么，每个东西是干啥的，想点哪个按钮只要告诉它 ID 就行了。

研究人员用各种测试来考验 OmniParser，结果发现它真的能让 GPT-4V “眼神变好”！在 ScreenSpot 测试中，OmniParser 让 GPT-4V 的准确率大幅提升，甚至超过了一些专门针对图形界面训练的模型。在 Mind2Web 测试中，OmniParser 让 GPT-4V 在网页浏览任务中的表现更上一层楼，准确率甚至超过了使用 HTML 信息辅助的 GPT-4V。在 AITW 测试中，OmniParser 让 GPT-4V 在手机导航任务中的表现也得到了显著提升。

虽然 OmniParser 很厉害，但它也有一些小毛病，比如面对重复的图标或文字容易犯迷糊，需要更细致的描述才能区分；有时候框框画得不够精确，导致 GPT-4V 点错位置；对图标的理解偶尔会出错，需要结合上下文才能更准确地描述。不过，研究人员正在努力改进 OmniParser，相信它会越来越强大，最终成为 GPT-4V 的最佳拍档！

前军教程网

中小站长与DIV+CSS网页布局开发技术人员的首选CSS学习平台

不要怀疑，你的电脑和手机都会被AI全面接管