苹果大模型新进展：发布 ReALM，视觉元素解析能力优于 GPT-4

AIGC动态2年前 (2024)发布人工智能学家

AIGC动态欢迎阅读

原标题：苹果大模型新进展：发布 ReALM，视觉元素解析能力优于 GPT-4
关键字：报告,人工智能,模型,研究人员,苹果
文章来源：人工智能学家
内容字数：3482字

内容摘要：

来源：AI 科技大本营（ID：rgznai100）
整理：王轶群
被业内普遍认为在AI大语言模型上进度缓慢的苹果，终于有了AI系统新科研进展！
苹果研究人员开发了一种新的人工智能系统，可以理解屏幕上实体以及对话和背景上下文的模糊引用，从而实现与语音助手的更自然的交互。
3月29日，苹果的研究人员发表一篇论文，苹果研究人员详细介绍了一种人工智能系统，该系统可以解析对屏幕上显示的元素的引用，在某些情况下，在给定屏幕截图时比GPT-4更好。
该系统称为ReALM（Reference Resolution As Language Modeling，即参考解析作为语言建模），利用大型语言模型将参考解析的复杂任务（包括理解屏幕上视觉元素的引用）转换为纯语言建模问题。与现有方法相比，这使得 ReALM能够实现显著的性能提升。
苹果研究人员团队写道：“能够理解上下文，包括参考文献，对于对话助理来说至关重要。”
增强会话助理
为了处理基于屏幕的引用，ReALM的一个关键创新在于——通过使用已解析的屏幕字符及其位置来重建屏显，以生成捕获视觉布局的文本表示。研究人员证明，这种方法与专门用于参考解析的微调语言

原文链接：苹果大模型新进展：发布 ReALM，视觉元素解析能力优于 GPT-4