苹果大模型新进展:发布 ReALM,视觉元素解析能力优于 GPT-4

苹果大模型新进展:发布 ReALM,视觉元素解析能力优于 GPT-4

AIGC动态欢迎阅读

原标题:苹果模型新进展:发布 ReALM,视觉元素解析能力优于 GPT-4
关键字:报告,人工智能,模型,研究人员,苹果
文章来源:人工智能学家
内容字数:3482字

内容摘要:


来源:AI 科技大本营(ID:rgznai100)
整理:王轶群
被业内普遍认为在AI大语言模型上进度缓慢的苹果,终于有了AI系统新科研进展!
苹果研究人员开发了一种新的人工智能系统,可以理解屏幕上实体以及对话和背景上下文的模糊引用,从而实现与语音助手的更自然的交互。
3月29日,苹果的研究人员发表一篇论文,苹果研究人员详细介绍了一种人工智能系统,该系统可以解析对屏幕上显示的元素的引用,在某些情况下,在给定屏幕截图时比GPT-4更好。
该系统称为ReALM(Reference Resolution As Language Modeling,即参考解析作为语言建模),利用大型语言模型将参考解析的复杂任务(包括理解屏幕上视觉元素的引用)转换为纯语言建模问题。与现有方法相比,这使得 ReALM能够实现显著的性能提升。
苹果研究人员团队写道:“能够理解上下文,包括参考文献,对于对话助理来说至关重要。”
增强会话助理
为了处理基于屏幕的引用,ReALM的一个关键创新在于——通过使用已解析的屏幕字符及其位置来重建屏显,以生成捕获视觉布局的文本表示。研究人员证明,这种方法与专门用于参考解析的微调语言


原文链接:苹果大模型新进展:发布 ReALM,视觉元素解析能力优于 GPT-4

联系作者

文章来源:人工智能学家
作者微信:AItists
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...