原标题:李飞飞:理解世界运作方式是AI的下一步,我们需要从大语言模型转向大世界模型
文章来源:人工智能学家
内容字数:8545字
人工智能的视觉智能
语言中充满了视觉格言,比如“眼见为实”,这反映了人类对视觉的重视。历史上,直到约5.4亿年前,生物才首次具备视觉能力,三叶虫的出现使得动物们能够感知阳光。接下来的寒武纪大爆发时期,现代动物的祖先纷纷出现。如今,人工智能(AI)正经历一场现代寒武纪大爆发,每周都有新的惊人工具问世。
从语言智能到空间智能
最初,生成式AI由像ChatGPT这样的巨大语言模型推动,但空间智能,即基于视觉的智能,或许更为根本。人类的理解和互动能力在很大程度上基于视觉。计算机视觉作为AI的一个重要子领域,致力于教会计算机具有人类相同或更好的空间智能。
视觉理解的进展
过去15年,计算机视觉领域取得了迅速发展。通过卷积神经网络和“大数据”的结合,计算机终于能够识别物体。2007年,ImageNet项目创建了一个包含1500万张标记图像的数据库,涵盖22000个物体类别,并推动了图像识别技术的飞速进展。
生成性AI的崛起
随着技术的进步,基于变换器架构和扩散技术的新一代模型使得生成性AI工具得以实现。在视觉领域,这些系统不仅能够识别,还能根据文本提示生成图像和视频。然而,目前的技术仍限于2D表现,真正的空间智能需要计算机能够建模、推理事物和地点,并在3D空间中互动。
未来的展望
我们已在学术界和工业界看到一些初步迹象,表明AI正向大型世界模型转变。最新的AI模型能够通过文本提示控制机器人,进行实际操作,或将2D图像转化为可探索的3D空间。这些应用前景广阔,包括家庭护理、外科手术辅助及教育培训等。
结论
人类进化数亿年所取得的视觉智能,现在在计算机中仅需几十年即可实现。未来的空间智能将成为真正以人为中心的人工智能的下一个前沿,造福人类社会。
联系作者
文章来源:人工智能学家
作者微信:
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构