从语言到现实：构建全面理解世界的AI新纪元

原标题：李飞飞：理解世界运作方式是AI的下一步，我们需要从大语言模型转向大世界模型
文章来源：人工智能学家
内容字数：8545字

语言中充满了视觉格言，比如“眼见为实”，这反映了人类对视觉的重视。历史上，直到约5.4亿年前，生物才首次具备视觉能力，三叶虫的出现使得动物们能够感知阳光。接下来的寒武纪大爆发时期，现代动物的祖先纷纷出现。如今，人工智能（AI）正经历一场现代寒武纪大爆发，每周都有新的惊人工具问世。

最初，生成式AI由像ChatGPT这样的巨大语言模型推动，但空间智能，即基于视觉的智能，或许更为根本。人类的理解和互动能力在很大程度上基于视觉。计算机视觉作为AI的一个重要子领域，致力于教会计算机具有人类相同或更好的空间智能。

过去15年，计算机视觉领域取得了迅速发展。通过卷积神经网络和“大数据”的结合，计算机终于能够识别物体。2007年，ImageNet项目创建了一个包含1500万张标记图像的数据库，涵盖22000个物体类别，并推动了图像识别技术的飞速进展。

随着技术的进步，基于变换器架构和扩散技术的新一代模型使得生成性AI工具得以实现。在视觉领域，这些系统不仅能够识别，还能根据文本提示生成图像和视频。然而，目前的技术仍限于2D表现，真正的空间智能需要计算机能够建模、推理事物和地点，并在3D空间中互动。

我们已在学术界和工业界看到一些初步迹象，表明AI正向大型世界模型转变。最新的AI模型能够通过文本提示控制机器人，进行实际操作，或将2D图像转化为可探索的3D空间。这些应用前景广阔，包括家庭护理、外科手术辅助及教育培训等。

人类进化数亿年所取得的视觉智能，现在在计算机中仅需几十年即可实现。未来的空间智能将成为真正以人为中心的人工智能的下一个前沿，造福人类社会。

联系作者

文章来源：人工智能学家
作者微信：
作者简介：致力成为权威的人工智能科技媒体和前沿科技研究机构

文章版权归作者所有，未经允许请勿转载。

暂无评论...