标签:视觉

AI范儿早报 | OpenAI开始训练下一代AI模型并向免费用户开放浏览、视觉等功能;Perplexity拟融资2.5亿美元

要闻提示OpenAI开始训练下一代AI模型,可能为GPT-5OpenAI向免费用户开放浏览、视觉等功能 云服务提供商CoreWeave计划明年IPO 人工智能初创公司Perplexity拟融...
阅读原文

Nature | 视觉神经元功能新发现?苍蝇找配偶?

来源:博士圈圈PhDsNetwork 模拟雄性果蝇视觉系统的人工神经网络可以准确预测昆虫在看到潜在配偶时的行为,为建立更复杂的大脑回路模型铺平了道路。 在腐烂的...
阅读原文

如何使用新的 ChatGPT macOS 应用程序

点击上方蓝字关注我们“OpenAI 推出了 macOS 专用的 ChatGPT 桌面应用,具备语音模式和临时聊天功能,支持图片上传和截图工具,增强了视觉交流。应用提供个性...
阅读原文

开源多模态SOTA再易主,19B模型比肩GPT-4v,16G显存就能跑

梦晨 发自 凹非寺量子位 | 公众号 QbitAI开源多模态SOTA模型再易主! Hugging Face开发者大使刚刚把王冠交给了CogVLM2,来自大模型创业公司智谱AI。 CogVLM2...
阅读原文

时隔一年Falcon回归!110亿参数5.5万亿token,性能超越Llama 3

新智元报道编辑:庸庸乔杨 【新智元导读】 5月14日,开源的大语言模型Falcon 2发布,性能超越Llama 3,消息登上了Hacker News热榜第一。「猎鹰」归来,开源宇...
阅读原文

HuggingFace教你怎样做出SOTA视觉模型

克雷西 发自 凹非寺量子位 | 公众号 QbitAI前有OpenAI的GPT-4o,后有谷歌的系列王炸,先进的多模态大模型接连炸场。 其他从业者在震撼之余,也再次开始思考怎...
阅读原文

李飞飞揭秘创业方向“空间智能”:视觉化为洞察,看见成为理解,理解导致行动

梦晨 发自 凹非寺量子位 | 公众号 QbitAI斯坦福李飞飞创业后,首次揭秘新概念“空间智能”。 这不仅是她的创业方向,也是指引她的“北极星”,被她认为是“解决人...
阅读原文

OpenAI 重磅发布 GPT-4o :见证《Her》的诞生!

北京时间 5 月 14 日凌晨,备受期待的 OpenAI 春季更新发布会上,CTO Mira Murati 宣布发布新的模型迭代版本——GPT-4o,o 代表「omnimodel」(全能模型),原...
阅读原文

GPT-4o 屠龙式震撼!多模态、实时交互、全员免费可用,丝滑语音交互的 ChatGPT 这把赢麻了

作者:李宝珠 & 十九 编辑:三羊 OpenAI 发布 GPT-4o,ChatGPT 基于GPT-4o 实现了语音交互,并在文本与视觉能力上有显著提升。从 5 月初爆出将在 9 日发...
阅读原文

GPT-4o深夜炸场!AI实时视频通话丝滑如人类,Plus功能免费可用,奥特曼:《她》来了

梦晨 克雷西 发自 凹非寺量子位 | 公众号 QbitAI不开玩笑,电影《她》真的来了。 OpenAI最新旗舰大模型GPT-4o,不仅免费可用,能力更是横跨听、看、说,丝滑...
阅读原文

跟着开源的InternVL,学习如何做自己的GPT-4V

随着人工智能生成内容(AIGC)的快速发展,多模态大型语言模型(MLLM)在理解和生成结合视觉与语言的信息方面展现出巨大潜力。然而,现有的开源MLLM与商业模...
阅读原文

14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

HuggingFace烧钱做了一大批实验,揭示多模态大模型哪些trick真正有效

夕小瑶科技说 原创作者 | 谢年年构建多模态大模型时有很多有效的trick,如采用交叉注意力机制融合图像信息到语言模型中,或直接将图像隐藏状态序列与文本嵌入...
阅读原文

AI教母李飞飞首次创业!成立“空间智能”公司,已完成种子轮

明敏 克雷西 发自 凹非寺量子位 | 公众号 QbitAIAI教母李飞飞,创业了! 最新消息,斯坦福大学教授李飞飞正在建立一家AI公司,已完成种子轮融资。 公司方向定...
阅读原文

参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文
14567817