标签:图像
视觉模型底座超越OpenAI,格灵深瞳开启多模态落地的Scaling Law
梦晨 发自 凹非寺量子位 | 公众号 QbitAI大模型时代,有个大家普遍焦虑的问题:如何落地?往哪落地? 聚光灯下最耀眼的OpenAI,最近也先被曝出资金告急,后又寻...
一键部署Phi 3.5 mini+vision!多模态阅读基准数据集MRR-Benchmark上线,含550个问答对
小模型又又又卷起来了!微软开源三连发!一口气发布了 Phi 3.5 针对不同任务的 3 个模型,并在多个基准上超越了其他同类模型。 其中 Phi-3.5-mini-instruct...
9个人的公司,做文生图,2500万用户,每年净利润200万美元
Flux 带起又一波文生图模型的热潮,NightCafe 是其中的受益者之一。 这家文生图网站,月活 100 万,用户超 2500 万,每年有 200 万的净利润,但员工还不到 10...
Flux、SD等图片生成模型遭“封禁”,但这次硅谷大厂不反对了!
整理 | 褚杏娟、核子可乐 “SB 1047 和 AB 3211 将会消灭加州的开源。”有网友评价道。 就在人们为 SB 1047 号法案而抓狂之时,另一项加州法案 AB 3211 已经悄...
阶跃星辰生图模型上线,国风意境绝美,隐藏咒语曝光!
新智元报道编辑:编辑部 【新智元导读】备受期待的阶跃星辰图像生成大模型Step-1X,正式上线了!创作古诗词配图意境绝美,古典中国园林的每片叶子都很逼真,...
韩国“N号房”因 Deep Fake 再现,受害者向中国网友求救
整理 | 华卫、核子可乐 视频 AI 生成技术的最新进展,已经开始产生一系列令人忧心的社会影响。不少精通这些技术的年轻人被发现,正在未经他人同意的情况下制...
通义千问开源视觉语言模型 Qwen2-VL,可理解 20 分钟以上视频
整理 | 褚杏娟 2023 年 8 月,通义千问开源第一代视觉语言理解模型 Qwen-VL,成为开源社区最受欢迎的多模态模型之一。短短一年内,模型下载量突破 1000 万次...
超越GPT-4o!阿里发布最强开源多模态模型Qwen2-VL,支持实时视频对话
克雷西 发自 凹非寺量子位 | 公众号 QbitAI新的最强开源多模态大模型来了! 阿里Qwen2大模型家族新添多模态模型Qwen2-VL,在图像和长视频理解任务上双双取得...
韩国N号房卷土重来,这一次是Deepfake,波及超200所学校
金磊 一水 发自 凹非寺量子位 | 公众号 QbitAIDeepfake(深度伪造),再度深陷舆论的风波。 这一次,用这项AI技术犯罪的严重程度被网友直呼是“韩国N号房2.0”...
Imagen 3支持人物生成,人人可用!谷歌Gemini AI重大升级来了
新智元报道编辑:桃子 【新智元导读】时隔5个月,Imagen 3终于可以人人可用了,而且还能支持是生成人物图像。与此同时,谷歌宣布了Gemini AI的重大升级,全新...
10k 星开源数据处理工具一键启动!支持 176 种语言识别;首个高层坠物检测数据集上线,含 18 个场景的近 2k 个视频
在人工智能领域,多模态数据处理一直是个难题。面对复杂的 PDF、网页和多种格式电子书,有效提取关键信息并非易事。 上海人工智能实验室和 OpenDataLab 团队...
含 14 万张图像!华中科技大学发布高质量甲骨文数据集,助力团队摘冠 ACL 最佳论文
作者:王鹏杰 编辑:十九,李宝珠 华中科技大学白翔教授研究团队的王鹏杰等人,提出了高质量的 HUST-OBC 甲骨文数据集,从书籍、网站和现有数据集这 3 种不同...
视频生成控制提升几十倍,新一代轻量级ControlNeXt火了,贾佳亚团队正挑战Scaling Law
机器之心原创 编辑:杜伟最近,又一款国产 AI 神器吸引了众网友和圈内研究人员的关注!它就是全新的图像和视频生成控制工具 —— ControlNeXt,由思谋科技创始...
深度学习还不如浅层网络?RL教父Sutton持续反向传播算法登Nature
机器之心报道 机器之心编辑部人工神经网络、深度学习方法和反向传播算法构成了现代机器学习和人工智能的基础。但现有方法往往是一个阶段更新网络权重...
图像AI那么耗算力,问题出在 RGB 格式上?
Hello,大家好,我是 JioNLP。 最近一直在想一个问题。为什么我们的图像 AI 模型那么耗算力?比如,现在多模态图文理解 AI 模型本地化部署一个节点,动不动就...