标签:文本
开源两周4.7k标星,港大LightRAG大幅降低大模型问答成本,全面理解复杂实体依赖关系
港大黄超团队 投稿量子位 | 公众号 QbitAI简单高效的大模型检索增强系统LightRAG,香港大学黄超团队最新研究成果。 开源两周时间在GitHub上获得将近5k标星,...
OCR-Omni来了,字节&华师统一多模态文字理解与生成 | NeurIPS2024
TextHarmony团队 投稿量子位 | 公众号 QbitAI多模态生成新突破,字节&华师团队打造TextHarmony,在单一模型架构中实现模态生成的统一,并入选NeurIPS 202...
Meta Movie Gen:新的 SOTA 视频生成模型-技术报告解读
01背景前段时间 Meta 发布了对标 OpenAI SORA 和快手可灵的视频生成模型 Movie Gen,这里我们进行相关的技术解读。本文主要聚焦在其图像和视频生成模型部分,...
苹果多模态模型大升级!文本密集、多图理解,全能小钢炮
新智元报道编辑:alan 【新智元导读】近日,一向画风精致的「苹果牌AI」,也推出了升级版的多模态大模型,从1B到30B参数,涵盖密集和专家混合模型,密集文本...
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
新智元报道编辑:LRS 【新智元导读】Playground Research推出了新一代文本到图像模型PGv3,具备240亿参数量,采用深度融合的大型语言模型,实现了在图形设计...
ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
全方位超越 Sora,Meta 最新的 AI 视频模型到底强在哪里?
全能生成王这两天,视频生成模型领域因为 Meta Movie Gen 的发布,又炸开了锅。 行业内外感叹最多的地方,无外乎两点,一是生成效果自然逼真,还能同步生成与...
一键拯救废片!3个在线教程,实现光线重塑、表情迁移、模糊图像修复
作者:李宝珠 我们为大家整理了 3 款拯救废片神器及其一键部署教程,快速 get 精致朋友圈!您的国庆假期余额已不足 2 天!旅游或是归家探亲的小伙伴是不是都...
Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功
来源:机器学习研究组订阅 毫无预兆地,Meta版Sora——Movie Gen,就在刚刚抢先上线了! Meta将其称为「迄今最先进的媒体基础模型」。 全新上线的大杀器Movie G...
Meta版Sora无预警来袭!抛弃扩散损失,音视频生成/画面编辑全包,92页论文无保留公开
梦晨 衡宇 发自 凹非寺量子位 | 公众号 QbitAI刚刚,Meta抢在OpenAI之前推出自己的Sora——Meta Movie Gen Sora有的它都有,可创建不同宽高比的高清长视频,支...
mini-GPT4o来了? 能看、能听、会说,还情感丰富的多模态全能助手EMOVA
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
666条数据教会AI写万字长文!模型数据集都开源
魔搭ModelScope团队 投稿量子位 | 公众号 QbitAI仅需600多条数据,就能训练自己的长输出模型了?! 事情是酱婶儿的—— 虽然大模型的上下文(Context)支持越来越...
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
新智元报道编辑:桃子 好困 【新智元导读】Meta首个理解图文的多模态Llama 3.2来了!这次,除了11B和90B两个基础版本,Meta还推出了仅有1B和3B轻量级版本,适...
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
新智元报道编辑:LRS 【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了L...
仅用4块GPU、不到3天训练出「开源版GPT-4o」,这是国内团队最新研究
机器之心报道 编辑:小舟、陈陈LLaMA-Omni能够接收语音指令,同步生成文本和语音响应,响应延迟低至 226ms,低于 GPT-4o 的平均音频响应延迟 320ms。以 ChatG...