标签:字幕

在线可玩!智谱开源图生视频模型,网友直呼Amazing!

叨乐 发自 凹非寺量子位 | 公众号 QbitAI刚刚,智谱把清影背后的图生视频模型CogVideoX-5B-I2V给开源了!(在线可玩) 一起开源的还有它的标注模型cogvlm2-ll...
阅读原文

智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

机器之心报道 机器之心编辑部智谱AI把自研打造的大模型给开源了。 国内视频生成领域越来越卷了。刚刚,智谱 AI 宣布将与「清影」同源的视频生成模型 ——CogVid...
阅读原文

4090单卡可跑,6秒直出电影级画质,智谱版Sora正式开源!

新智元报道编辑:编辑部 【新智元导读】国内首个人人可用的国产Sora「清影」,已经引起了AI视频圈的轰动!才发布6天,生成视频数就已经破百万。并且,智谱AI...
阅读原文

中国的开源版 sora:4090 内单卡运行,A6000 可微调

智谱版 Sora「清影」正式开源,第一个开源的商用级视频生成模型。7 月 26 日,智谱发布AI 生视频产品「清影」,30秒将任意文图生成视频,并上线在他们的AI助...
阅读原文

国产版Sora开源了!推理优化到18G,4090单卡可跑

国产视频生成模型又有新进展。 作者|ZeR0 编辑|漠影 智东西8月6日报道,好消息,智谱AI的视频生成模型CogVideoX-2B,昨晚正式开源了。 模型已上架GitHub、Hug...
阅读原文

智谱AI版Sora开源!首个可商用,在线可玩,5小时GitHub狂揽3.7K星

金磊 发自 凹非寺量子位 | 公众号 QbitAI国产版Sora真的卷疯了。 就在刚刚,智谱AI直接把清影视频生成背后的大模型给开源了。 而且是首个可商用的那种哦! 这...
阅读原文

硅谷大厂被曝违规“偷”数据:苹果Anthropic用YouTube视频训练AI

创作者声称他们的视频在他们不知情的情况下被使用。 编译|ZeR0 编辑|漠影 智东西7月17日消息,Proof News的一项最新调查发现,从超过48,000个频道窃取的173,5...
阅读原文

首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次

新智元报道编辑:alan 好困 【新智元导读】近日,首个多模态LLM视频分析综合评估基准Video-MME诞生!在这场全新的考试中,Gemini 1.5 Pro一路遥遥领先,谷歌...
阅读原文

百万级高质量视频数据集发布,登顶抱抱脸数据集排行榜,中科大&上海AI Lab等出品

ShareGPT4V团队 投稿量子位 | 公众号 QbitAI中科大、上海AI实验室等组成的ShareGPT4V团队,推出了新的视频数据集,登顶HuggingFace排行榜! 数据集涵盖了3000...
阅读原文

ShareGPT4V作者团队又一力作!百万高质量视频-字幕数据助力社区提升多模态大模型视频理解及生成能力

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

Gemini视频推理遥遥领先GPT-4o,Jeff Dean连续转发三次,首个视频多模态基准Video-MME来了

梦晨 发自 凹非寺量子位 | 公众号 QbitAIOpenAI和谷歌接连两场发布会,把AI视频推理卷到新高度。 但业界还缺少可以全面评估大模型视频推理能力的基准。 终于...
阅读原文

GPT-4o仅排第二!北大港大等6所高校联手,发布权威多模态大模型榜单!

夕小瑶科技说 原创作者 | 谢年年多模态大模型视频分析能力榜单出炉: Gemini 1.5 Pro最强,GPT-4o仅排第二? 曾经红极一时的GPT-4V屈居第三。 最近,北大港大...
阅读原文

第一个能听懂人类语气的AI火了,网友:感觉在和真人交谈

西风 发自 凹非寺量子位 | 公众号 QbitAI第一个能听懂你说话的语气、有“情商”的AI火了! 请看VCR: △字幕为机器翻译 这个AI名为EVI(Empathic Voice Interfac...
阅读原文

百度网盘变了!进化成学习神器:音视频转文稿、加字幕,还能一键生成PPT!

金磊 发自 凹非寺量子位 | 公众号 QbitAI你绝对想不到现在最fashion的学习“姿势”是什么——百度网盘!你以为只是拿它用来存储课件、资料吗?不不不,现在的百度...
阅读原文