标签:文本

ChatGPT新增语音朗读功能,可直接用来配音了

点击上方蓝字关注我们“OpenAI最新发布的ChatGPT语音朗读功能,这项功能不仅让用户通过语音交流,还能将文本转化为清晰流畅的语音,为自媒体创作者带来了便捷...
阅读原文

7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力

新智元报道编辑:LRS 好困 【新智元导读】研究人员证实了Visual Graph在图推理中的作用,以及其可以和文本模态相互增强。图神经网络(GNNs)擅长利用图的结构...
阅读原文

复旦等发布AnyGPT:任意模态输入输出,图像、音乐、文本、语音都支持

机器之心报道 机器之心编辑部最近,OpenAI 的视频生成模型 Sora 爆火,生成式 AI 模型在多模态方面的能力再次引起广泛关注。 现实世界本质上是多模态的,生物...
阅读原文

60行代码,从头开始构建GPT!最全实践指南来了

新智元报道编辑:桃子 【新智元导读】GPT早已成为大模型时代的基础。国外一位开发者发布了一篇实践指南,仅用60行代码构建GPT。60行代码,从头开始构建GPT? ...
阅读原文

微软37页论文逆向工程Sora,得到了哪些结论?

机器之心报道 机器之心编辑部一篇论文回顾 Sora 文生视频技术的背景、技术和应用。 追赶 Sora,成为了很多科技公司当下阶段的新目标。研究者们好奇的是:Sora...
阅读原文

苏剑林:“闭门造车”之多模态模型方案浅谈

智猩猩和智东西发起主办的2024中国生成式AI大会将于4月18-19日在北京举办。主会场将进行开幕式、大模型专场、AI Infra专场和AIGC应用专场;分会场将进行具身...
阅读原文

一览大模型长文本能力

智猩猩和智东西发起主办的2024中国生成式AI大会将于4月18-19日在北京举办。主会场将进行开幕式、大模型专场、AI Infra专场和AIGC应用专场;分会场将进行具身...
阅读原文

复旦发布多模态大模型AnyGPT,文图语乐样样行

夕小瑶科技说 原创作者 | 芒果 引言:多模态语言模型新篇章在人工智能领域,多模态语言模型的发展正迎来新的篇章。传统的大型语言模型(LLM)在理解和生成人...
阅读原文

谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA

新智元报道编辑:桃子 【新智元导读】谷歌团队推出「通用视觉编码器」VideoPrism,在3600万高质量视频字幕对和5.82亿个视频剪辑的数据集上完成了训练,性能刷...
阅读原文

谷歌VideoPoet负责人蒋路跳槽TikTok!对标Sora,AI视频模型大战在即

新智元报道编辑:编辑部 【新智元导读】谷歌Research Lead,负责VideoPoet项目的蒋路,即将加入TikTok,负责视频生成AI的开发。谷歌VideoPoet项目Research Le...
阅读原文

爆火Sora背后的技术,一文综述扩散模型的最新发展方向

机器之心专栏 机器之心编辑部为了使机器具有人类的想象力,深度生成模型取得了重大进展。这些模型能创造逼真的样本,尤其是扩散模型,在多个领域表现出色。扩...
阅读原文

今日Arxiv最热NLP大模型论文:浙江大学发布统一的幻觉检测框架UNIHD

夕小瑶科技说 原创作者 | 芒果、Python引言:多模态大语言模型的幻觉问题及其重要性在人工智能领域,多模态大语言模型(MLLMs)已经取得了显著的进步,它们在...
阅读原文

Gemini一眼识破Sora视频是AI生成?百万token上下文能力碾压GPT-4

新智元报道编辑:润 好困 【新智元导读】Gemini 1.5的真实水平到底怎么样,从谷歌那里获得试用资格的大佬们,给大家进行了一波极限测试。让我们看看谷歌最新...
阅读原文

离开OpenAI的大神卡帕西「开课了」:新项目日增千星,还是熟悉的min代码风

鱼羊 发自 凹非寺量子位 | 公众号 QbitAI大神Karpathy从OpenAI离职,原本扬言要大休一周。 但转眼,新项目就已上线GitHub,日增上千星的那种。 还是熟悉的卡...
阅读原文

GitHub热榜第一:百万token上下文,还能生成视频,UC伯克利出品

克雷西 发自 凹非寺量子位 | 公众号 QbitAI今日GitHub热榜榜首,是最新的开源世界模型。 上下文窗口长度达到了100万token,持平了谷歌同时推出的王炸Gemini 1...
阅读原文
1111213141522