标签:文本
ICML 2024 Oral|外部引导的深度聚类新范式
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
CLIP当RNN用入选CVPR:无需训练即可分割无数概念|牛津大学&谷歌研究院
K君 投稿量子位 | 公众号 QbitAI循环调用CLIP,无需额外训练就有效分割无数概念。 包括电影动漫人物,地标,品牌,和普通类别在内的任意短语。 牛津大学与谷...
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」
机器之心报道 编辑:蛋酱最近的一系列研究表明,纯解码器生成模型可以通过训练利用下一个 token 预测生成有用的表征,从而成功地生成多种模态(如音频、图像...
爆火ChatTTS突破开源语音天花板,3天斩获9k的Star量
机器之心报道 编辑:陈萍、佳琪未来人与人的交流,难道是这个样?近日,一个名为 ChatTTS 文本转语音项目爆火出圈,引来大家极大的关注。短短三天时间,在 Gi...
OCR小模型仍有机会!华科等提出VIMTS:零样本视频端到端识别新SOTA
新智元报道编辑:LRT 【新智元导读】通过提示查询生成模块和任务感知适配器,大一统框架VimTS在不同任务间实现更好的协同作用,显著提升了模型的泛化能力。该...
不影响输出质量还能追踪溯源,「大模型无偏水印」入选ICLR 2024 Spotlight
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
任意模态输入输出?语音/文本/图像/音乐都拿下! 复旦提出AnyGPT:序列建模的统一多模态 LLM
直播预告 | 5月28日10点,「智猩猩AI新青年讲座」第236讲正式开讲,密歇根大学安娜堡分校在读博士生张挥杰将直播讲解《利用多级框架和多解码器架构提高扩散模...
GPT模型的前世今生
大数据文摘授权转载自数据派THU 作者:李媛媛 1 GPT模型概述 GPT模型,全称Generative Pre-trained Transformer,由OpenAI团队开发,是一种基于深度学习的自...
Meta发布多模态模型Chameleon:34B、类GPT-4o、性能接近GPT-4V
GPT-4o 的横空出世,再次创立了一个多模态模型发展的新范式。OpenAI 将其称为「首个『原生』多模态」模型,意味着 GPT-4o 与以往所有的模型,都不尽相同。传...
另辟蹊径挑战GPT-4o!Meta首发混合模态大模型Chameleon
直播预告 | 5月23日晚7点,「智猩猩机器人新青年讲座」第6讲正式开讲,论文一作、清华大学在读博士郭旭东将直播讲解《大模型在具身多智能体合作中的研究进展...
首个中文原生DiT架构,已开源!大模型Hunyuan-DiT技术报告详解
直播预告 | 5月23日晚7点,「智猩猩机器人新青年讲座」第6讲正式开讲,论文一作、清华大学在读博士郭旭东将直播讲解《大模型在具身多智能体合作中的研究进展...
Meta首发「变色龙」挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA
新智元报道编辑:桃子乔杨 【新智元导读】GPT-4o发布不到一周,首个敢于挑战王者的新模型诞生!最近,Meta团队发布了「混合模态」Chameleon,可以在单一神经...
StyleMamba:图片风格不满意?一句话就能调!
夕小瑶科技说 原创作者 | Axe_越你与哈利波特的距离,只剩一个StyleMamba! “我想,把我的图变成朦胧马赛克” “我想,我的画能不能变成美美的莫奈风格” “我想...
媲美Sora!谷歌Veo来了,文生超1分钟、1080P视频
直播预告|今晚七点,「企业级大模型工程实践在线研讨会」将举行。阿里巴巴 AI 基础架构工程师刘彬、NVIDIA 软件解决方案架构师吴金钟两位技术专家将分别主讲...
OpenAI干翻所有语音助手!GPT-4o模型实时语音视频交互强到恐怖,完全免费开放
智东西5月14日报道,今日凌晨1点,抢在谷歌年度开发者大会Google I/O开幕前,OpenAI举办春季线上直播,宣布将推出桌面版ChatGPT,并发布全新旗舰AI模型GPT-4o...