标签:文本

视觉语言模型导论:这篇论文能成为你进军VLM的第一步

机器之心报道 编辑:Panda近些年,语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型(LLM)有能力解决多种不同的任务,它们也正在成为越来越常用...
阅读原文

万字测评!开发者视角看智谱GLM-4-9B

智谱于 2024年6月5日发布了其新一代开源模型——GLM-4-9B,以 9B 的体量,同时支持了 128K 长上下文推理、26种语言多语言支持,且在多个经典评测任务上都实现了...
阅读原文

ICML 2024 Oral|外部引导的深度聚类新范式

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

CLIP当RNN用入选CVPR:无需训练即可分割无数概念|牛津大学&谷歌研究院

K君 投稿量子位 | 公众号 QbitAI循环调用CLIP,无需额外训练就有效分割无数概念。 包括电影动漫人物,地标,品牌,和普通类别在内的任意短语。 牛津大学与谷...
阅读原文

多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」

机器之心报道 编辑:蛋酱最近的一系列研究表明,纯解码器生成模型可以通过训练利用下一个 token 预测生成有用的表征,从而成功地生成多种模态(如音频、图像...
阅读原文

爆火ChatTTS突破开源语音天花板,3天斩获9k的Star量

机器之心报道 编辑:陈萍、佳琪未来人与人的交流,难道是这个样?近日,一个名为 ChatTTS 文本转语音项目爆火出圈,引来大家极大的关注。短短三天时间,在 Gi...
阅读原文

OCR小模型仍有机会!华科等提出VIMTS:零样本视频端到端识别新SOTA

新智元报道编辑:LRT 【新智元导读】通过提示查询生成模块和任务感知适配器,大一统框架VimTS在不同任务间实现更好的协同作用,显著提升了模型的泛化能力。该...
阅读原文

不影响输出质量还能追踪溯源,「大模型无偏水印」入选ICLR 2024 Spotlight

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

任意模态输入输出?语音/文本/图像/音乐都拿下! 复旦提出AnyGPT:序列建模的统一多模态 LLM

直播预告 | 5月28日10点,「智猩猩AI新青年讲座」第236讲正式开讲,密歇根大学安娜堡分校在读博士生张挥杰将直播讲解《利用多级框架和多解码器架构提高扩散模...
阅读原文

GPT模型的前世今生

大数据文摘授权转载自数据派THU 作者:李媛媛 1 GPT模型概述 GPT模型,全称Generative Pre-trained Transformer,由OpenAI团队开发,是一种基于深度学习的自...
阅读原文

Meta发布多模态模型Chameleon:34B、类GPT-4o、性能接近GPT-4V

GPT-4o 的横空出世,再次创立了一个多模态模型发展的新范式。OpenAI 将其称为「首个『原生』多模态」模型,意味着 GPT-4o 与以往所有的模型,都不尽相同。传...
阅读原文

另辟蹊径挑战GPT-4o!Meta首发混合模态大模型Chameleon

直播预告 | 5月23日晚7点,「智猩猩机器人新青年讲座」第6讲正式开讲,论文一作、清华大学在读博士郭旭东将直播讲解《大模型在具身多智能体合作中的研究进展...
阅读原文

首个中文原生DiT架构,已开源!大模型Hunyuan-DiT技术报告详解

直播预告 | 5月23日晚7点,「智猩猩机器人新青年讲座」第6讲正式开讲,论文一作、清华大学在读博士郭旭东将直播讲解《大模型在具身多智能体合作中的研究进展...
阅读原文

Meta首发「变色龙」挑战GPT-4o,34B参数引领多模态!10万亿token训练刷新SOTA

新智元报道编辑:桃子乔杨 【新智元导读】GPT-4o发布不到一周,首个敢于挑战王者的新模型诞生!最近,Meta团队发布了「混合模态」Chameleon,可以在单一神经...
阅读原文

StyleMamba:图片风格不满意?一句话就能调!

夕小瑶科技说 原创作者 | Axe_越你与哈利波特的距离,只剩一个StyleMamba! “我想,把我的图变成朦胧马赛克” “我想,我的画能不能变成美美的莫奈风格” “我想...
阅读原文
167891022