标签:文本
CVPR'24:文生图提示词自动优化,还发现三个小窍门,人大度小满等机构出品
PAE团队 投稿至 凹非寺量子位 | 公众号 QbitAI文生图也有自己的prompt优化工具了。 我们都知道,大模型输出的质量,很大程度上依赖于输入的prompt。尤其在文...
按需搭配一键叠穿,效果拿下新SOTA!中山大学&字节智创数字人团队提出虚拟试穿新框架
MMTryon团队 投稿量子位 | 公众号 QbitAI多件衣服按指定穿法一键虚拟试穿! 中山大学&字节智创数字人团队提出了一个名为MMTryon的虚拟试穿框架,可以通过...
亚马逊云创新「神经稀疏检索」:仅需要文本匹配就能实现语义搜索
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
通用多模态人工智能:架构、挑战和机遇综述
来源:专知 多模态模型被认为是未来人工智能进步的关键组成部分。由于基础模型在自然语言处理 (NLP) 和视觉领域的成功,这一领域正迅速发展,并涌现出大量新...
将图像自动文本化,图像描述质量更高、更准确了
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像,中科大哈工大度小满出品
STAR团队 投稿自 凹非寺量子位 | 公众号 QbitAI超越扩散模型!自回归范式在图像生成领域再次被验证—— 中科大、哈工大、度小满等机构提出通用文生图模型STAR。...
Claude 3.5 发布!性能超越GPT-4o和Claude 3 Opus!
夕小瑶科技说 原创作者 | 醒醒Claude大模型又双叒叕更新升级了!刚刚,OpenAI最强对手Anthropic官宣了Claude 3.5 系列的第一个大模型——Claude 3.5 Sonnet。 ...
Sora 团队负责人 Aditya Ramesh 对话谢赛宁丨压缩一切!视觉与语言模态的融合
大数据文摘受权转载自智源社区 2024 年 6 月 14 日,一年一度的智源大会又迎来重磅嘉宾。 当红视频生成大模型「Sora」团队的负责人Aditya Ramesh在2024智源大...
字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
Scaling Law触礁「数据墙」?Epoch AI发文预测LLM到2028年耗尽所有文本数据
新智元报道编辑:乔杨 【新智元导读】训练数据的数量和质量,对LLM性能的重要性已经是不言自明的事实。然而,Epoch AI近期的一篇论文却给正在疯狂扩展的AI模...
刚刚!Stable Diffusion 3 重磅开源,超全图像生成必备训练数据集、教程汇总
Stability AI 已经正式开源 Stable Diffusion 3(简称 SD3)!SD3 是一个图像生成模型,只要给定一段描述性的文字,就能够创造出与之匹配的视觉作品。下图就...
GPT-4o更容易越狱?北航&南洋理工上万次测试给出详细分析
北航&南洋理工联合团队投稿量子位 | 公众号 QbitAIGPT-4o,比上一代更容易被越狱攻击了? 来自北航和南洋理工的研究人员,通过上万次的API查询,对GPT-4o...
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
机器之心报道 编辑:Panda近些年,语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型(LLM)有能力解决多种不同的任务,它们也正在成为越来越常用...
万字测评!开发者视角看智谱GLM-4-9B
智谱于 2024年6月5日发布了其新一代开源模型——GLM-4-9B,以 9B 的体量,同时支持了 128K 长上下文推理、26种语言多语言支持,且在多个经典评测任务上都实现了...
ICML 2024 Oral|外部引导的深度聚类新范式
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...