标签:特征

今日arXiv最热大模型论文:复旦提出基于diffusion的虚拟试衣模型,模特一键换装

夕小瑶科技说 原创作者 | 谢年年仅需上传模特图像,便可一键换装,极大提高了用户网购衣服的效率。 虚拟试衣(Virtual Try-On)作为图像生成中一个商业价值高...
阅读原文

字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

允中 发自 凹非寺量子位 | 公众号 QbitAI视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。 字节提出新基础模型——ViTamin,专为视觉语言时代...
阅读原文

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

加速催化剂设计,上海交大贺玉莲课题组基于 AutoML 进行知识自动提取

作者:梅菜 编辑:李宝珠,三羊 上海交通大学密西根学院助理教授贺玉莲课题组,针对确定决定Eads的关键物理量提出了一种新方法,即基于自动机器学习 (AutoML)...
阅读原文

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

机器之心专栏 机器之心编辑部InstantID 原班团队推出了风格迁移的新方法InstantStyle。风格化图像生成,也常称为风格迁移,其目标是生成与参考图像风格一致的...
阅读原文

剑指Sora!120秒超长AI视频模型免费开玩

新智元报道编辑:alan 【新智元导读】近日,Picsart AI Resarch等团队联合发布了StreamingT2V,可以生成长达1200帧、时长为2分钟的视频,一举超越Sora。同时...
阅读原文

低成本算法,大幅提升视觉分类鲁棒性!悉尼大学华人团队发布全新EdgeNet方法

新智元报道编辑:LRS 【新智元导读】EdgeNet可以处理从干净的自然图像或嘈杂的对抗性图像中提取的边缘,产生鲁棒的特征,具有轻量级、即插即用等特点,能够无...
阅读原文

基于多模态数据的学习者专注度研究

大数据文摘受权转载自中国人工智能学会 文 / 武法提专注是产生有效学习的先决条件,在以自主学习为主的在线学习场景中具有更为重要的作用,但在线学习时空分...
阅读原文

CVPR 2024 | 更高效、更准确的拖拽编辑 Drag Your Noise

新加坡管理大学何盛烽团队联合华南师范大学在CVPR 2024上发表了工作《Drag Your Noise: Interactive Point-based Editing via Diffusion Semantic Propagatio...
阅读原文

超越Sora极限,120秒超长AI视频模型诞生!

新智元报道编辑:润 好困 【新智元导读】UT奥斯丁等机构提出了一种名为StreamingT2V的技术,让AI视频的长度扩展至近乎无限,而且一致性,动作幅度也非常好!S...
阅读原文

3D重建范式变革!最新模型MVDiffusion++:无需相机姿态,即可实现高清3D模型重建

新智元报道编辑:LRS 【新智元导读】受人类视觉系统的启发,MVDiffusion++结合计算方法高保真和人类视觉系统灵活性,可以根据任意数量的无位姿图片, 生成密...
阅读原文

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

机器之心专栏 机器之心编辑部虽然我从来没见过你,但是我有可能「认识」你 —— 这是人们希望人工智能在「一眼初见」下达到的状态。 为了达到这个目的,在传统...
阅读原文

康奈尔开源近10万份审稿意见,未来论文发表或将由AI定夺

夕小瑶科技说 原创作者 | Tscom引言:自动化论文评审的潜力与挑战大语言模型(LLMs)的进步为自动化论文评审开辟了新途径,这些模型在学术反馈领域展现出巨大...
阅读原文

几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型:从质疑Scaling到成为Scaling

新智元报道编辑:LRS 好困 【新智元导读】本文提出了扩散模型中UNet的long skip connection的scaling操作可以有助于模型稳定训练的分析,目前已被NeurIPS 202...
阅读原文