标签:特征
超过ConvNeXt,CSWin等!上海交大提出Transformer架构新SOTA:SeTformer!
直播预告 | 1月22日晚7点,「自动驾驶新青年讲座」第35讲正式开讲,LMDrive一作、香港中文大学MMLab在读博士邵昊将主讲《LMDrive:大语言模型加持的闭环端到...
多模态训练,怎么对齐不同模态?
直播预告 | 1月22日晚7点,「自动驾驶新青年讲座」第35讲正式开讲,LMDrive一作、香港中文大学MMLab在读博士邵昊将主讲《LMDrive:大语言模型加持的闭环端到...
马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力
新智元报道编辑:润 好困 【新智元导读】来自纽约大学和UC伯克利的研究团队成功捕捉到了多模态大模型在视觉理解方面存在的重大缺陷。针对这个问题,他们进一...
几何纹理重建新SOTA!浙大提出SIFU:单图即可重建高质量3D人体模型
新智元报道编辑:LRS 【新智元导读】最近来自浙江大学ReLER实验室的研究人员提出SIFU模型,一种侧视图条件隐函数模型用于单张图片3D人体重建。模型通过引入人...
扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略
新智元报道编辑:好困 桃子 【新智元导读】过去一年扩散模型风头正劲,彻底改变了文生图领域!那么,扩散模型能否处理视觉感知任务?字节跳动和复旦大学技术...
Yann LeCun发来肯定:腾讯人像照片生成可以随便玩了
机器之心报道 编辑:陈萍、大盘鸡AI 帮你成为百变星君。 这一次,Yann LeCun 首次跻身「百变大咖」。身穿钢铁侠的衣服、戴着酷酷的墨镜面无表情地注视着你,...
兵马俑跳《科目三》,是我万万没想到的
金磊 发自 凹非寺量子位 | 公众号 QbitAI家人们,火爆全球的魔性舞蹈《科目三》,谁能料到,就连兵马俑也开始跳上了! 热度还居高不下,瞬间被轰上了热搜,小...
挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型
机器之心专栏 机器之心编辑部5 年前,Transformer 在国际神经信息处理大会 NeurIPS 2017 发表,后续其作为核心网络架构被广泛用于自然语言处理和计算机视觉等...
Faster Diffusion | 深入挖掘UNet编码器作用,加速41%采样速度,效果几乎不下降
直播预告 | 今晚7点,「AI新青年讲座」232讲正式开讲,清华大学在读博士刘世隆主讲《LLaVA-Plus:学习使用视觉工具插件的多模态智能体》,欢迎扫码报名。http...
14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍
机器之心报道 机器之心编辑部Meta的视频合成新框架又给了我们一点小小的震撼。就今天的人工智能发展水平来说,文生图、图生视频、图像/视频风格迁移都已经不...
AI读心术震撼登顶会!模型翻译脑电波,人类思想被投屏|NeurIPS 2023
新智元报道编辑:alan 【新智元导读】在最近举办的NeurIPS大会上,研究人员展示了当代AI更震撼的应用场景——AI读心术!我们今天的AI能做到哪些事情? AI画图、...
大模型推理效率无损提升3倍,滑铁卢大学、北京大学等机构发布EAGLE
机器之心专栏机器之心编辑部大语言模型(LLM)被越来越多应用于各种领域。然而,它们的文本生成过程既昂贵又缓慢。这种低效率归因于自回归解码的运算规则:每...
华为诺亚&清华:基于认知的万物超分大模型CoSeR
机器之心专栏机器之心编辑部从低清图像中提取认知特征,这样的超分辨率才更真实。图像超分辨率技术旨在将低分辨率图像转换为高分辨率图像,从而提高图像的清...
GTA6预告片播放过亿,AI三巨头也能秒变GTA匪帮
机器之心专栏机器之心编辑部GTA 新出的游戏预告片看了吗?据说,这个预告片已经破了三项吉尼斯世界纪录,观看次数已经破亿。但如果告诉你,AI 三巨头也可以成...
小模型也可以「分割一切」,Meta改进SAM,参数仅为原版5%
机器之心报道编辑:陈萍、蛋酱对于 2023 年的计算机视觉领域来说,「」(Segment Anything Model)是备受关注的一项研究进展。Meta四月份发布的「分割一切模...