标签:图像
VLDB ’25 最后 6 天截稿,58 个顶会信息纵览;ISPRS 城市分割数据集上线
💥「顶会」板块上线 hyper.ai 官网啦!该板块为大家提供最新最全的CCF A 类计算机顶会信息,包含会议简介、截稿倒计时、投稿链接等。 你是不是已经注册了顶会...
如何用深度学习框架 PyTorch 进行数据处理? | Q 福利
在深度学习处理复杂任务时,数据预处理是至关重要的一环。PyTorch 作为一款热门的深度学习框架,提供了丰富的数据处理工具。通过 PyTorch,开发者可以轻松地...
4倍内存效率,生成和超分双SOTA!清华&智谱AI发布最新Inf-DiT模型
直播预告 | 5月28日10点,「智猩猩AI新青年讲座」第236讲正式开讲,密歇根大学安娜堡分校在读博士生张挥杰将直播讲解《利用多级框架和多解码器架构提高扩散模...
用基础模型指导特征传播,首个泛化型图像匹配器OmniGlue搞定未见过域
机器之心报道 编辑:杜伟第一个以「泛化」能力为核心设计原则的可学习图像匹配器来了!对于想要获取两张图像之间的细粒度视觉对应关系而言,局部图像特征匹配...
标注受限也能识别多标签图像!中山大学等发布异构语义转移HST框架 | IJCV 2024
新智元报道编辑:LRT 【新智元导读】在多标签图像识别领域中,由于图像本身和潜在标签类别的复杂性,收集满足现有模型训练的多标签标注信息往往成本高昂且难...
杨幂+小兰会是什么样?中山大学新AI成果,实现人脸个性化SOTA
皓楠投稿自 凹非寺量子位 | 公众号 QbitAI只需上传一张照片,就能瞬间变换身份,获得高精度个人写真! 或是科幻电影中的超级英雄,或是穿越时空的复古角色…… ...
Wegic:收起你那根戳设计师屏幕的手指
AI 页面仔呀,听说过么,Web Designer 呀!省流环节:Wegic 是一个基于自然语义互动的网站开发 AI 工具,通过简单的聊天对话进行指令交互,支持零基础开发设...
OpenAI安全系统负责人:从头构建视频生成扩散模型
作者 |Lilian Weng OneFlow编译 翻译|杨婷、宛子琳、张雪聃 题图由SiliconFlow MaaS平台生成 过去几年,扩散模型(Diffusion models)在图像合成领域取得了...
一键“搬空”你未来的新家,AI让买房装修变简单了?
大数据文摘授权转载自夕小瑶科技说作者:Richard 大家肯定都幻想过,要是能按自己的想法随心所欲布置新家该多好啊。租房或买房时看中一处房子,如果能在看房...
Meta发布多模态模型Chameleon:34B、类GPT-4o、性能接近GPT-4V
GPT-4o 的横空出世,再次创立了一个多模态模型发展的新范式。OpenAI 将其称为「首个『原生』多模态」模型,意味着 GPT-4o 与以往所有的模型,都不尽相同。传...
AI一键"搬空"你未来的新家,买房装修变得简单了?
夕小瑶科技说 原创作者 | Richard大家肯定都幻想过,要是能按自己的想法随心所欲布置新家该多好啊。租房或买房时看中一处房子,如果能在看房前先把家具'搬空'...
爆打多模态王者 GPT-4V、Gemini Pro!这个小小端侧模型杀疯了!
夕小瑶科技说 分享多模态王者 GPT-4V、Gemini Pro ,竟然被一个端侧模型打爆了!而且这个模型还凭强劲实力拿下了全球最强端侧多模态模型王座! 有图有真相。...
国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro!稳坐端侧多模态铁王座
新智元报道编辑:桃子 好困 【新智元导读】杀疯了!一夜之间,全球最强端侧多模态模型再次刷新,仅用8B参数,击败了多模态巨无霸Gemini Pro、GPT-4V。而且,...
让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机
机器之心报道 编辑:陈萍此次,苹果提出的多模态大语言模型(MLLM) Ferret-UI ,专门针对移动用户界面(UI)屏幕的理解进行了优化,其具备引用、定位和推理...
另辟蹊径挑战GPT-4o!Meta首发混合模态大模型Chameleon
直播预告 | 5月23日晚7点,「智猩猩机器人新青年讲座」第6讲正式开讲,论文一作、清华大学在读博士郭旭东将直播讲解《大模型在具身多智能体合作中的研究进展...