标签:本文
CVPR 2024 Highlight | 基于单曝光压缩成像,不依赖生成模型也能从单张图像中重建三维场景
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
ICLR 2024 | 联邦学习攻击的模型关键层
机器之心专栏 机器之心编辑部联邦学习使多个参与方可以在数据隐私得到保护的情况下训练机器学习模型。但是由于服务器无法监控参与者在本地进行的训练过程,参...
攻陷短视频后,Sora将需要72万块H100 GPU
机器之心报道 编辑:赵阳在被大规模采用后,Sora 的推理成本将很快超过训练成本。OpenAI 推出的 Sora 模型能够在各种场景下生成极其逼真的视频,吸引了全世界...
扩散模型进军专业图层,斯坦福提出LayerDiffuse实现分层扩散,效果直逼商业网站
大数据文摘受权转载自将门创投 目前,视觉扩散生成模型(如Stable Diffusion等)在常规图像生成任务上获得了非常好的效果,但是在内容制作的专业领域,例如对...
讨论下一个token预测时,我们可能正在走进陷阱
机器之心报道 编辑:赵阳自香农在《通信的数学原理》一书中提出「下一个 token 预测任务」之后,这一概念逐渐成为现代语言模型的核心部分。最近,围绕下一个 ...
CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术
机器之心报道 编辑:Rome Rome视频理解因大量时空冗余和复杂时空依赖,同时克服两个问题难度巨大,CNN 和 Transformer 及 Uniformer 都难以胜任,Mamba 是个...
拖拽P图技术又升级了:StableDrag更稳、更准,南大、腾讯联合打造
机器之心报道 编辑:杜伟、陈萍去年 5 月,动动鼠标就能让图片变「活」得研究 DragGAN 吸引了 AI 圈的关注。通过拖拽,我们可以改变并合成自己想要的图像,比...
全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA
机器之心专栏 机器之心编辑部半年多来,Meta 开源的 LLaMA 架构在 LLM 中经受了考验并大获成功(训练稳定、容易做 scaling)。 沿袭 ViT 的研究思路,我们能...
拆解一下字节的烧钱工作,MegaScale!
智猩猩和智东西发起主办的2024中国生成式AI大会将于4月18-19日在北京举办。主会场将进行开幕式、大模型专场、AI Infra专场和AIGC应用专场;分会场将进行具身...
RAG还是微调?微软出了一份特定领域大模型应用建设流程指南
机器之心报道 编辑:rome检索增强生成(RAG)和微调(Fine-tuning)是提升大语言模型性能的两种常用方法,那么到底哪种方法更好?在建设特定领域的应用时哪种...
GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评
新智元报道编辑:LRS 好困 【新智元导读】华中科技大学联合华南理工大学、北京科技大学等机构的研究人员对14个主流多模态大模型进行了全面测评,涵盖5个任务...
根据模型输出反转LLM输入提示,让恶意攻击无处可藏
大数据文摘授权转载自将门创投 作者:seven_ 近一段时间以来,工业界和学术界都对大型语言模型(LLM)的内部运行机理进行了深入的研究和探索。这种基础理论研...
47年前经典影片另类重制,从宇宙到原子皆是生成
机器之心报道 作者:大盘鸡从广角视图到微距拍摄,每一步由你来决定。 以躺在草坪上的男人为中心,将镜头画面按照 10 倍的比例不断扩展,你将看到一亿光年外...
骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM
机器之心报道 机器之心编辑部大模型涌向移动端的浪潮愈演愈烈,终于有人把多模态大模型也搬到了移动端上。近日,美团、浙大等推出了能够在移动端部署的多模态...