标签:编码器
AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!
这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...
超GPT-4o,1240亿参数!最强开源多模态模型 Pixtral Large!
大会预告12月5-6日,智猩猩共同主办的2024中国生成式AI大会(上海站)将举办。北大(临港)大模型对齐中心执行主任徐骅,腾讯优图实验室天衍研究中心负责人吴...
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
新智元报道编辑:alan 【新智元导读】以开源极客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节...
浙大开源“最懂Excel的GPT”!首次将结构化数据作为独立模态训练,刷榜提升40百分点
明敏 发自 凹非寺量子位 | 公众号 QbitAI大模型理解复杂表格,能力再次飞升了! 不仅能在不规则表格中精准找到相关信息,还能直接进行计算。 比如提问: 如果...
NeurIPS 2024收录!基于扩散模型编码器模块的推理加速丨一作、南开大学博士生李森茂讲座预告
最近,文本到图像的扩散模型取得了显着的进步。值得注意的是,Stable Diffusion和DeepFloyd-IF是当前开源社区中最成功的两个扩散模型。这些模型基于UNet架构...
谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍
新智元报道编辑:乔杨 【新智元导读】在NLP领域,研究者们已经充分认识并认可了表征学习的重要性,那么视觉领域的生成模型呢?最近,谢赛宁团队发表的一篇研...
DeepSeek新作Janus:解耦视觉编码,引领多模态理解与生成统一新范式
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
SAM 2.1上新、Lingua代码库发布,一大波Meta开源工具来袭
机器之心报道 机器之心编辑部今天,Meta 分享了一系列研究和模型,这些研究和模型支撑 Meta 实现高级机器智能(AMI)目标,同时也致力于开放科学和可复现...
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,速度秒杀FLUX
新智元报道编辑:桃子 好困 【新智元导读】一台4090笔记本,秒生1K质量高清图。英伟达联合MIT清华团队提出的Sana架构,得益于核心架构创新,具备了惊人的图像...
扩散模型训练方法一直错了!谢赛宁:Representation matters
机器之心报道 编辑:Panda、小舟Representation matters. Representation matters. Representation matters.是什么让纽约大学著名研究者谢赛宁三连呼喊「Repr...
Meta版Sora无预警来袭!抛弃扩散损失,音视频生成/画面编辑全包,92页论文无保留公开
梦晨 衡宇 发自 凹非寺量子位 | 公众号 QbitAI刚刚,Meta抢在OpenAI之前推出自己的Sora——Meta Movie Gen Sora有的它都有,可创建不同宽高比的高清长视频,支...
仅用4块GPU、不到3天训练出「开源版GPT-4o」,这是国内团队最新研究
机器之心报道 编辑:小舟、陈陈LLaMA-Omni能够接收语音指令,同步生成文本和语音响应,响应延迟低至 226ms,低于 GPT-4o 的平均音频响应延迟 320ms。以 ChatG...
Mistral多模态大模型来了!120亿参数,原生支持任意大小/数量图像,公司估值已达420亿
明敏 发自 凹非寺量子位 | 公众号 QbitAIMistral的多模态大模型来了! Pixtral 12B正式发布,同时具备语言和视觉处理能力。 它建立在文本模型Nemo 12B基础上...
机器人也会系鞋带了!斯坦福团队用模仿学习赋予机器人新技能丨已开源
叨乐 发自 凹非寺量子位 | 公众号 QbitAI斯坦福年初刚教完机器人炒菜,现在又教机器人系鞋带! 他们还发布了全球首个机器人自主系鞋带演示视频: 与之前的炒...
韩国N号房卷土重来,这一次是Deepfake,波及超200所学校
金磊 一水 发自 凹非寺量子位 | 公众号 QbitAIDeepfake(深度伪造),再度深陷舆论的风波。 这一次,用这项AI技术犯罪的严重程度被网友直呼是“韩国N号房2.0”...
MSU世界视频编码器大赛成绩出炉,腾讯包揽全部指标第一名
机器之心发布 机器之心编辑部今日获悉,由莫斯科国立大学举办的 MSU 世界视频编码器大赛结果揭晓。在全部参赛编码器中,腾讯编码器包揽所有 15 项指标的全部...