标签：编码器

WPS接入DeepSeek，秒变办公神器！

WPS 大家经常用来日常写作，虽然本身提供了AI功能，但可惜需要会员，本文教你三分钟接入最火的DeepSeek，让WPS秒变办公神器。 DeepSeek API申请地址：http:/...

阅读原文

AI教程

1年前 (2025)

AI赚钱副业~AI生成影视解说，半个月涨粉变现3.5W+！

这两年大家都在感叹生活不易，然而我想说的是，机会还是有的，但问题不在于有没有，而在于你是否能够认准机会，然后抓住它。接触过很多咨询项目的人，发现...

使用教程

2年前 (2024)

超GPT-4o，1240亿参数！最强开源多模态模型 Pixtral Large！

大会预告12月5-6日，智猩猩共同主办的2024中国生成式AI大会（上海站）将举办。北大（临港）大模型对齐中心执行主任徐骅，腾讯优图实验室天衍研究中心负责人吴...

阅读原文

AIGC动态

2年前 (2024)

多模态竞技场对标90B Llama 3.2！Pixtral 12B技术报告全公开

新智元报道编辑：alan 【新智元导读】以开源极客之姿杀入江湖的Mistral AI，在9月份甩出了自家的首款多模态大模型Pixtral 12B，如今，报告之期已至，技术细节...

阅读原文

AIGC动态

2年前 (2024)

浙大开源“最懂Excel的GPT”！首次将结构化数据作为模态训练，刷榜提升40百分点

明敏发自凹非寺量子位 | 公众号 QbitAI大模型理解复杂表格，能力再次飞升了！不仅能在不规则表格中精准找到相关信息，还能直接进行计算。比如提问：如果...

阅读原文

AIGC动态

2年前 (2024)

NeurIPS 2024收录！基于扩散模型编码器模块的推理加速丨一作、南开大学博士生李森茂讲座预告

最近，文本到图像的扩散模型取得了显着的进步。值得注意的是，Stable Diffusion和DeepFloyd-IF是当前开源社区中最成功的两个扩散模型。这些模型基于UNet架构...

阅读原文

AIGC动态

2年前 (2024)

谢赛宁新作：表征学习有多重要？一个操作刷新SOTA，DiT训练速度暴涨18倍

新智元报道编辑：乔杨【新智元导读】在NLP领域，研究者们已经充分认识并认可了表征学习的重要性，那么视觉领域的生成模型呢？最近，谢赛宁团队发表的一篇研...

阅读原文

AIGC动态

2年前 (2024)

DeepSeek新作Janus：解耦视觉编码，引领多模态理解与生成统一新范式

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

2年前 (2024)

SAM 2.1上新、Lingua代码库发布，一Meta开源工具来袭

机器之心报道机器之心编辑部‍‍‍‍今天，Meta 分享了一系列研究和模型，这些研究和模型支撑 Meta 实现高级机器智能（AMI）目标，同时也致力于开放科学和可复现...

阅读原文

AIGC动态

2年前 (2024)

4090笔记本0.37秒直出大片！英伟达联手MIT清华祭出Sana架构，速度秒杀FLUX

新智元报道编辑：桃子好困【新智元导读】一台4090笔记本，秒生1K质量高清图。英伟达联合MIT清华团队提出的Sana架构，得益于核心架构创新，具备了惊人的图像...

阅读原文

AIGC动态

2年前 (2024)

扩散模型训练方法一直错了！谢赛宁：Representation matters

机器之心报道编辑：Panda、小舟Representation matters. Representation matters. Representation matters.是什么让纽约大学著名研究者谢赛宁三连呼喊「Repr...

阅读原文

AIGC动态

2年前 (2024)

Meta版Sora无预警来袭！抛弃扩散损失，音视频生成/画面编辑全包，92页论文无保留公开

梦晨衡宇发自凹非寺量子位 | 公众号 QbitAI刚刚，Meta抢在OpenAI之前推出自己的Sora——Meta Movie Gen Sora有的它都有，可创建不同宽高比的高清长视频，支...

阅读原文

AIGC动态

2年前 (2024)

仅用4块GPU、不到3天训练出「开源版GPT-4o」，这是国内团队最新研究

机器之心报道编辑：小舟、陈陈LLaMA-Omni能够接收语音指令，同步生成文本和语音响应，响应延迟低至 226ms，低于 GPT-4o 的平均音频响应延迟 320ms。以 ChatG...

阅读原文

AIGC动态

2年前 (2024)

Mistral多模态大模型来了！120亿参数，原生支持任意大小/数量图像，公司估值已达420亿

明敏发自凹非寺量子位 | 公众号 QbitAIMistral的多模态大模型来了！ Pixtral 12B正式发布，同时具备语言和视觉处理能力。它建立在文本模型Nemo 12B基础上...

阅读原文

AIGC动态

2年前 (2024)

机器人也会系鞋带了！斯坦福团队用模仿学习赋予机器人新技能丨已开源

叨乐发自凹非寺量子位 | 公众号 QbitAI斯坦福年初刚教完机器人炒菜，现在又教机器人系鞋带！他们还发布了全球首个机器人自主系鞋带演示视频：与之前的炒...

阅读原文

AIGC动态

2年前 (2024)

韩国N号房卷土重来，这一次是Deepfake，波及超200所学校

金磊一水发自凹非寺量子位 | 公众号 QbitAIDeepfake（深度伪造），再度深陷舆论的风波。这一次，用这项AI技术犯罪的严重程度被网友直呼是“韩国N号房2.0”...

阅读原文

AIGC动态

2年前 (2024)

MSU世界视频编码器大赛成绩出炉，腾讯包揽全部指标第一名

机器之心发布机器之心编辑部今日获悉，由莫斯科国立大学举办的 MSU 世界视频编码器大赛结果揭晓。在全部参赛编码器中，腾讯编码器包揽所有 15 项指标的全部...

阅读原文

AIGC动态

2年前 (2024)

12 3…5