标签:文本

重磅!Mistral Large 2深夜发布!Llama3.1仅一天被超越,最强开源再易主

夕小瑶科技说 原创作者 | 海野 第一次开源模型革命,突然就兴起了…… Llama3.1发布后,Meta还沉浸在强烈的社会反响中时,法国的Mistral AI团队突然扔出王炸:...
阅读原文

语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员

新智元报道编辑:乔杨 【新智元导读】继去年初的第一代VALL-E模型之后,微软最近又上新了VALL-E 2模型,标志着第一个在合成语音稳健性、相似度、自然程度等方...
阅读原文

从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统

7月25日上午10点,中国科学技术大学与微软亚洲研究院联合培养博士生张博文将在智猩猩直播讲解微软亚洲研究院开源成果GaussianCube,主题为《结构化3DGS为高质...
阅读原文

OpenAI凌晨突发「最具性价比」模型 GPT-4o mini,GPT-3.5 Turbo 已成过去式

来源:学术头条 今天凌晨,OpenAI 突然发布了他们的「最具性价比」的新一代模型 GPT-4o mini。 据介绍,GPT-4o mini 将取代 GPT-3.5 Turbo,立即在 ChatGPT ...
阅读原文

基于LoRA微调多模态大模型一文解析

7月16日19点,「智猩猩AI新青年讲座」第244讲将开讲。上海交通大学和宁波东方理工大学联合培养博士生徐良将主要讲解通用的3D人体动作生成框架ActFormer和人体...
阅读原文

斯坦福提出大模型最强架构TTT,超越Transformers

夕小瑶科技说 原创作者 | 谢年年在Transformer被提出以前,以LSTMs为代表的RNNs网络结构由于计算简单、擅长处理序列数据常被用作NLP领域的基础架构。但受其结...
阅读原文

阿里发布大模型发布图结构长文本处理智能体,超越GPT-4-128k

夕小瑶科技说 原创作者 | Richard 随着大语言模型的发展,处理长文本的能力成为了一个重要挑战。虽然有许多方法试图解决这个问题,但都存在不同程度的局限性...
阅读原文

半小时教你手搓AI视频通话,还有懒人版代码已开源

克雷西 发自 凹非寺量子位 | 公众号 QbitAIGPT-4o的“AI视频通话”一鸽再鸽,但网友却是急不可耐想要体验。 于是,一位名叫Santiago(我们叫他三哥)的博主,用...
阅读原文

思路打开!腾讯造了10亿个角色,驱动数据合成!7B模型效果打爆了

夕小瑶科技说 原创作者 | 谢年年世界由形形色色的角色构成,每个角色都拥有独特的知识、经验、兴趣、个性和职业,他们共同制造了丰富多元的知识与文化。 所谓...
阅读原文

Gemini 1.5 Pro 上手体验!在谷歌见证 AI 的超强长文本与多模态能力

Gemini 1.5 Pro 上手体验!在谷歌见证 AI 的超强长文本与多模态能力 , , ,…
阅读原文

独家|MiniMax 联创杨斌离职

继宋亚宸之后,MiniMax 又一位联创出走。作者丨王悦 编辑丨陈彩娴 AI 科技评论独家获悉:MiniMax 联合创始人杨斌离职,下一步去向暂未披露。 2024 年初,获得...
阅读原文

成立半年就敢踢馆 OpenAI ,首个开源模型不输 GPT-4o,LeCun 、PyTorch 之父齐声叫好!

整理 | 华卫 想象一下,一个 AI 模型可以表达 70 多种情绪,以不同的风格说话,甚至令人信服地模仿口音。并且,它能够同时处理两个音频流,同时听和说。这不...
阅读原文

不到60秒就能生成3D「手办」,Meta发力3D生成,ChatGPT时刻要来了吗?

机器之心报道 编辑:陈萍、张倩‍‍3D 生成,一直在等待它的「ChatGPT时刻」。‍一直以来,创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效...
阅读原文

60秒直出3D内容,纹理逼真!Meta最新3D Gen模型实现60倍速生成

新智元报道编辑:乔杨 好困 【新智元导读】Meta的GenAI团队在最新研究中介绍了Meta 3D Gen模型:可以在不到1分钟的时间内从文本直接端到端生成3D资产。在图像...
阅读原文

ECCV 2024揭榜,录用率或创新低!2395篇论文中选,网友晒出成绩单

新智元报道编辑:桃子 好困 【新智元导读】两年一届的ECCV录用结果终于揭晓了!刚刚,ECCV组委会公布了录用论文名单,共有2395篇论文被录用。ECCV 2024录用结...
阅读原文
12345620