标签:文本
免费GPT-4o来袭,音频视觉文本实现「大一统」
OpenAI「魔法」降临。作者 | 赖文昕 今天凌晨,即北京时间5月14日1点整,OpenAI 召开了首场春季发布会,CTO Mira Murati 在台上和团队用短短不到30分钟的时间...
OpenAI 用 26 分钟改变世界!免费版 GPT-4 来了,视频语音交互快进到科幻片
GPT-4o 正式发布今天凌晨,一场 26 分钟的发布会,将又一次大大改变 AI 行业和我们未来的生活,也会让无数 AI 初创公司焦头烂额。 这真不是标题党,因为这是 ...
OpenAI颠覆世界:GPT-4o完全免费,实时语音视频交互震撼全场,直接进入科幻时代
机器之心报道 机器之心编辑部ChatGPT 问世才 17 个月,OpenAI 就拿出了科幻电影里的超级 AI,而且完全免费,人人可用。太震撼了! 当各家科技公司还在追赶大...
OpenAI一夜干翻语音助手!GPT-4o模型强到恐怖,ChatGPT学会看屏幕,现实版Her来了
GPT-4免费了!OpenAI新旗舰模型深夜炸场!顶级跨模态干翻同行,API速度翻倍、价格暴降。 作者|智东西编辑部 顶尖AI产品的对决,将在这两天集中上演。 智东西5...
今日arXiv最热大模型论文:减少语法错误,竟成了突破口!识别AI生成文本,AUROC达98.7%
夕小瑶科技说 原创作者 | 谢年年语法错误更少竟成为检测大模型生成文本的突破口? 澳门大学和哈工大的团队最近发现人类在写作时比语言模型更容易犯语法错误。...
GPT-4o深夜炸场!AI实时视频通话丝滑如人类,Plus功能免费可用,奥特曼:《她》来了
梦晨 克雷西 发自 凹非寺量子位 | 公众号 QbitAI不开玩笑,电影《她》真的来了。 OpenAI最新旗舰大模型GPT-4o,不仅免费可用,能力更是横跨听、看、说,丝滑...
DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩
机器之心报道 编辑:杜伟、大盘鸡基于 Diffusion Transformer(DiT)又迎来一大力作「Flag-DiT」,这次要将图像、视频、音频和 3D「一网打尽」。今年 2 月初...
HuggingFace烧钱做了一大批实验,揭示多模态大模型哪些trick真正有效
夕小瑶科技说 原创作者 | 谢年年构建多模态大模型时有很多有效的trick,如采用交叉注意力机制融合图像信息到语言模型中,或直接将图像隐藏状态序列与文本嵌入...
UC伯克利全新AI智能体,精确理解人类语言,刷新SOTA
来源:新智元 智能体如何从不同的语言中理解世界?近日,来自UC伯克利的研究人员提出了一种全新的AI智能体,可以通过对未来进行多模态世界建模来学习理解语言...
为什么要做长文本、长图文、长语音的大模型?深度解读讯飞星火V3.5春季上新
机器之心发布 机器之心编辑部讯飞的持续高投入,换来了大模型能力的迅速提升。4 月 26 日,科大讯飞发布讯飞星火大模型 V3.5 的功能上新,其中一个重点就是面...
LLaMA 3:大模型之战的新序幕
作者 | 符尧 OneFlow编译 翻译|杨婷、宛子琳、张雪聃 本文要点概览: 文本数据的扩展可能已经达到了极限,因为易于获取的网络文本资源(如Common Crawl、Git...
8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
硬控设计人一分钟,加持大模型的Adobe,PS起来更香了
机器之心报道 机器之心编辑部图像编辑这一块,还得看 Adobe。刚刚,Adobe 正式宣布推出新的图像生成模型 Firefly Image 3,即日起在 Firefly Web 应用程序、A...
今日arXiv最热NLP大模型论文:浙江大学:蒸一蒸,多Agent变成单一模型,效果更好
夕小瑶科技说 原创作者 | 谢年年“团结就是力量”,面对复杂多变的现实环境,multi-agent应运而生。相较于单打独斗的single-agent,multi-agent集结了多个功能...
超越OpenAI,谷歌重磅发布从大模型蒸馏的编码器Gecko
夕小瑶科技说 原创作者 | Tscom 引言:介绍文本嵌入模型的重要性和挑战文本嵌入模型在自然语言处理(NLP)领域扮演着至关重要的角色。它们将文本转换为密集的...