标签:文本

连葫芦娃都数不明白,解说英雄联盟的GPT-4V面临幻觉挑战

‍‍机器之心报道编辑:张倩、小舟让大模型同时理解图像和文字可能比想象中要难。在被称为「AI 春晚」的 OpenAI 首届开发者大会拉开帷幕后,很多人的朋友圈都被...
阅读原文

视觉分词器统一图文信息,快手提出基座模型 LaVIT 刷榜多模态任务

夕小瑶科技说 原创作者 | 智商掉了一地、Python你是否想过,有朝一日能够仅输入寥寥数语或图片,就可以一键检索最为匹配的短视频内容。不是凭借视频标签、也...
阅读原文

千年密码新解读,DeepMind 开发 Ithaca 破译希腊铭文

By 超神经铭文、碑刻是过去文明的思想、文化和语言的体现。金石学家破译千年前的密码,需要完成文本修复、时间归因和地域归因三大任务。主流的研究方式是「字...
阅读原文

Nature|AI检测器又活了?成功率高达98%,吊打OpenAI

新智元报道编辑:润 alan【新智元导读】OpenAI都搞不定的问题,被堪萨斯大学的一个研究团队解决了?他们开发的学术AI内容检测器,准确率高达98%。如果将这个...
阅读原文

李开复说话算数:零一万物大模型首次发布,AI 2.0 正在路上

零一万物大模型成果首次发布。作者 | 王悦编辑 | 陈彩娴11月6日,李开复带队创办的 AI 2.0 公司零一万物,开源发布了Yi系列模型,包含 34B 和 6B 两个版本。...
阅读原文

零一万物发布全球第一开源模型,李开复阐述 AI 2.0 的商业思考

3 月,李开复提出 AI 2.0,认为大模型将会带来平台级创新机会,改写用户入口和界面,催生新一代 AI 2.0 应用。7 月,筹办近三个月后,李开复组队,聚集数十位...
阅读原文

解读大模型(LLM)的token

当人们谈论大型语言模型的大小时,参数会让我们了解神经网络的结构有多复杂,而token的大小会让我们知道有多少数据用于训练参数。正像陆奇博士所说的那样,大...
阅读原文

AI视频生成工具Gen-2炸裂更新:一句话生成4K超逼真视频,像素一口气拉到最高逼格

夕小瑶科技说 分享来源 | 量子位这,绝对称得上是生成式AI进程中的里程碑。就在深夜,Runway家标志性的AI视频生成工具Gen-2,迎来了“iPhone时刻”般的史诗级更...
阅读原文

单点端到端文本检测识别框架速度提升19倍!华科、华南理工等联合发布SPTS v2

新智元报道编辑:LRS 好困【新智元导读】单点文本框标注,成本显著降低;将检测和识别解耦,并行解码提升自回归速度。近年来,场景文本阅读(Text Spotting)...
阅读原文

时代杂志发布:2023年最佳AI发明

点击上方蓝字关注我们图|匡萃彪文|匡萃彪“ 《时代》杂志评选出2023年度最佳发明,其中14个人工智能工具备受关注,包括OpenAI的GPT-4、Runway Gen-2和Alithe...
阅读原文

波士顿动力机器狗装上ChatGPT大脑当导游,一开口就是老伦敦腔

机器之心报道编辑:蛋酱、大盘鸡我们看过机器狗攀爬、跳跃、跑酷、开门,但现在,它竟然开口说话了。「可以开始我们的旅程了吗?」Spot 礼貌地发出询问:「请...
阅读原文

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

机器之心专栏机器之心编辑部RLHF 与 AlphaGo 的核心技术结合在一起,会碰撞出怎样的火花?在一项最新的研究中,来自 UW 和 Meta 的研究者提出了一种新的解码...
阅读原文

DallE 3、Midjourney 5.2、SDXL、Firefly 2 和 Ideogram 对比指南

点击上方蓝字关注我们图|匡萃彪文|匡萃彪“ 本文比较了DALL-E 3、Midjourney 5.2、Stable Diffusion XL (SDXL)和Adobe Firefly 2等主要AI艺术生成器,探讨了...
阅读原文

Stable Diffusion新玩法火了!给几个词就能生成动图,连动图人物的表情和动作都能随意控制

夕小瑶科技说 原创作者 | 小戏单说大模型 AI 的发展对人们想象力释放的助力,基于 Stable Diffusion 模型的方法首当其冲。透过文本描述到图像生成技术,大模...
阅读原文

让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%

转载自 沁园夏量子位 | 公众号 QbitAI大模型“识图”能力都这么强了,为啥还老找错东西?例如,把长得不太像的蝙蝠和拍子搞混,又或是认不出一些数据集中的稀有...
阅读原文