标签:能力
科大讯飞大模型竞速2年多,答卷不只是语音
作者 | 褚杏娟 从 2022 年 12 月启动“1+N”大模型技术攻关至今,科大讯飞已经在这个领域探索了两年多的时间。作为将大模型融入自身业务的典型,讯飞在大模型探...
最后两周!2024人工智能年度评选,AI时代的行业先锋就等你来
组委会 发自 凹非寺量子位 | 公众号 QbitAI为了让更多行业者感受技术变革,也为了给予更多同行同路人掌声与鼓舞,我们已启动了2024人工智能年度评选。 今年是...
微软开源视觉GUI智能体:增强GPT-4V能力,超3800颗星
文章转载自公众号:AIGC开放社区,本文只做学术/技术分享,如有侵权,联系删文。 随着GPT-4V等多模态视觉大模型的出现,在理解和推理视觉内容方面获得了巨大...
o1图像理解神秘现身,网友疯狂测试!Altman自曝:o2研究生级水平破105%
新智元报道编辑:桃子 【新智元导读】完整版o1图像理解能力,被提前「放出」了?网友曝出o1能够识图,进行推理总结。现在,o1多模态一大波试用已经铺屏全网。...
清华团队革新MoE架构!像搭积木一样构建大模型,提出新型类脑稀疏模块化架构
CFM团队 投稿量子位 | 公众号 QbitAI探索更高效的模型架构, MoE是最具代表性的方向之一。 MoE架构的主要优势是利用稀疏激活的性质,将大模型拆解成若干功能...
李开复回应一切:竞技场排名“让我们有信心继续做预训练”
GenAI 发自 凹非寺量子位 | 公众号 QbitAI我们只落后OpenAI 5-6个月,但要进一步缩短这个时间差,大家的难度都很大。 国产大模型首次在国际最具挑战的“大模型...
GPT-4o、NotebookLM带来的AI语音新变化,声网们是怎么想的?
GPT-4o 的语音演示,引燃了行业对于 AI 产品语音实时交互的想象,完全实时、可随时打断的 AI 助手,正成为新的 趋势。 而 Google Labs 推出的 NotebookLM,则...
统一图像生成,无需繁杂插件!智源发布扩散模型框架OmniGen
允中 发自 凹非寺量子位 | 公众号 QbitAI多模态模型,统一图像生成。 最新扩散模型框架来了。 智源研究院推出OmniGen,它能天然支持各种图像生成任务,架构高...
突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力
新宇投稿 凹非寺量子位 | 公众号 QbitAIGPT-4o 四月发布会掀起了视频理解的热潮,而开源领军者Qwen2也对视频毫不手软,在各个视频评测基准上狠狠秀了一把肌肉...
古早费曼论文手写公式也能转LaTeX,还能看懂梗图,马斯克Grok新功能上线就火了
机器之心报道 编辑:张倩、陈陈Grok 大模型终于能看懂图像了。设想一下,如果我们能够将所有 LaTeX 时代之前的文本资料输入到先进的大型语言模型(LLM)中,...
新扩散模型OmniGen一统图像生成,架构还高度简化、易用
机器之心发布 机器之心编辑部大型语言模型(LLM)的出现统一了语言生成任务,并彻底改变了人机交互。然而,在图像生成领域,能够在单一框架内处理各种任务的...
一个模型走天下!智源提出全新扩散架构OmniGen,AI生图进入「一键生成」时代
新智元报道编辑:编辑部 HYZ 【新智元导读】LLM统一了语言生成任务,图像生成可以吗?就在刚刚,智源推出了全新扩散模型架构OmniGen,单个模型就能生成图像,...
大模型重塑版讯飞输入法来了!能懂每个人的AI输入
搭载讯飞星火端侧输入大模型、讯飞星火语音大模型的讯飞输入法14.0亮相。 作者|程茜 编辑|漠影 智东西10月28日报道,讯飞输入法又上新,这次是端侧大模型重塑...
一块显卡理解一部电影,最新超长视频理解大模型出炉!“大海捞针”准确率近95%,代码已开源
允中 发自 凹非寺量子位 | 公众号 QbitAI仅需1块80G显卡,大模型理解小时级超长视频。 智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等...
一张显卡看遍天下电影!智源联合高校开源Video-XL打破长视频理解极限,95%准确率刷爆纪录
新智元报道编辑:编辑部 HYZ 【新智元导读】长视频理解迎来新纪元!智源联手国内多所顶尖高校,推出了超长视频理解大模型Video-XL。仅用一张80G显卡处理小时...