标签:自然语言理解

twee

twee是专为英语教师设计的AI驱动在线平台,提供一系列教学辅助工具。twee能快速生成针对任何YouTube视频的问题、不同主题和水平的对话、故事、信件和文章。tw...
阅读原文

探一下

探一下是支付宝推出的新一代AI视觉搜索产品,基于自研的多模态大模型技术,能够“用AI之眼探索万物”,提供快速、有用、趣味的生成式搜索服务。用户可以通过AI...
阅读原文

Mind GPT-3o

Mind GPT-3o是理想汽车推出的多模态端到端大模型,融合语音、视觉和语言理解技术,实现高效实时交互。Mind GPT-3o具备记忆、规划、工具使用和表达能力,能提...
阅读原文

Bamba-9B:Mamba2架构驱动的高效解码语言模型展现卓越性能与灵活应用

Bamba-9B是IBM、普林斯顿大学、卡内基梅隆大学和伊利诺伊大学香槟分校联合推出的,基于Mamba2架构的仅解码语言模型模型。模型在完全开放的数据集上训练,能提...
阅读原文

Doctronic

Doctronic是提供在线AI医生服务的平台,为用户提供快速、免费的初步健康咨询。Doctronic基于一系列问题收集用户的健康信息,帮助诊断症状或讨论健康问题。用...
阅读原文

LeviTor

LeviTor是南京大学、蚂蚁集团、浙江大学等机构推出的图像到视频合成技术,结合深度信息和K-means聚类点控制视频中3D物体的轨迹,无需显式的3D轨迹跟踪。LeviT...
阅读原文

颠覆视觉认知:Florence-VL引领多模态大语言模型的新纪元

通过融合不同深度的特征,Florence-VL实现了更全面的视觉理解。
阅读原文

Lyra:提升多模态交互体验的SmartMore创新解决方案

Lyra是香港中文大学、SmartMore和香港科技大学推出的高效多模态大型语言模型(MLLM),专注于提升语音、视觉和语言模态的交互能力。Lyra基于开源大型模型、多...
阅读原文

Large Action Models:微软行动大模型开发框架助力高效智能应用构建与部署

Large Action Models(LAMs)是微软推出大型行动模型的开发框架,能执行真实世界行动的智能系统,LAMs超越传统LLMs(Large Language Models,大型语言模型)...
阅读原文

EMOVA:华为诺亚方舟多模态处理模型全面提升智能交互与应用效率

EMOVA(EMotionally Omni-present Voice Assistant)是多模态全能模型,是香港科技大学、香港大学和华为诺亚方舟实验室等机构共同推出的。EMOVA能处理图像、...
阅读原文

Devika AI:智能AI助手助力高效执行复杂任务

Devika AI是印度Stition AI团队推出的开源AI软件开发工具,能理解并执行复杂的人类指令,将其分解为步骤,进行研究和信息搜集,最终编写代码以实现目标。Devi...
阅读原文

NVLM:英伟达推出的多模态大型语言模型赋能跨领域智能交互与应用

NVLM是NVIDIA推出的前沿多模态大型语言模型(LLMs),在视觉-语言任务上达到与顶尖专有模型(如GPT-4o)和开放访问模型(如Llama 3-V 405B和InternVL 2)相匹...
阅读原文

QwQ-32B-Preview:超越O1模型的阿里开源AI推理产品实现高效精准的智能决策

QwQ-32B-Preview(QwQ-32B)是阿里巴巴开源的实验性研究AI模型,以强大的推理能力著称,尤其在数学和编程领域表现卓越。QwQ-32B-Preview包含325亿参数,能处...
阅读原文

ACE:全能图像生成与编辑模型赋能创意无限可能

ACE(All-round Creator and Editor)是阿里巴巴集团Tongyi Lab推出的基于扩散变换器的全能图像生成和编辑模型。ACE引入长上下文条件单元(LCU)和统一条件格...
阅读原文

MCP:Anthropic开源模型上下文协议的核心优势与创新特点

MCP(Model Context Protocol,模型上下文协议)是一个开放协议,是Anthropic开源的,能实现大型语言模型(LLM)应用与外部数据源和工具之间的无缝集成。基于...
阅读原文