标签:语义理解

通古大模型

通古大模型是华南理工大学深度学习与视觉计算实验室(SCUT-DLVCLab)推出的专注于古籍文言文处理的人工智能语言模型。基于百川2-7B-Base进行增量预训练,使用...
阅读原文

WorldSense

WorldSense是小红书和上海交通大学推出的,用在评估多模态大型语言模型(MLLMs)在现实世界场景中对视觉、听觉和文本输入的综合理解能力的基准测试。WorldSen...
阅读原文

Pipecat

Pipecat是开源的Python框架,专注于构建语音和多模态对话代理。基于内置的语音识别、文本转语音(TTS)和对话处理功能,简化AI服务的复杂协调、网络传输、音...
阅读原文

Banger

Banger是以AI翻唱为核心的AI音乐应用,用户能通过简单的步骤将喜欢的歌曲进行翻唱创作。应用内置了大量素材模板,引入个性化算法推荐功能,支持从YouTube提取...
阅读原文

新言意码

新言意码是专注于AI编程应用开发的公司,由前月之暗面海外产品Noisee的明超平创立。公司全称深圳新言意码科技有限公司,成立于2024年9月23日,位于广东省深圳...
阅读原文

3MinTop

3MinTop 是 AI 驱动的阅读助手,能将书籍内容精炼总结为 3 分钟的精华摘要,帮助用户快速掌握书籍核心要点,降低阅读门槛,培养阅读习惯。用户只需上传书籍文...
阅读原文

S2V-01

S2V-01是MiniMax最新自研的视频模型,是多模态生成技术的重要创新成果。模型通过单图主体参考架构,仅需用户输入一张图片,能以极低的输入和计算成本,实现视...
阅读原文

什么是OS Agents

OS Agents 是能理解和执行复杂任务的智能体,它们通过操作系统提供的接口与计算设备交互,自动完成从简单到复杂的各种任务。任务可以是信息检索、文件管理、...
阅读原文

什么是知识图谱问答(KGQA)

知识图谱问答(KGQA)是一种结合知识图谱和自然语言处理技术的系统,旨在通过理解用户的自然语言问题,从结构化的知识图谱中检索并生成准确的答案。
阅读原文

蜜小语

蜜小语是专为聊天设计的移动应用,旨在帮助用户在聊天中更轻松地应对尴尬情境,特别适用于恋爱和职场沟通。提供了多种功能来辅助用户进行更流畅的聊天。
阅读原文

VideoRAG

VideoRAG是用于长视频理解的检索增强生成(Retrieval-Augmented Generation)技术。通过提取视频中的视觉对齐辅助文本,帮助大型视频语言模型(LVLMs)更好地...
阅读原文

Jina Reader

Jina Reader 是 Jina AI 推出的开源工具,能将互联网上的 HTML 网页内容转换为适合大型语言模型(LLMs)处理的纯文本格式。用户只需在网址前添加特定前缀,即...
阅读原文

LAM

LAM是微软推出的名为“Large Action Model”(简称 LAM)的新人工智能模型。与传统语言模型不同,LAM能够自主操作Windows程序,实现真实任务执行。 能理解文本...
阅读原文

Scribenote

Scribenote是为兽医设计的AI记录助手,基于自然语言处理和机器学习技术,基于捕捉音频并转录成易于阅读的笔记,包括SOAP格式的笔记、附件和客户沟通。Scriben...
阅读原文

什么是大模型幻觉(Hallucinations of large models)

大模型幻觉(Hallucinations of large models)指的是模型生成的内容与现实世界事实或用户输入不一致的现象。
阅读原文
123459