标签:上下文理解

Elmo Chat

Elmo Chat 是 Lepton AI 推出的 Chrome 扩展工具,基于AI技术简化用户对各类内容的理解和处理。Elmo Chat能快速总结网页、YouTube 视频、Google 文档和 PDF ...
阅读原文

ModelEngine

ModelEngine 是华为开源的全流程 AI 开发工具链,围绕数据使能、模型使能和应用使能三大核心功能展开,解决 AI 行业化落地过程中数据工程耗时长、模型训练和...
阅读原文

Qwen2.5-Omni

Qwen2.5-Omni 是阿里开源的 Qwen 系列旗舰级多模态模型,拥有7B参数,Qwen2.5-Omni具备强大的多模态感知能力,能处理文本、图像、音频和视频输入,支持流式文...
阅读原文

Cosmos-Reason1

Cosmos-Reason1 是 NVIDIA 推出的一系列多模态大型语言模型,基于物理常识和具身推理理解物理世界。Cosmos-Reason1包括两个模型:Cosmos-Reason1-8B 和 Cosmo...
阅读原文

Fluently

Fluently 是 AI英语学习应用,帮助用户提升英语水平。Fluently基于评估用户的英语能力,生成个性化学习计划,涵盖发音、语法、词汇和流利度等方面。用户在真...
阅读原文

MT-MegatronLM

MT-MegatronLM 是摩尔线程推出的面向全功能 GPU 的开源混合并行训练框架,主要用于高效训练大规模语言模型。支持 dense 模型、多模态模型及 MoE(混合专家)...
阅读原文

COMET

COMET是字节跳动推出的针对Mixture-of-Experts(MoE)模型的优化系统,能解决分布式训练中通信开销过大的问题。基于细粒度的计算-通信重叠技术,COMET将通信...
阅读原文

BGE-VL

BGE-VL 是北京智源研究院联合多所高校推出的多模态向量模型,基于大规模合成数据 MegaPairs 训练而成。BGE-VL专注于多模态检索任务,如图文检索和组合图像检...
阅读原文

Pika 2.2

Pika 2.2 是 Pika Labs 推出的升级版 AI 视频生成工具,基于深度学习技术,能将图片或文字提示转化为高质量的视频内容。与前代版本相比,Pika 2.2 在功能和性...
阅读原文

Gemini Code Assist

Gemini Code Assist 是 Google 推出的 AI 编程工具,能帮助开发者更高效地编写代码、提升代码质量。Gemini Code Assist 基于 Gemini 2.0 模型,支持所有公开...
阅读原文

MME-CoT

MME-CoT 是香港中文大学(深圳)、香港中文大学、字节跳动、南京大学、上海人工智能实验室、宾夕法尼亚大学、清华大学等机构共同推出的用于评估大型多模态模...
阅读原文

ConverzAI

ConverzAI是基于AI技术优化招聘流程的平台。ConverzAI基于部署虚拟招聘人员(AI Agents),帮助企业在商业、医疗保健和专业招聘领域实现招聘流程的自动化和优...
阅读原文

AnyCharV

AnyCharV 是香港中文大学、清华大学深圳国际研究生院、香港大学联合推出的角色可控视频生成框架,能将任意参考角色图像与目标驱动视频相结合,生成高质量的角...
阅读原文

RAG-FiT

RAG-FiT(曾用名RAG Foundry)是英特尔实验室推出的开源框架,用在微调(fine-tuning)增强大型语言模型(LLMs)在检索增强生成(RAG)任务中的表现。RAG-FiT...
阅读原文

LlamaV-o1

LlamaV-o1是阿联酋穆罕默德·本·扎耶德人工智能大学等机构提出的新多模态视觉推理模型,旨在提升大型语言模型的逐步视觉推理能力。引入视觉推理链基准测试VRC-...
阅读原文
1234