标签:多语言支持

Mistral OCR

Mistral OCR 是 Mistral AI 推出的先进光学字符识别(OCR)工具,专为处理复杂文档而设计。能全面理解文档中的文本、图像、表格和数学公式等元素,支持数千种...
阅读原文

SuperGPQA

SuperGPQA 是字节跳动豆包大模型团队联合 M-A-P 推出的全面覆盖 285 个研究生级学科、包含 26529 道专业题目的知识推理基准测试集。解决传统评测基准学科覆盖...
阅读原文

NextGenAI

NextGenAI是OpenAI推出的全球性联盟,基于AI技术推动教育和研究的进步。NextGenAI联合包括哈佛大学、麻省理工学院、牛津大学等在内的15所顶尖大学和机构,Ope...
阅读原文

NotaGen

NotaGen 是中央音乐学院、北京航空航天大学、清华大学等机构推出的音乐生成模型,基于模仿大型语言模型(LLM)的训练范式生成高质量的古典乐谱。NotaGen 基于...
阅读原文

Platus

Platus 是法律科技初创公司,专注于通过人工智能和无代码平台简化企业的法律流程。为中小企业和法律团队提供高效、自动化的法律基础设施,支持文件起草、审查...
阅读原文

Liquid

Liquid是华中科技大学、字节跳动和香港大学联合推出的极简统一多模态生成框架。基于VQGAN将图像编码为离散的视觉token,与文本token共享同一词汇空间,让大型...
阅读原文

Promptimize AI

Promptimize AI 是专注于优化 AI 提示词的工具,帮助用户通过更精准的提示词提升 AI 输出的质量和效率。以浏览器插件的形式,支持多种主流 AI 平台,如 ChatG...
阅读原文

AVD2

AVD2(Accident Video Diffusion for Accident Video Description)是清华大学联合香港科技大学、吉林大学、南京理工大学、北京理工大学、复旦大学等机构推出...
阅读原文

Manus

Manus 是Monica团队推出的全球首款通用型 AI Agent。Manus能独立思考、规划和执行复杂任务,直接交付完整成果。与传统 AI 不同,Manus 拥有强大的工具调用能...
阅读原文

BGE-VL

BGE-VL 是北京智源研究院联合多所高校推出的多模态向量模型,基于大规模合成数据 MegaPairs 训练而成。BGE-VL专注于多模态检索任务,如图文检索和组合图像检...
阅读原文

Image-01

Image-01 是 MiniMax 推出的先进文本到图像生成模型,具备卓越的图像生成能力。能将用户输入的文本描述精准转化为高质量图像,支持多种纵横比和高分辨率输出...
阅读原文

PRefLexOR

PRefLexOR(Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning)是MIT团队提出的新型自学习AI框架,结合了偏好优化...
阅读原文

MindLLM

MindLLM 是耶鲁大学、达特茅斯学院和剑桥大学联合推出的AI模型,能将脑部功能性磁共振成像(fMRI)信号解码为自然语言文本。MindLLM基于一个主体无关(subjec...
阅读原文

AgiBot Digital World

AgiBot Digital World 是智元机器人推出的高保真机器人仿真框架,为机器人操作技能研究与应用提供高效支持。AgiBot Digital World集成海量逼真的三维资产、多...
阅读原文

Spark-TTS

Spark-TTS 是SparkAudio 团队开源的基于大型语言模型(LLM)的高效文本转语音(TTS)工具, 无需额外的生成模型,直接从 LLM 预测的编码中重建音频,实现零样...
阅读原文
13456751