标签:自然语言处理

Pika Twists

Pika Twists 是 Pika Labs 推出的 AI 视频编辑功能,能让用户轻松修改视频中的主体动作和场景,创造出奇幻效果。只需上传视频并描述需求,AI 可精准操控角色...
阅读原文

Multi-SWE-bench

Multi-SWE-bench 是字节跳动豆包大模型团队开源的首个多语言代码修复基准。在SWE-bench基础上,首次覆盖Python之外的7种主流编程语言,包括Java、TypeScript...
阅读原文

Gemini 2.5 Flash

Gemini 2.5 Flash 是 Google 推出的高效、低延迟的 AI 模型,基于 Gemini 2.5 模型构建。Gemini 2.5 Flash在保持低延迟和成本效益的同时,引入思考能力。
阅读原文

A2A

A2A(Agent2Agent)是谷歌开源的首个标准智能体交互协议,让不同框架和供应商构建的AI智能体相互协作。A2A基于标准化的通信方式,打破系统孤岛,让智能体安全...
阅读原文

Llama Nemotron

Llama Nemotron是NVIDIA推出的一系列推理模型,专注于推理和多种智能代理(agentic AI)任务。模型基于Llama开源模型,经过NVIDIA的后训练,加入推理能力,在...
阅读原文

DeepCoder-14B-Preview

DeepCoder-14B-Preview 是 Agentica 和 Together AI 联合开源的大型代码生成模型,基于 Deepseek-R1-Distilled-Qwen-14B 微调而成。DeepCoder-14B-Preview基...
阅读原文

Step-R1-V-Mini

Step-R1-V-Mini 是阶跃星辰最新推出的多模态推理模型。支持图文输入和文字输出,具备良好的指令遵循和通用能力,能高精度感知图像完成复杂推理任务。模型在视...
阅读原文

口语精灵

口语精灵是AI口语学习软件,通过先进的人工智能技术和真人语音模拟,为用户提供1V1的对话练习体验。用户可以随时随地与AI老师互动,跨越国界,学习不同地区的...
阅读原文

ACTalker

ACTalker 是用于生成逼真说话人头部视频的端到端视频扩散框架。支持单信号或多信号控制,如音频、表情等。核心架构包括并行 Mamba 结构,通过多个分支利用不...
阅读原文

Quasar Alpha

Quasar Alpha 是 OpenRouter 发布的预发布版 AI 模型。拥有 100 万 token 的超大上下文窗口,可处理超长文本和复杂文档。代码生成能力出色,生成速度快,延迟...
阅读原文

OmniTalker

OmniTalker 是阿里巴巴发布的实时文本驱动的说话头像生成技术,能同时处理文本、图像、音频和视频等多种模态输入,以流式方式生成自然语音响应。核心架构为 T...

枝页

枝页(iBleaf)是基于金字塔原理设计的AI笔记工具,帮助用户将碎片化的知识整理成清晰有序的知识体系。通过知识树的形式,让用户能以层级化的结构组织笔记,...
阅读原文

Dolphin

Dolphin是清华大学电子工程系语音与音频技术实验室联合海天瑞声共同推出的面向东方语言的语音大模型。支持40个东方语种的语音识别,中文语种涵盖22种方言(含...
阅读原文

OpenAI Academy

OpenAI Academy是OpenAI推出的免费AI学习平台,提供免费的AI课程帮助普通人掌握AI技能。OpenAI Academy提供丰富多样的课程,包括《ChatGPT Edu学术助手指南》...
阅读原文

AutoAgent

AutoAgent 是香港大学推出的零代码、自动化 LLM 智能体框架。基于自然语言交互,让用户无需编程即可创建智能助手,适用于智能搜索、数据分析、报告生成等场景...
阅读原文
18910111267