标签:多语言支持

LiveCC

LiveCC 是新加坡国立大学Show Lab 团队联合字节跳动推出的实时视频解说模型,基于自动语音识别(ASR)字幕进行大规模训练。LiveCC像专业解说员一样快速分析视...
阅读原文

文心大模型4.5 Turbo

文心大模型4.5 Turbo是百度推出的高性能、低成本多模态大模型。基于文心大模型4.5的基础上进行优化,具备多模态、强推理能力,能处理文本、图像等多种输入形...
阅读原文

文心大模型X1 Turbo

文心大模型X1 Turbo是百度推出的深度思考型模型,是文心大模型4.5 Turbo的升级版本,具备更先进的思维链和深度思考理能力,擅长文学创作、逻辑推理等,进一步...
阅读原文

Open Avatar Chat

Open Avatar Chat 是阿里开源的模块化的实时数字人对话系统,支持在单台电脑上运行完整的功能。Open Avatar Chat 支持低延迟的实时对话(平均响应延迟约2.2秒...

RAGEN

RAGEN是开源的强化学习框架,用于在交互式、随机环境中训练大型语言模型(LLM)推理Agent。基于StarPO(State-Thinking-Action-Reward Policy Optimization)...
阅读原文

Skywork-R1V 2.0

Skywork-R1V 2.0 是昆仑万维最新开源的多模态推理模型,专为复杂推理任务设计,具备强大的视觉与文本推理能力。模型基于混合强化学习和多模态奖励模型(Skywo...
阅读原文

Flex.2-preview

Flex.2-preview 是Ostris开源的 80 亿参数文本到图像扩散模型,支持通用控制输入(如线条、姿态、深度)和内置修复功能。模型基于一个模型满足多种创意需求,...
阅读原文

UFO²

UFO² 是微软推出的面向 Windows 桌面的多Agent操作系统(AgentOS),基于深度系统集成和自然语言交互实现复杂桌面任务的自动化。UFO²基于中央 HostAgent 分解...
阅读原文

企鹅读伴

企鹅读伴是腾讯SSV数字支教实验室推出基于腾讯混元大模型和腾讯元器平台提供技术支持的AI阅读助手,专为中小学生设计。企鹅读伴依托《义务教育语文课程方案和...
阅读原文

Suna

Suna 是Kortix推出的全球首款通用型 AI Agent 开源项目,支持高效解决现实场景中的各类任务。基于自然流畅的对话交互,Suna 支持智能辅助研究分析、数据处理...
阅读原文

WriteHERE

WriteHERE是Jürgen Schmidhuber领衔的团队开源的AI长文写作框架。WriteHERE基于异质递归规划(Heterogeneous Recursive Planning)技术,动态分解写作任务为...
阅读原文

MAGI-1

MAGI-1 是 Sand AI 开源的全球首个自回归视频生成大模型,采用自回归架构,通过逐块预测视频序列生成流畅自然的视频,支持无限扩展和一镜到底的长视频生成。
阅读原文

Gemma 3 QAT

Gemma 3 QAT(Quantization-Aware Training)是谷歌推出的最新一代开源模型,是Gemma 3 的量化优化版本。通过量化感知训练技术,Gemma 3 QAT 在显著降低内存...
阅读原文

CapWords

CapWords 是创新的语言学习应用,通过 AI 技术让用户能随时随地学习新单词。用拍照功能,将生活中的物品转化为学习内容,识别物体并提供对应的外语单词、发音...
阅读原文

Fellou

Fellou 是 AI 智能体初创公司 Fellou AI 推出的全球首个 Agentic(行动型)浏览器。具备传统浏览器的信息浏览功能,能智能执行复杂任务,将繁琐的点击操作转...
阅读原文
1234557