标签:实时翻译

X-R1

X-R1是基于强化学习的低成本训练框架,能加速大规模语言模型的后训练(Scaling Post-Training)开发。X-R1用极低的成本训练0.5B(5亿参数)规模的R1-Zero模型...
阅读原文

MVoT

MVoT(Multimodal Visualization-of-Thought)是微软研究院、剑桥大学语言技术实验室、中国科学院自动化研究所推出的新型多模态推理范式,基于生成图像可视化...
阅读原文

播记

播记是专为播客创作者设计的智能节目笔记(Shownotes)生成工具。通过AI技术,能快速提取播客音频中的关键信息,自动生成包含节目主题、嘉宾介绍、重要观点、...
阅读原文

LipRead Pro

LipRead Pro 是基于先进 AI 技术的视频唇读工具,能将视频中的唇部动作转换为文字。采用最新的深度学习模型,支持多种语言和口音,应用于内容创作、无障碍辅...
阅读原文

Gemini 2.0 Pro

Gemini 2.0 Pro是Google推出的高性能实验版AI模型,专为编程性能和复杂提示处理优化。Gemini 2.0 Pro具备200万tokens的超大上下文窗口,能处理和分析海量信息...
阅读原文

星火语音同传大模型

星火语音同传大模型是科大讯飞于2025年1月15日发布的国内首个具备端到端语音同传能力的大模型。模型在内容完整度、信息准确度以及语言质量上均处于行业领先水...
阅读原文

Sky-T1

Sky-T1是加州大学伯克利分校Sky Computing实验室的研究团队NovaSky发布的开源推理AI模型,名为Sky-T1-32B-Preview。是首个开源推理模型,训练数据集和代码均...
阅读原文

Ingredients

Ingredients是强大的框架,基于将多个特定身份(ID)照片与视频扩散Transformer相结合,用在定制视频创作。Ingredients基于三个核心模块实现高度定制化的视频...
阅读原文

Languine

Languine 是 AI 驱动的翻译工具,能帮助开发者简化应用程序的开发过程。Languine 基于智能检测、AI 翻译、自动化工作流程和开发者友好的设计,让翻译管理变得...
阅读原文

AI Stick

AI Stick是联想集团推出的AI桌面助手“如意”,集成人工智能技术,AI Stick可以连接到多种设备上,如电脑、手机等。AI Stick搭载了豆包大模型,提供了AI搜索、A...
阅读原文

OmniAudio-2.6B

OmniAudio-2.6B是Nexa AI推出的音频语言模型,专为边缘部署设计,能实现快速且高效的音频文本处理。OmniAudio-2.6B是具有2.6亿参数的多模态模型融合Gemma-2-2...
阅读原文

Veo 2:高分辨率4K视频生成的先进AI模型,助力创意无限

Veo 2 是 Google DeepMind 推出的 AI 视频生成模型,能根据文本或图像提示生成高质量视频内容。Veo 2支持高达 4K 分辨率的视频制作,理解镜头控制指令,能模...
阅读原文

Slides Orator:AI驱动的虚拟解说平台实现幻灯片内容的即时生动呈现

Slides Orator是创新的AI平台,基于创建虚拟形象实时展示幻灯片进行解说。工具基于技术生成语音旁白,让演示内容动态地与观众互动,增强演示的吸引力和参与度...
阅读原文

MMAudio:高质量AI音频合成的多模态联合训练技术创新

MMAudio是先进视频到音频合成技术,基于多模态联合训练,让模型能在广泛的视听和音频文本数据集上进行训练。技术的核心是同步模块,确保生成的音频与视频帧精...
阅读原文

GenCast:DeepMind推出的性AI气象预测模型提气预报精准度与效率

GenCast是DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。GenCast在97.2%的预测任务中超越全球顶尖的中期天气预报系统...
阅读原文