AI项目和框架

TensorOpera 开源的小语言模型系列

Fox-1是TensorOpera推出的一系列小型语言模型(SLMs),包括Fox-1-1.6B和Fox-1-1.6B-Instruct-v0.1。Fox-1模型在3万亿个网络抓取的文档数据上预训练,在50亿...
阅读原文

PaliGemma 2:DeepMind推出性视觉语言模型,实现跨媒体理解与生成

PaliGemma 2是Google DeepMind基于Gemma 2语言模型家族推出的新一代视觉语言模型(VLM),作为PaliGemma模型的升级版。结合SigLIP-So400m视觉编码器和不同规...
阅读原文

哈工大联合鹏城实验室推出的智能体框架

Optimus-1是哈尔滨工业大学(深圳)和鹏城实验室推出的智能体框架,能解决在开放世界环境中完成长期任务的挑战。框架结合结构化知识和多模态经验,让智能体更...
阅读原文

ClearerVoice-Studio:智能语音处理框架助力多场景应用的高效解决方案

ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架,集成语音增强、分离和音视频说话人提取等功能。框架基于复数域深度学习算法,有效消除...
阅读原文

字节豆包联合M-A-P社区开源的全新代码评估基准

FullStack Bench是字节跳动豆包大模型团队与M-A-P社区联合推出的全新代码评估基准,专注于全栈编程和多语言编程能力评估。FullStack Bench覆盖超过11种真实编...
阅读原文

Motion Prompting:谷歌携手密歇根与布朗大学推出创新轨迹控制视频生成模型

Motion Prompting是 Google DeepMind、密歇根大学和布朗大学联合推出的视频生成技术,基于运动轨迹(motion trajectories)控制和引导视频内容的生成。Motion...
阅读原文

Fish Audio 推出的语音合成模型,支持13种语言

Fish Speech 1.5 是Fish Audio 推出的文本到语音(TTS)模型,基于深度学习技术如Transformer、VITS、VQVAE和GPT等。Fish Speech 1.5支持英语、日语、韩语、...
阅读原文

Perplexideez:智能信息追溯助手提升搜索效率与准确性

Perplexideez是本地AI助手,支持用户在网络和自托管应用中快速搜索信息。Perplexideez项目以Postgres数据库为基础,支持Ollama或OpenAI兼容的端点,用SearXNG...
阅读原文

Micro LLAMA:探索LLAMA 3模型的核心原理与应用特点

Micro LLAMA是精简的教学版LLAMA 3模型实现,能帮助学习者理解大型语言模型架构。整个项目仅约180行代码,便于理解和学习。Micro LLAMA用的是LLAMA 3中最小的...
阅读原文

GenCast:DeepMind推出的性AI气象预测模型提气预报精准度与效率

GenCast是DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。GenCast在97.2%的预测任务中超越全球顶尖的中期天气预报系统...
阅读原文

Luma Photon:创新图像生成模型助力无限创意与高效创作

Luma Photon 是 Luma AI 推出的新一代图像生成模型,用创新的架构提供超高图像质量和低成本效率。Luma Photon支持个性化和创造性的图像生成,能理解自然语言...
阅读原文

TeleAI 视频生成大模型:智能视频创作助手助力内容创作与传播

TeleAI 视频生成大模型是中国电信AI研究院推出的视频生成模型,基于两阶段生成框架:先根据文本描述创建分镜头草图,再基于草图生成视频。TeleAI 视频生成大...
阅读原文

TPDM:创新时间预测扩散模型推动高校科研合作与发展

TPDM(Time Prediction Diffusion Model)是西湖大学MAPLE实验室、南方科技大学、北京大学及西湖大学高等研究院先进技术研究所联合推出的图像生成模型,能自...
阅读原文

ConsisID:智能文本到视频生成模型实现创意内容的快速转化

ConsisID是北京大学和鹏城实验室等机构推出的文本到视频(Text-to-Video, IPT2V)生成模型,基于频率分解技术保持视频中人物身份的一致性。模型用免调优(tun...
阅读原文

复旦联合微软等机构推出的端到端身份一致性视频扩散框架

StableAnimator是复旦大学、微软亚洲研究院、虎牙公司和卡内基梅隆大学共同推出的端到端高质量身份保持视频扩散框架。StableAnimator能根据一张参考图像和一...
阅读原文
1293031323385