AI项目和框架

智谱 AI 免费开放图像理解大模型

GLM-4V-Flash是智谱AI推出的专注于图像理解的AI模型,提供免费的API接口,支持用户上传图片URL或Base64编码图片获取详细的图像描述。模型简化图像分析流程,...
阅读原文

Meta AI推出的纯文本语言模型

Llama 3.3是Meta AI推出的70B 参数模型,大型多语言预训练语言模型,性能与40B参数的Llama 3.1相当。模型专为多语言对话优化,支持英语、德语、法语、意大利...
阅读原文

TensorOpera 开源的小语言模型系列

Fox-1是TensorOpera推出的一系列小型语言模型(SLMs),包括Fox-1-1.6B和Fox-1-1.6B-Instruct-v0.1。Fox-1模型在3万亿个网络抓取的文档数据上预训练,在50亿...
阅读原文

PaliGemma 2:DeepMind推出性视觉语言模型,实现跨媒体理解与生成

PaliGemma 2是Google DeepMind基于Gemma 2语言模型家族推出的新一代视觉语言模型(VLM),作为PaliGemma模型的升级版。结合SigLIP-So400m视觉编码器和不同规...
阅读原文

哈工大联合鹏城实验室推出的智能体框架

Optimus-1是哈尔滨工业大学(深圳)和鹏城实验室推出的智能体框架,能解决在开放世界环境中完成长期任务的挑战。框架结合结构化知识和多模态经验,让智能体更...
阅读原文

ClearerVoice-Studio:智能语音处理框架助力多场景应用的高效解决方案

ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架,集成语音增强、分离和音视频说话人提取等功能。框架基于复数域深度学习算法,有效消除...
阅读原文

字节豆包联合M-A-P社区开源的全新代码评估基准

FullStack Bench是字节跳动豆包大模型团队与M-A-P社区联合推出的全新代码评估基准,专注于全栈编程和多语言编程能力评估。FullStack Bench覆盖超过11种真实编...
阅读原文

Motion Prompting:谷歌携手密歇根与布朗大学推出创新轨迹控制视频生成模型

Motion Prompting是 Google DeepMind、密歇根大学和布朗大学联合推出的视频生成技术,基于运动轨迹(motion trajectories)控制和引导视频内容的生成。Motion...
阅读原文

Fish Audio 推出的语音合成模型,支持13种语言

Fish Speech 1.5 是Fish Audio 推出的文本到语音(TTS)模型,基于深度学习技术如Transformer、VITS、VQVAE和GPT等。Fish Speech 1.5支持英语、日语、韩语、...
阅读原文

Perplexideez:智能信息追溯助手提升搜索效率与准确性

Perplexideez是本地AI助手,支持用户在网络和自托管应用中快速搜索信息。Perplexideez项目以Postgres数据库为基础,支持Ollama或OpenAI兼容的端点,用SearXNG...
阅读原文

Micro LLAMA:探索LLAMA 3模型的核心原理与应用特点

Micro LLAMA是精简的教学版LLAMA 3模型实现,能帮助学习者理解大型语言模型架构。整个项目仅约180行代码,便于理解和学习。Micro LLAMA用的是LLAMA 3中最小的...
阅读原文

GenCast:DeepMind推出的性AI气象预测模型提气预报精准度与效率

GenCast是DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。GenCast在97.2%的预测任务中超越全球顶尖的中期天气预报系统...
阅读原文

Luma Photon:创新图像生成模型助力无限创意与高效创作

Luma Photon 是 Luma AI 推出的新一代图像生成模型,用创新的架构提供超高图像质量和低成本效率。Luma Photon支持个性化和创造性的图像生成,能理解自然语言...
阅读原文

TeleAI 视频生成大模型:智能视频创作助手助力内容创作与传播

TeleAI 视频生成大模型是中国电信AI研究院推出的视频生成模型,基于两阶段生成框架:先根据文本描述创建分镜头草图,再基于草图生成视频。TeleAI 视频生成大...
阅读原文

TPDM:创新时间预测扩散模型推动高校科研合作与发展

TPDM(Time Prediction Diffusion Model)是西湖大学MAPLE实验室、南方科技大学、北京大学及西湖大学高等研究院先进技术研究所联合推出的图像生成模型,能自...
阅读原文
15678961