AI项目和框架

Omages

Omages是一个开源的3D模型生成项目,基于图像扩散技术将3D形状的几何和纹理信息编码进64x64像素的2D图像中,从而简化3D建模流程。
阅读原文

GLM-4-Flash

GLM-4-Flash是智谱AI推出的首个免费大模型API,GLM-4-Flash不仅支持多轮对话和多语言处理,还具备网页浏览、代码执行等高级功能。开发者和企业可以在智谱AI开...
阅读原文

AgentGen

AgentGen是香港大学与微软联合推出的AI项目框架,通过自动生成多样化环境和任务,显著提升了大语言模型(LLM)的规划能力。AgentGen利用BI-EVOL方法,创建难...
阅读原文

MotionGen

MotionGen是元象科技推出的3D动作生成模型,结合了大模型、物理仿真和强化学习算法,支持用户仅通过简单文本指令即可快速生成逼真且流畅的3D动作。MotionGen...
阅读原文

GameNGen

GameNGen是谷歌推出的首个AI游戏引擎,能以每秒20帧的速度实时生成逼真的DOOM游戏画面,甚至让60%的玩家无法区分真假。GameNGen预示着游戏开发可能不再需要传...
阅读原文

GLM-4-Plus

GLM-4-Plus是智谱AI最新推出的高智能旗舰大模型,在语言理解和长文本处理上取得突破,采用创新技术如PPO,显著提升推理和指令遵循能力。GLM-4-Plus在多个关键...
阅读原文

CogView-3-Plus

CogView-3-Plus是智谱AI最新推出的AI文生图模型,采用Transformer架构替代传统UNet,优化了扩散模型的噪声规划。CogView-3-Plus在图像生成方面表现出色,能根...
阅读原文

GLM-4V-Plus

GLM-4V-Plus是智谱AI最新推出的多模态AI模型,专注于图像和视频理解。GLM-4V-Plus不仅能够精确分析静态图像,还具备动态视频内容的时间感知和理解能力,能捕...
阅读原文

Qwen2-VL

Qwen2-VL是阿里巴巴达摩院开源的视觉多模态AI模型,具备高级图像和视频理解能力。Qwen2-VL支持多种语言,能处理不同分辨率和长宽比的图片,实时分析动态视频...
阅读原文

auto-video-generator

auto-video-generator是AI自动解说视频生成器,能实现一键生成解说视频。用户只需输入主题,系统便自动撰写脚本、合成语音、生成图片并合成视频,极大提升内...
阅读原文

VFusion3D

VFusion3D 是由 Meta 和牛津大学的研究人员共同推出的AI生成3D模型项目,能从单张图片或文本描述中生成高质量的3D对象。VFusion3D 通过微调预训练的视频 AI ...
阅读原文

edge-tts

edge-tts是开源的AI文字转语音项目,支持超过40种语言和300多种声音。edge-tts利用微软Azure Cognitive Services的强大功能,能将文本信息转换成流畅自然的语...
阅读原文

LM Studio

LM Studio 是一个本地大语言模型 (LLM) 应用平台,开源、傻瓜、一站式部署本地大模型。包括但不限于Llama、MPT、Gemma等,LM Studio 提供了一个图形用户界面...
阅读原文

Video-LLaVA2

Video-LLaVA2是由北京大学ChatLaw课题组研发的开源多模态智能理解系统,通过创新的时空卷积(STC)连接器和音频分支,提升了视频和音频理解能力。模型在视频...
阅读原文

MUMU

MUMU是一种多模态图像生成模型,通过结合文本提示和参考图像来生成目标图像,从而提高生成的准确率和质量。MUMU模型的架构基于SDXL的预训练卷积UNet,采用了...
阅读原文
1373839404164