AI项目和框架
GLM-4-Voice
GLM-4-Voice是智谱AI推出的端到端情感语音模型,能直接理解和生成中英文语音,支持实时语音对话,能根据用户指令灵活调整语音的情感、语调、语速和方言等特征...
EveryoneNobel
EveryoneNobel是一个开源AI工具,为每个人生成个性化的诺贝尔奖风格图像。EveryoneNobel基于ComfyUI框架,结合HTML模板和图像生成技术,用户只需上传肖像照片...
TextHarmony
TextHarmony是华东师范大学和字节跳动共同推出的多模态生成模型,擅长理解和生成视觉文本。模型基于Slide-LoRA技术,动态聚合特定于模态和模态无关的LoRA专家...
NotebookLlama
NotebookLlama是Meta推出的将PDF文档转换成播客内容的开源项目。项目基于一系列自动化步骤实现,用LLaMa模型进行PDF预处理、生成播客脚本、增加戏剧化元素及...
WonderWorld
WonderWorld是斯坦福大学和麻省理工学院共同推出的创新性3D场景生成框架,能从单张图片快速生成多样化且连贯的3D虚拟世界。基于核心的Fast LAyered Gaussian ...
PersonaTalk
PersonaTalk是字节跳动推出的基于注意力机制的两阶段框架,用在实现高保真度和个性化的视觉配音。PersonaTalk能在合成与目标音频精准唇形同步的视频的同时,...
SynthID Text
SynthID Text 是谷歌DeepMind 推出的文本水印技术,用在识别和验证由大型语言模型(LLM)生成的文本。基于细微调整生成过程中的Token概率分数嵌入几乎无法察...