AI项目和框架

GLM-4-Voice

GLM-4-Voice是智谱AI推出的端到端情感语音模型,能直接理解和生成中英文语音,支持实时语音对话,能根据用户指令灵活调整语音的情感、语调、语速和方言等特征...
阅读原文

Unbounded

Unbounded是谷歌和北卡罗来纳大学教堂山分校共同推出的无限人生模拟游戏。游戏突破传统视频游戏的局限,用生成模型,如大型语言模型(LLM)和视觉生成模型,创...
阅读原文

AutoGLM

AutoGLM是智谱AI团队最新推出的 “Phone Use” AI智能体,基于图形用户界面(GUI)实现自主任务完成。AutoGLM能模拟人类在手机操作,执行如社交媒体互动、在线...
阅读原文

EveryoneNobel

EveryoneNobel是一个开源AI工具,为每个人生成个性化的诺贝尔奖风格图像。EveryoneNobel基于ComfyUI框架,结合HTML模板和图像生成技术,用户只需上传肖像照片...
阅读原文

TextHarmony

TextHarmony是华东师范大学和字节跳动共同推出的多模态生成模型,擅长理解和生成视觉文本。模型基于Slide-LoRA技术,动态聚合特定于模态和模态无关的LoRA专家...
阅读原文

BlinkShot

BlinkShot是实时AI图像生成器,能迅速生成高质量的图像。用户只需输入提示,BlinkShot能在几毫秒内生成图像。工具基于Together AI的Flux Schnell技术,支持自...
阅读原文

NotebookLlama

NotebookLlama是Meta推出的将PDF文档转换成播客内容的开源项目。项目基于一系列自动化步骤实现,用LLaMa模型进行PDF预处理、生成播客脚本、增加戏剧化元素及...
阅读原文

WonderWorld

WonderWorld是斯坦福大学和麻省理工学院共同推出的创新性3D场景生成框架,能从单张图片快速生成多样化且连贯的3D虚拟世界。基于核心的Fast LAyered Gaussian ...
阅读原文

Meissonic

Meissonic是由阿里巴巴集团、Skywork AI等多所大学合作推出的文本到图像合成模型。基于掩蔽图像建模技术,结合多模态和单模态Transformer层、高级位置编码策...
阅读原文

Zamba2-7B

Zamba2-7B是Zyphra公司推出的小型语言模型,基于创新的架构在保持输出质量的同时实现快速的推理速度和低内存占用。模型在处理图像描述等任务时表现出色,适合...
阅读原文

PersonaTalk

PersonaTalk是字节跳动推出的基于注意力机制的两阶段框架,用在实现高保真度和个性化的视觉配音。PersonaTalk能在合成与目标音频精准唇形同步的视频的同时,...
阅读原文

OpenSPG

OpenSPG是蚂蚁集团联合OpenKG社区推出的基于SPG框架的知识图谱引擎。OpenSPG融合LPG的结构性和RDF的语义性,克服RDF/OWL语义复杂难以落地的问题,继承LPG结构...
阅读原文

LongVU

LongVU是Meta AI团队推出的长视频理解模型,基于时空自适应压缩机制。解决处理长视频时受限于大型语言模型(LLM)上下文大小的挑战。LongVU基于跨模态查询和...
阅读原文

SynthID Text

SynthID Text 是谷歌DeepMind 推出的文本水印技术,用在识别和验证由大型语言模型(LLM)生成的文本。基于细微调整生成过程中的Token概率分数嵌入几乎无法察...
阅读原文

Video-XL

Video-XL是北京智源人工智能研究院联合上海交大、中国人民大学、中科院、北邮和北大的研究人员共同推出的专为小时级视频理解设计的超长视觉理解模型。基于视...
阅读原文
1353637383943