AI项目和框架
INFP:基于音频驱动的真实感面部表情与头部姿态生成AI框架
INFP是音频驱动的头部生成框架,专为双人对话交互设计。能自动在对话音频引导下进行角色的转换,无需手动分配角色和角色切换。INFP包括两个阶段:基于动作头...
RWKV-7:RWKV系列大模型架构提升上下文学习能力的创新产品特性解析
RWKV-7是RWKV系列的最新大模型架构版本,超越了传统的attention和linear attention范式,具有更灵活的状态演化能力,能在相同算力消耗下解决attention无法解...
OpenAI o3:OpenAI推出超强推理模型,智能提升与创新思维的完美结合
OpenAI o3模型是继o1之后的新一代推理模型,包括o3和o3-mini两个版本。o3在某些条件下接近于通用人工智能(AGI),在ARC-AGI基准测试中得分高达87.5%,远超人...
AniDoc:自动化草图到彩色动画转化的创新视频扩散模型
AniDoc是香港科技大学、蚂蚁集团、南京大学、浙江大学和香港大学共同推出的简化2D动画上色AI模型,基于视频扩散模型自动将草图序列转换成彩色动画,遵循参考...
ElevenLabs Flash:创新低延迟语音合成模型提升语音交互体验
ElevenLabs Flash是ElevenLabs推出的低延迟语音合成模型,专为快速对话型AI设计。ElevenLabs Flash有两个版本:Flash v2仅支持英语,Flash v2.5支持32种语言...
Gemini 2.0 Flash Thinking:探索谷歌最新实验性推理模型的核心特性与应用潜力
Gemini 2.0 Flash Thinking是谷歌推出的实验性AI模型,能快速思考和解决问题。Gemini 2.0 Flash Thinking展示详细的思考过程,与OpenAI的o1模型不同,Gemini ...
Genesis:开源生成式物理引擎助力创新模拟与实时交互体验
Genesis是卡内基梅隆大学、马里兰大学、斯坦福大学、麻省理工学院等研究机构联合推出的开源生成式物理引擎,能模拟世界万物。Genesis能用简单的语言描述,快...
UniReal:港大携手Adobe推出创新图像生成与编辑框架提升创作效率与灵活性
UniReal是什么 UniReal是香港大学和Adobe研究院共同推出的框架,专注于实现多种图像生成和编辑任务。框架基于模拟现实世界动态,能在单一模型中处理包括图像...
X-AnyLabeling:多样化图像与视频标注样式的智能AI工具
X-AnyLabeling是集成多种深度学习算法的图像标注软件,专注于提升标注效率和精度。X-AnyLabeling支持图像和视频的多样化标注样式,适配多种AI训练场景,提供...
AI 3D世界生成模型,文本图像秒变3D渲染场景
Explorer是Odyssey公司推出的生成性世界模型,能将任何图像转化为详细的3D世界。Explorer模型擅长生成真实感世界,且支持动态效果的生成。Explorer基于高斯溅...
EMMA-X:具身多模态动作模型推动人机交互的革新与应用
EMMA-X是新加坡科技设计大学推出的具有70亿参数的具身多模态动作模型,在有根据的链式思维(CoT)推理数据上微调OpenVLA创建。EMMA-X结合层次化的具身数据集...
WeaveFox:蚂蚁团队出品,根据设计图直接生成源代码
WeaveFox是蚂蚁团队推出的AI驱动前端智能研发平台,基于蚂蚁自研的百灵多模态大模型,能直接根据设计图生成前端源代码。工具支持多种应用类型,包括控制台、...
微软开源的多功能、多格式文档转Markdown工具
MarkItDown是微软开源的多功能文档处理工具,能将PDF、PPT、Word、Excel、图像、音频、HTML等多种格式的文件转换成Markdown格式。支持OCR文字识别、语音转文...
豆包推出视觉理解模型,具备识别和推理能力
豆包视觉理解模型是豆包推出的先进AI大模型,具备视觉识别和理解推理能力。豆包视觉理解模型能识别图像中物体的类别、形状、纹理等,还能理解物体间的关系和...