AI工具

ENEL

ENEL(Exploring the Potential of Encoder-free Architectures in 3D LMMs)是创新的无编码器3D大型多模态模型(3D LMM),解决传统编码器架构在3D理解任务...
阅读原文

AnyCharV

AnyCharV 是香港中文大学、清华大学深圳国际研究生院、香港大学联合推出的角色可控视频生成框架,能将任意参考角色图像与目标驱动视频相结合,生成高质量的角...
阅读原文

BAG

BAG(Body-Aligned 3D Wearable Asset Generation)是香港中文大学和腾讯联合提出创新的3D可穿戴资产生成技术,通过结合多视图图像扩散模型和控制网络(Contr...
阅读原文

涌墨

涌墨是智能文档编写平台,为用户提供全流程、智能化、高质量的文档生成解决方案。通过一站式文档工作流,以项目为单位管理文档,覆盖全业务流程,帮助用户高...
阅读原文

通古大模型

通古大模型是华南理工大学深度学习与视觉计算实验室(SCUT-DLVCLab)推出的专注于古籍文言文处理的人工智能语言模型。基于百川2-7B-Base进行增量预训练,使用...
阅读原文

LeetTools

LeetTools 是高效的人工智能文档工作流工具,专为提升知识工作者的效率而设计。能自动从互联网收集信息生成高质量的文档,同时支持本地知识库的构建和管理。...
阅读原文

Sa2VA

Sa2VA是字节跳动联合加州大学默塞德分校、武汉大学和北京大学共同推出的多模态大语言模型,是SAM2和LLaVA结合而成,能实现对图像和视频的密集、细粒度理解。S...
阅读原文

WebLI-100B

WebLI-100B是Google DeepMind推出的包含1000亿图像-文本对的超大规模数据集,用在预训练视觉语言模型(VLMs)。WebLI-100B是WebLI数据集的扩展版本,基于从网...
阅读原文

OpenThinker-32B

OpenThinker-32B 是斯坦福、UC 伯克利、华盛顿大学等机构联合开发的开源推理模型,拥有 328 亿参数,支持 16,000 token 的上下文长度。模型仅使用 114k 数据...
阅读原文

Social Media Agent

Social Media Agent是智能的社交媒体内容管理工具,基于输入的URL内容生成Twitter和LinkedIn帖子。Social Media Agent用人机交互 流程,处理社交媒体平台认证...
阅读原文

Trickle

Trickle 是零代码网页应用开发工具,用自然语言输入的方式,让用户无需编程知识快速创建功能丰富的网页应用。用户只需描述需求,Trickle 能自动生成前端页面...
阅读原文

Matrix-Zero

Matrix-Zero是昆仑万维推出的世界模型,包含两款子模型:3D场景生成大模型和可交互视频生成大模型。Matrix-Zero能将用户输入的图片转化为可自由探索的真实3D...
阅读原文

GAS

GAS(Generative Avatar Synthesis from a Single Image)是卡内基梅隆大学、上海人工智能实验室和斯坦福大学的研究人员提出的从单张图像生成高质量、视角一...
阅读原文

Magic 1-For-1

Magic 1-For-1是北京大学、Hedra Inc. 和 Nvidia 推出的高效视频生成模型,基于优化内存消耗和推理延迟快速生成高质量视频片段。模型将复杂的文本到视频生成...
阅读原文

Goedel-Prover

Goedel-Prover(哥德尔证明器)是普林斯顿大学、清华大学、清华大学等机构推出的开源大型语言模型(LLM),用在自动化数学问题的形式证明生成。基于将自然语...
阅读原文
17172737475233