AI项目和框架

Ingredients

Ingredients是强大的框架,基于将多个特定身份(ID)照片与视频扩散Transformer相结合,用在定制视频创作。Ingredients基于三个核心模块实现高度定制化的视频...
阅读原文

MultiBooth

MultiBooth是清华大学深圳国际研究生院、 Meta、香港科技大学等机构推出的多概念图像生成方法,能从文本中生成包含多个用户指定概念的图像。MultiBooth将生成...
阅读原文

Aria-UI

Aria-UI是香港大学和Rhymes AI共同推出的为图形用户界面(GUI)定位任务设计的大型多模态模型。基于纯视觉方法,不依赖于HTML或AXTree等辅助输入,用大规模、...
阅读原文

TransPixar

TransPixar是香港中文大学、Adobe研究院 、香港科技大学和智能摩尔联合开源的,先进的文本到视频生成方法,扩展预训练的RGB视频模型生成包含透明度信息的RGBA...
阅读原文

星火人设

星火人设是科大讯飞推出的专为情感交互而设计的独立模型(角色模拟API),具备人物设定、剧情演绎与语言风格等控制选项,支持模型精调。在规模C端用户的双盲...
阅读原文

万相2.1

万相2.1是阿里推出的通义万相升级版本。基于自研的高效VAE和DiT架构,增强时空上下文建模能力,支持无限长1080P视频的高效编解码,首次实现中文文字视频生成...
阅读原文

星火纪要

星火纪要是科大讯飞推出的集转录、总结、翻译、分析为一体的音视频处理平台,广泛应用于通用会议、访谈、销售、培训等场景。能帮助个人高效总结会议重点内容...
阅读原文

AutoDroid-V2

AutoDroid-V2是清华大学人工智能产业研究院推出的基于小型语言模型(SLM)的移动端GUI自动化脚本代理,能基于代码生成技术提升设备上的GUI代理性能。AutoDroi...
阅读原文

EnerVerse

EnerVerse 是智元机器人团队开发的首个机器人4D世界模型,旨在通过生成未来具身空间来指导机器人完成复杂任务。模型采用自回归扩散模型,结合稀疏记忆机制(S...
阅读原文

PsycoLLM

PsycoLLM是合肥工业大学计算机科学与信息工程学院推出的中文心理大型语言模型,基于高质量的心理数据集训练,提升对心理健康问题的理解和评估能力。模型的数...
阅读原文

Casevo

Casevo(Cognitive Agents and Social Evolution Simulator)是中国传媒大学数据科学与智能媒体传播学院、中国传媒大学媒体融合与传播国家重点实验室联合推出...
阅读原文

NMT

NMT(No More Tuning)是UC Berkeley和阿里巴巴集团联合推出的多任务学习框架,能解决多任务学习中不同任务优先级优化的问题。NMT将多任务学习问题转化为约束...
阅读原文

MiniPerplx

MiniPerplx 是开源的 AI 搜索引擎,基于 Grok 2.0 模型进行搜索。MiniPerplx提供了免费的替代方案,用在搜索网页、推特帖子、研究论文和 YouTube 视频等内容...
阅读原文

AddressCLIP

AddressCLIP 是基于 CLIP 技术构建的端到端图像地理定位模型,由中科院自动化所和阿里云联合开发。模型能通过一张照片实现街道级精度的定位,直接预测图像拍...
阅读原文

TradingAgents

TradingAgents是加利福尼亚大学洛杉矶分校和麻省理工学院推出的多代理LLM金融交易框架,能模拟现实世界的交易公司环境。TradingAgents整合多个具有不同角色和...
阅读原文