AI工具

RAG-Diffusion:区域感知文本到图像生成技术的创新应用与优势分析

RAG-Diffusion是南京大学团队推出的区域感知文本到图像生成方法。基于区域硬绑定和区域软细化两个阶段,实现对图像中各个区域的精确控制和细节优化。RAG-Diff...
阅读原文

FitDiT:腾讯与复旦携手打造的高保真虚拟试穿技术实现无缝体验与精准匹配

FitDiT是高保真虚拟试穿技术,是腾讯和复旦大学联合推出的。基于Diffusion Transformers(DiT)关注高分辨率特征,提升服装细节的呈现。FitDiT用服装纹理提取...
阅读原文

口语达人:游戏化学习助力口语能力飞跃提升

口语达人是专为非英语国家人士设计的英语学习应用,旨在帮助用户提升英语口语能力。通过游戏化的学习方式,将日常生活场景划分为多个单元,涵盖旅行、购物、...
阅读原文

桐小乌:桐乡市AI智能助手助力便民服务提升生活效率

桐小乌是桐乡市人民政府与支付宝合作推出的智能体,国内首个集会务与文旅服务于一体的智能助手。为2024年世界互联网大会参会者和乌镇游客提供全面的服务,包...
阅读原文

Copilot Actions:微软推出智能助手简化重复任务,提高工作效率

Copilot Actions 是微软在 Ignite 大会上推出的 Microsoft 365 Copilot一项新功能,支持用户用简单的提示自动完成日常的重复性任务,如总结 Teams 会议、生成...
阅读原文

闪令:沉浸式角色扮演与剧情探索的无限可能

闪令是互动内容社交平台,为年轻人打造的AI剧情社区。用户进行高自由度的角色扮演和剧情体验,选择古风、同人、穿越等多种剧情故事。闪令提供有声互动和情感...
阅读原文

Documind:高效PDF转图像工具助力结构化数据提取

Documind是开源的AI文档处理工具,能从PDF文档中提取结构化数据。Documind具备将PDF转换为图像、用OpenAI API进行信息提取,根据用户定义的模式格式化输出结...
阅读原文

MARS:提升大模型训练效率的字节优化框架解析

MARS(Make vAriance Reduction Shine)是字节跳动推出的创新的优化框架,提升大型模型训练的效率。MARS融合预条件梯度方法与方差减少技术,基于缩放随机递归...
阅读原文

Verifier Engineering:创新后训练范式推动产品智能化与个性化升级

Verifier Engineering(验证器工程)是中国科学院、阿里巴巴和小红书联合推出的新型后训练范式,为基础模型设计,解决提供有效监督信号的挑战。Verifier Engi...
阅读原文

众影AI:智能动画创作:从剧本与音频到视觉作品的自动生成

众影AI是AI视频生成工具,专注于轻动画创作。基于自研的大模型自动分析剧本或音频,能一键生成角色表演,平均1分钟内完成视频制作。适于多种创作场景,如夫妻...
阅读原文

Vidu 1.5:生数科技发布支持多主体一致性的多模态大规模模型

Vidu 1.5是生数科技推出的AI视频生成平台最新版本,致力于帮助创作者自由表达和高效创作。具备多模态视频大模型,支持参考生视频、图生视频和文生视频,确保...
阅读原文

AgentReview:基于大语言模型代理的同行评审过程模拟框架

AgentReview是基于大型语言模型(LLM)的框架,模拟学术同行评审过程。AgentReview基于LLM代理模拟评审者、作者和领域主席的角色,支持研究者在尊重隐私的同...
阅读原文

CHANGER:利用AI换头技术实现演员与目标身体的完美融合

CHANGER是工业级超自然AI换头与色键技术,用在数字内容创作中将演员头部无缝集成到目标身体上,适于视觉特效、数字人类创建和虚拟化身。CHANGER基于色键技术...
阅读原文

Kiroku:多智能体系统下学生与导师的互动与文档协作模拟研究

Kiroku是多智能体系统,辅助用户组织和撰写文档。灵感源自创始人在斯坦福大学攻读博士期间的学术写作经历,Kiroku模拟学生与导师间的互动,帮助用户快速生成...
阅读原文

Vision Search Assistant:结合视觉语言模型与网络代理搜索技术的开源框架研究

Vision Search Assistant(VSA)是结合视觉语言模型(VLMs)和网络代理的框架,提升模型对未知视觉内容的理解能力。基于互联网检索,使VLMs处理和回答有关未...
阅读原文