AI项目和框架
PixelWave Flux:FLUX.1-dev模型微调版赋能创意图像生成的全新可能
PixelWave Flux.1-dev 03是基于FLUX.1-dev模型在NVIDIA 4090上微调的AI图像生成模型,有卓越的模型泛化能力,模型在处理多种艺术风格、摄影和动漫图像方面表...
Computer Use OOTB:基于Claude 3.5 API的开源GUI框架实现高效远程控制解决方案
Computer Use OOTB是开源的GUI 框架,基于Claude 3.5 Computer Use API实现对计算机的自动化控制。框架支持跨平台操作,用户在Windows和macOS系统上能轻松部...
Fireworks f1:复合AI模型融合多元开源技术以应对复杂推理挑战
Fireworks f1是Fireworks公司推出的复合AI模型,针对复杂推理任务设计。基于在推理层融合多个开放模型,实现超越单一模型的性能和可靠性。f1模型支持开发者用...
AgileGen:智能代码自动生成与原型设计的创新解决方案
AgileGen是生成式软件开发框架,通过人与AI协作增强软件的创建过程。AgileGen包含两个核心部分:终端用户决策制定和AgileGen智能体。框架用Gherkin语言设计和...
OmniSearch:多模态智能检索与生成技术的全面升级
OmniSearch是阿里巴巴通义实验室推出的多模态检索增强生成框架,具备自适应规划能力。OmniSearch能动态拆解复杂问题,根据检索结果和问题情境调整检索策略,...
Perplexica:智能开源AI搜索引擎实现多模式搜索与实时信息更新
Perplexica是开源的AI驱动搜索引擎,是Perplexity AI的开源替代品。基于机器学习算法和自然语言处理技术理解用户查询,提供精确答案。Perplexica支持多种搜索...
Memoripy:智能记忆管理库助力上下文感知的AI应用开发
Memoripy是一个Python库,为AI应用提供上下文感知的记忆管理。Memoripy支持短期和长期记忆存储,兼容OpenAI和Ollama API。核心功能包括记忆检索、概念提取、...
AnimateAnything:创新统一可控视频生成技术提升内容创作效率
AnimateAnything是浙江大学和北京航空航天大学研究者推出的统一可控视频生成技术。AnimateAnything能精确操作视频,包括控制相机轨迹、文本提示和用户动作注...
RAG-Diffusion:区域感知文本到图像生成技术的创新应用与优势分析
RAG-Diffusion是南京大学团队推出的区域感知文本到图像生成方法。基于区域硬绑定和区域软细化两个阶段,实现对图像中各个区域的精确控制和细节优化。RAG-Diff...
FitDiT:腾讯与复旦携手打造的高保真虚拟试穿技术实现无缝体验与精准匹配
FitDiT是高保真虚拟试穿技术,是腾讯和复旦大学联合推出的。基于Diffusion Transformers(DiT)关注高分辨率特征,提升服装细节的呈现。FitDiT用服装纹理提取...
Documind:高效PDF转图像工具助力结构化数据提取
Documind是开源的AI文档处理工具,能从PDF文档中提取结构化数据。Documind具备将PDF转换为图像、用OpenAI API进行信息提取,根据用户定义的模式格式化输出结...
MARS:提升大模型训练效率的字节优化框架解析
MARS(Make vAriance Reduction Shine)是字节跳动推出的创新的优化框架,提升大型模型训练的效率。MARS融合预条件梯度方法与方差减少技术,基于缩放随机递归...
Verifier Engineering:创新后训练范式推动产品智能化与个性化升级
Verifier Engineering(验证器工程)是中国科学院、阿里巴巴和小红书联合推出的新型后训练范式,为基础模型设计,解决提供有效监督信号的挑战。Verifier Engi...
Vidu 1.5:生数科技发布支持多主体一致性的多模态大规模模型
Vidu 1.5是生数科技推出的AI视频生成平台最新版本,致力于帮助创作者自由表达和高效创作。具备多模态视频大模型,支持参考生视频、图生视频和文生视频,确保...
AgentReview:基于大语言模型代理的同行评审过程模拟框架
AgentReview是基于大型语言模型(LLM)的框架,模拟学术同行评审过程。AgentReview基于LLM代理模拟评审者、作者和领域主席的角色,支持研究者在尊重隐私的同...