AI项目和框架

书生InternThinker:突破性强推理模型助力智能决策与复杂问题解决

书生InternThinker是上海人工智能实验室推出的强推理模型,具备自主生成高智力密度数据和元动作思考能力。基于长思维能力和自我反思、纠正机制,在数学、代码...
阅读原文

Pangea:多语言多模态大语言模型的创新特性与应用前景

Pangea是卡内基梅隆大学团队推出的多语言多模态大型语言模型(LLM),能提升全球语言和文化多样性的覆盖。模型包含600万条指令的多样化数据集,支持39种语言...
阅读原文

Windsurf:智能编码助手提升编程效率与协作能力

Windsurf 是Codeium公司推出的AI编程工具,具备实时协作功能,支持多系统,提供了强大的上下文感知能力。Windsurf融合了协作式 Copilots 和独立操作的 Agents...
阅读原文

LTX Video:Lightricks推出开源AI视频生成模型,轻松创建高质量视频内容

LTX Video是Lightricks推出的开源AI视频生成模型,能在4秒内生成5秒的高质量视频,速度超过观看速度。基于2亿参数的DiT架构,确保帧间平滑运动和结构一致性,...
阅读原文

EvolveDirector:阿里与南洋理工携手开发高效文本到图像生成模型技术

EvolveDirector是阿里巴巴和南洋理工大学联合推出的创新框架,用公开资源和高级模型的API接口训练一个高性能的文本到图像生成模型。框架基于与现有高级模型的...
阅读原文

Kandinsky-3:灵活适应多种图像生成任务的开源文本到图像生成框架

Kandinsky-3是基于潜在扩散模型的文本到图像(T2I)生成框架,以高质量和逼真度在图像合成领域脱颖而出。Kandinsky-3能适应多种图像生成任务,包括文本引导的...
阅读原文

CAVIA:多视角视频生成框架打造沉浸式视觉体验

CAVIA是苹果公司、得克萨斯大学奥斯汀分校、谷歌联合推出的多视角视频生成框架,能将单一输入图像转换成多个时空一致的视频序列。框架基于引入视角集成注意力...
阅读原文

Flex3D:创新的双阶段3D生成框架推动虚拟内容创作的新时代

Flex3D是由Meta的GenAI团队和牛津大学研究团队推出的创新的两阶段3D生成框架,能基于任意数量的高质量输入视图,解决从文本、单张图片或稀疏视图图像生成高质...
阅读原文

StoryTeller:全自动长视频描述生成系统提升内容创作效率与质量

StoryTeller是字节跳动、上海交通大学和北京大学共同推出的系统,能基于音频视觉角色识别技术改善长视频描述的质量和一致性。系统结合低级视觉概念和高级剧情...
阅读原文

DELIFT:数据驱动的高效语言模型指令微调技术提升智能交互体验

DELIFT(Data Efficient Language model Instruction Fine-Tuning)是新型算法,用在优化大型语言模型(LLMs)在指令调优、任务特定微调和持续微调三个关键阶...
阅读原文

HART:自回归视觉生成模型推动图像生成的创新与精准

HART(Hybrid Autoregressive Transformer)是麻省理工学院研究团队推出的自回归视觉生成模型。能直接生成1024×1024像素的高分辨率图像,质量媲美扩散模型。H...
阅读原文

WebDreamer:利用大语言模型提升网络规划效率的创新框架

WebDreamer是俄亥俄州立大学和Orby AI研究团队推出的基于模型规划的网络智能体,基于大型语言模型(LLMs),特别是GPT-4o,作为世界模型预测网站上的交互结果...
阅读原文

BALROG:评估大型语言模型与视觉语言模型在复杂动态环境中推理能力的基准测试工具

BALROG是评估大型语言模型(LLMs)和视觉语言模型(VLMs)在游戏上的推理能力,特别是模型在动态环境中的规划、空间推理和探索能力。基于一系列挑战性的游戏...
阅读原文

AutoVFX:智能化自然语言视频特效编辑工具提升创作效率与灵活性

AutoVFX是先进的物理特效框架,是伊利诺伊大学香槟分校研究团队推出的,能根据自然语言指令自动创建真实感和动态的视觉特效(VFX)视频。框架集成神经场景建...
阅读原文

Markdown-to-Image:在线 Markdown 转海报编辑器让创作变得简单高效

Markdown-to-Image是开源的Markdown 转为海报的编辑器,作为React组件能将Markdown文本内容转换成图像,适用于创建社交媒体帖子、海报和其他视觉内容。工具支...
阅读原文
1121314151662