标签:自然语言理解

混元DiT

混元DiT(Hunyuan-DiT)是由腾讯混元团队开发的一款高性能的文本到图像的扩散Transformer模型,具备细粒度的中英文理解能力,能够根据文本提示生成多分辨率的...
阅读原文

SAM 2

SAM 2(Segment Anything Model 2)是Meta推出的AI对象分割模型,专注于实时图像和视频对象分割。具备零样本泛化能力,能准确分割未知对象,并通过统一架构同...
阅读原文

Mini-Monkey

Mini-Monkey是华中科技大学和华南理工大学联合推出的轻量级多模态AI模型。采用多尺度自适应切分策略(MSAC)和尺度压缩机制(SCM),有效解决了传统图像切分...
阅读原文

Llama-3.1-Minitron

Llama-3.1-Minitron是由英伟达和Meta合作开发的AI模型,通过剪枝和知识蒸馏技术从Llama 3.1 8B模型精炼而成的更小型4B参数模型。这种优化减少了模型大小和复...
阅读原文

Ugic

Ugic是即时设计推出的Figma AI设计插件,能根据用户上传的组件库和设计系统,智能生成多语言的UI草稿。Ugic支持文本到结构的转换,允许用户输入PRD或描述文本...
阅读原文

Yodayo

Yodayo是一个面向动漫爱好者和虚拟主播(VTubers)的在线AI艺术创作平台。用户可以通过输入提示词和选择模型,轻松生成高质量的动漫风格艺术作品。
阅读原文

PGTFormer

PGTFormer是先进的视频人脸修复框架,通过解析引导的时间一致性变换器来恢复视频中的高保真细节,同时增强时间连贯性。该方法无需预对齐,基于语义解析选择最...
阅读原文

什么是思维链(Chain of Thought,CoT)

思维链(Chain of Thought,CoT)是人工智能领域的一项突破性进展,通过模拟人类解决问题时的思考过程,赋予机器更深层次的逻辑推理能力。在面对需要多步骤逻...
阅读原文

人工超级智能(Artificial Superintelligence,ASI)

人工超级智能(Artificial Superintelligence,ASI)是一种理论上的人工智能系统,认知能力远超人类智能。不仅能执行所有人类能够完成的智能任务,而且能以更...
阅读原文

Claude Dev

Claude Dev是一个集成在Visual Studio Code中的AI编程助手,基于Anthropic公司的Claude 3.5 Sonnet模型,为开发者提供自动化的编程支持。Claude Dev自动处理...
阅读原文

Qwen2.5

Qwen2.5 是阿里通义千问团队最新开源的最强AI大模型,具有多种参数规模的模型,包括 0.5B、1.5B、3B、7B、14B、32B 和 72B。模型在预训练时使用了最新的大规...
阅读原文

Toorch

Toorch是由零一万物推出的一款AI新闻阅读器,旨在提供高效、个性化的移动搜索体验。支持连续对话功能,形成时间线结构,方便用户追踪和回顾历史对话。
阅读原文

LVCD

LVCD(Large Video Color Diffusion)是一个专为动画视频线稿上色设计的视频扩散框架,能将黑白线稿自动转化为彩色动画视频。LVCD使用了一种先进的扩散模型,...
阅读原文

豆包Seaweed

豆包Seaweed是字节跳动推出的AI视频生成模型,支持文生视频和图生视频两种模式。基于Transformer结构,利用时空压缩技术进行训练,原生支持多分辨率输出,适...
阅读原文

MemFree

MemFree是一款开源的混合AI搜索引擎,通过整合多种AI模型和搜索引擎,提供高效、多样化的搜索体验。可以用文本、图像、文件和网页等多种方式进行搜索和提问,...
阅读原文
13456