NEO

NEO是商汤科技与南洋理工大学合作研发的全新多模态模型架构,作为首个原生多模态架构(Native VLM),NEO通过底层架构的深度创新,打破了传统多模态模型的局...
阅读原文

Mistral 3

Mistral 3 是 Mistral AI 推出的新一代开源 AI 模型系列,包括小型的 Ministral 3(3B、8B、14B 参数)和大型的 Mistral Large 3(675B 总参数,41B 激活参数...
阅读原文

AnuNeko

AnuNeko是米哈游创始人蔡浩宇的新公司Anuttacon推出的AI聊天工具。工具用独特的“猫娘”形象为特色,通过高度个性化和情绪化的对话体验,为用户带来与众不同的...
阅读原文

PixVerse V5.5

PixVerse V5.5 是爱诗科技推出的视频生成大模型。模型通过自研的多模态理解和生成技术,支持音画同步生成,简化从构思到成片的复杂工作流程,提高创作效率。
阅读原文

Alpamayo-R1

Alpamayo-R1(AR1)是英伟达推出的视觉-语言-动作(VLA)模型,通过因果推理提升自动驾驶的决策能力和泛化性。模型的核心创新包括:构建因果链(CoC)数据集...
阅读原文

可灵O1

可灵O1(可灵视频 O1 模型)是可灵AI推出的全球首个统一多模态视频生成模型。模型通过创新的多模态视觉语言(MVL)架构,实现视频生成、编辑与理解的无缝融合。
阅读原文

Gen-4.5

Gen-4.5 是RunWay推出的视频生成模型,模型在视频生成的运动质量、视觉逼真度和提示词遵循度等方面树立新的行业标准。Gen-4.5 能生成电影级、极为逼真的画面...
阅读原文

Temvideo.ai

Temvideo.ai 是面向商业用户的 AI 视频制作工具,通过智能算法帮助用户快速生成高质量的营销视频。用户只需提供想法和素材,AI 代理即可自动完成视频制作,包...
阅读原文

Vidi2

Vidi2是字节跳动推出的专注于视频理解和创作的多模态大语言模型。在多模态时间检索(TR)方面达到了行业领先水平,在时空定位(STG)和视频问答(Video QA)...
阅读原文

传声港

传声港是杭州龙投文化传媒有限公司旗下的AI驱动综合媒体服务平台,为企业提供一站式品牌传播与推广服务。平台整合了网络媒体、自媒体博主、网红达人等资源,...
阅读原文

Ito

Ito是开源的智能语音听写工具,通过其独特的“VibeTyping”技术,将用户的口语意图转换为精美文本。支持在邮件客户端、文档、聊天平台、浏览器和代码编辑器等各...
阅读原文

Talo

Talo 是先进的AI实时语音翻译工具,专为打破语言障碍设计,广泛应用于视频会议场景。支持超过60种语言的即时翻译,能无缝集成到Google Meet、Microsoft Teams...
阅读原文

GELab-Zero

GELab-Zero 是 StepFun 开发的开源 GUI Agent 模型,专注于移动设备的自动化交互和任务执行。具备本地可部署能力,支持在消费级硬件上运行 4B 模型,确保低延...
阅读原文

Spokenly

Spokenly 是为 Mac 和 iPhone 设计的智能语音听写应用,支持超过100种语言,具备自动语言检测功能,适合多语言用户和国际团队。提供“本地优先”模式,所有语音...
阅读原文

FLUX.2 Prompting

FLUX.2提示词指南是Black Forest Labs官方推出的FLUX.2使用指南,主要介绍如何通过结构化的JSON提示、精确的十六进制颜色控制及多参考图像编辑技术生成高质量...
阅读原文
1345671,587