视觉语言模型易受攻击?西安交大等提出基于扩散模型的对抗样本生成新方法

本文提出了 AdvDiffVLM,一个高效框架,通过扩散模型和得分匹配生成自然、无约束且具有针对性的对抗样本。
阅读原文

Deepseek v3 实测来了!智商,情商不存在,自信退出价格战

原标题:Deepseek v3 实测来了!智商牛逼,情商不存在,自信退出价格战 文章来源:夕小瑶科技说 内容字数:6464字DeepSeek V3:高智商低情商的国产大模型新秀...
阅读原文

什么是上下文嵌入(Contextual Embedding)

上下文嵌入(Contextual Embedding)是一种将词汇映射到向量空间的技术,它为每个词生成一个基于其上下文的表示。这些表示能够捕捉词汇在不同上下文中的多样...
阅读原文

什么是合成数据(Synthetic Data)

合成数据(Synthetic Data)是一种非人工创建的数据,通过计算算法和模拟生成,用以模仿真实世界数据。它具有与实际数据相同的数学特性,但不包含相同的具体...
阅读原文

什么是交叉验证(Cross-validation)

交叉验证(Cross-validation)是统计分析中一种重要的模型验证技术,主要用于评估模型在未知数据上的泛化能力。它通过将数据集分割成若干个子集,然后使用不...
阅读原文

什么是模型泛化(Generalization)

模型泛化(Generalization)是机器学习中的一个核心概念,指的是模型在训练数据之外的新数据上的表现能力。换句话说,泛化能力衡量的是模型能否在未见过的样...
阅读原文

VE-Bench

VE-Bench 是北京大学的研究团队 MMCAL 最近发布首个专门针对视频编辑质量评估的指标。VE-Bench 的设计目标是与人类感知能力高度一致,更准确地评估视频编辑效...
阅读原文

EDTalk

EDTalk是上海交通大学联合网易研发的音频驱动唇部同步模型,能实现对嘴型、头部姿态和情感表情的独立操控。只需上传一张图片、一段音频和参考视频,就能驱动...
阅读原文

video-analyzer

video-analyzer是开源的视频分析工具,结合Llama的11B视觉模型和OpenAI的Whisper模型来提取视频关键帧、转录音频内容,并生成视频的详细描述。工具支持完全本...
阅读原文

什么是模型量化(Model Quantization)

模型量化(Model Quantization)是深度学习模型优化中的一项关键技术,它通过减少模型参数的位宽来降低模型的存储和计算需求,从而提高模型在各种硬件平台上...
阅读原文

PeterCat

PeterCat是开源的智能答疑机器人助手。PeterCat能帮助开发者和社区维护者更高效地解决技术问题,提升社区支持效率。PeterCat基于自动构建知识库,能与GitHub...
阅读原文

PartGen

PartGen是先进的3D对象生成和重建框架,是牛津大学的视觉几何小组和Meta AI共同推出的。PartGen能识别并生成由有意义部分组成的3D对象,3D对象能基于文本提示...
阅读原文

Vision Parse

Vision Parse是开源的PDF文档转换工具,基于视觉语言模型(Vision LLMs)将PDF文件转换成Markdown格式。Vision Parse能智能识别和提取PDF中的文本和表格,且...
阅读原文

The Language of Motion

The Language of Motion是斯坦福大学李飞飞团队推出的多模态语言模型,能整合人类动作中的言语和非言语语言。模型能处理文本、语音和动作数据,生成对应的目...
阅读原文