DeepSeek R1与OpenAI模型文风相似度高达74.2%？新研究质疑DeepSeek训练数据

AIGC动态1年前 (2025)发布机器之心

Copyleaks，一个专注于检测文本中的抄袭和AI生成内容的平台。

原标题：DeepSeek R1与OpenAI模型文风相似度高达74.2%？新研究质疑DeepSeek训练数据
文章来源：机器之心
内容字数：4879字

DeepSeek 与 OpenAI 风格惊人相似：Copyleaks 研究引发争议

近日，Copyleaks 平台发布的一项研究显示，DeepSeek 生成的文本中有 74.2% 在风格上与 OpenAI 模型惊人相似，引发广泛关注。这项研究使用了由三个分类器组成的 LLM 检测集成系统，该系统能够识别不同 AI 模型生成的文本，即使这些模型试图模仿其他风格也是如此。

1. Copyleaks 的研究方法

Copyleaks 的研究基于一个由三个不同架构和训练数据的分类器组成的集成系统。该系统使用来自 OpenAI、Llama、Claude 和 Gemini 模型的 5 万条英文文本进行训练，并采用“一致同意制”的投票机制，只有当三个分类器都一致认同时才输出结果。这种方法旨在提高准确性并降低误判率，其在测试集上的准确率达到 0.9988，假阳性率仅为 0.0004。

2. 不同模型的风格相似性分析

研究对四个新模型 (phi-4、Grok-1、Mixtral 和 DeepSeek) 进行了测试。结果显示：phi-4 和 Grok-1 模型与训练集中的四大模型风格差异显著；Mixtral 模型有 26% 的文本被识别为 OpenAI 生成，8.8% 被识别为 Llama 生成；而 DeepSeek 模型则有高达 74.2% 的文本被识别为 OpenAI 生成。

3. DeepSeek 与 OpenAI 相似性引发质疑

DeepSeek 与 OpenAI 风格的高度相似性引发了对其训练过程的质疑。Copyleaks 数据科学主管 Shai Nisan 认为，虽然这不能直接证明 DeepSeek 是 OpenAI 的衍生产品，但确实令人对其开发过程产生疑问，暗示其可能使用了 OpenAI 模型的输出作为训练数据。

4. 其他可能解释及争议

除了训练数据可能存在重叠外，文章也指出，AI 模型随着时间推移风格趋同的可能性，以及 Copyleaks 检测系统的准确性和客观性也值得探讨。尽管质疑声不断，DeepSeek 的应用却持续增长，并通过开源核心技术回应质疑。

5. 研究结果的可靠性

Copyleaks 的研究结果虽然引发了广泛讨论，但其结论的可靠性仍有待进一步考量。高准确率的检测系统和统计方法固然令人印象深刻，但风格相似性并不一定意味着抄袭或衍生关系。 AI 模型的风格趋同、训练数据的重叠以及检测方法本身的局限性，都需要更深入的分析和验证。

6. 结论

Copyleaks 的研究为 AI 模型的风格识别提供了新的视角，也引发了对 AI 模型训练数据和开发过程的更深层次思考。 DeepSeek 与 OpenAI 的高度风格相似性值得关注，但需避免过度解读，需要更多研究来证实其背后的原因并评估其影响。

联系作者

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

阅读原文

# AIGC动态 # AI模型剽窃检测 # AI模型文风相似度检测 # DeepSeekR1训练数据 # 大型语言模型数据来源 # 生成式AI模型训练数据分析

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

DeepSeek R1与OpenAI模型文风相似度高达74.2%？新研究质疑DeepSeek训练数据

Copyleaks，一个专注于检测文本中的抄袭和AI生成内容的平台。

DeepSeek 与 OpenAI 风格惊人相似：Copyleaks 研究引发争议

1. Copyleaks 的研究方法

2. 不同模型的风格相似性分析

3. DeepSeek 与 OpenAI 相似性引发质疑

4. 其他可能解释及争议

5. 研究结果的可靠性

6. 结论

联系作者

差点被开除的哈佛学子，最后为创业选择主动休学 | 比尔盖茨自传《源代码》

半个世纪后，著名的麦凯猜想终获证明！数学家夫妇终结了一个未解群论难题

相关文章

暂无评论