大模型进展专栏第五期|你的数据被大模型“看”过吗?教你一招查出来!发表时间:2025-05-17 19:16 近期大模型因涉嫌违规使用版权数据遭起诉的消息频繁登上新闻,训练数据合规性成为全球AI监管热点。判断给定数据是否是大模型训练数据的一部分,是数据合规性检测的重要一环。本期大模型进展专栏“顶会顶刊分享”栏目我们邀请了中国科学院计算技术研究所程学旗研究员团队分享他们在自然语言处理顶级会议The 2024 Conference on Empirical Methods in Natural Language Processing(EMNLP 2024)获得最佳论文奖的最新成果。 论文题目:Weichao Zhang, Ruqing Zhang, Jiafeng Guo, Maarten de Rijke, Yixing Fan, Xueqi Cheng. Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method (EMNLP 2024 Best Paper) 论文地址:https://aclanthology.org/2024.emnlp-main.300 GitHub链接:https://github.com/zhang-wei-chao/DC-PDD
内容简介:近年来,大语言模型(LLMs)的训练数据规模在不断扩大,而模型开发者却越来越不愿意公开训练数据的使用信息,这种情况使得审查大模型的数据使用过程是否符合法律法规面临困难。近期,在大模型上进行预训练数据检测的任务开始受到关注,即给定一段文本和一个预训练数据未知的大模型,仅依靠黑盒访问条件来推断该文本被用于大模型的预训练过程。Min-K% Prob方法在一些基准数据集上取得了最好的效果,该方法假设非训练文本往往包含一些具有低词元概率的异常词。然而,该方法容易将包含较多频繁词的非训练文本误分类为训练文本。受信息检索领域的divergence-from-randomness理论启发,我们提出了一种新的预训练数据检测方法DC-PDD来解决这个问题。DC-PDD通过计算词元概率分布与词元频率分布之间的交叉熵(即divergence)作为检测信号。此外,我们提出了一个中文基准数据集PatentMIA,用于评估中文数据检测方法的性能。在现有的基准数据集和PatentMIA上的实验结果表明,DC-PDD显著优于现有方法。 研究背景 众所周知,自从在大模型上验证缩放定律的有效性之后,模型的训练数据规模就开始急剧增加,但是模型开发商却越来越不愿意公开有关训练数据的使用信息,这种数据不透明的情况,使得我们难以审查模型的数据使用过程是否合乎道德,甚至法规。比如,近期就有不少报道称,在未经授权的情况下,大模型开发商擅自使用了具有敏感信息或者受到版权保护的数据进行训练,侵犯了数据所有者的权益,受到相关的起诉。此外,有些模型的训练数据中,可能有意或者无意的包含了用于评估模型性能的基准数据集,造成模型性能虚高的假象,这种刷榜现象也对大模型的发展带来了不利影响。 鉴于这些现象,大模型的预训练数据检测任务开始受到关注。该任务是指,给定一段文本和一个大语言模型,要求检测出该段文本是否为这个大语言模型的训练数据。然而,需要注意的是,检测过程是不可获知大模型的训练数据信息的。 现有方法通常认为,模型对一段文本的词元概率分布,可以作为信号,用于检测该段文本是否为模型的训练数据。然而,有研究表明,基于交叉熵损失函数训练得到的语言模型,在进行下一词元预测时,通常会偏好高频词元。这就使得,大语言模型在进行下一词元预测时,倾向于给高频词元赋予更高的预测概率,进而就使得现有基于词元概率的检测方法,容易将包含较多高频词的非训练文本误检为训练文本。
![]() 此外,当前的研究主要关注英文文本的预训练数据检测,对非英文文本的研究较少。而实际上,不同语言之间存在着较大的语法差异。以中文为例,它跟英文相比,就没有首字母大写,以及基于空格分隔单词的特点。因此,这也让研究者好奇,这些特性是否会影响现有方法的检测性能,换句话说,现有方法在非英文文本的检测上是否也能奏效。
![]()
PatentMIA 和 DC-PDD PatentMIA是本文提出的,用于预训练数据检测任务的中文基准数据集。数据来源是Google Patent的网页数据,该网页的数据作为公开数据集Common Crawl的数据来源之一,常被用于大模型的预训练过程。因此,可以通过待检测大模型的训练数据截止时间,将发布于此时间节点之前的Google Patent数据,作为待检测大模型的训练数据,而将发布于此时间节点之后的Google Patent数据,作为待检测大模型的非训练数据,进而构造得到基准数据集。
![]()
DC-PDD是本文提出的一种新的预训练数据检测方法,其受信息检索领域中divergence from randomness(DFR)理论的启发,该理论是指,如果一个词汇在当前文档内的频率,与该词汇在多个文档中的频率的差异越大,那么该词汇对当前文档而言,就具有越大的信息量。也就是说,一个词汇对当前文档的信息量应该通过该词汇的文档内频率与跨文档频率二者的差异来度量,也就是局部与全局的差异,而不是仅仅看该词汇在当前文档中出现的频率。
![]() 在本文的场景中,DFR理论下的文档内词频分布,可以理解为模型对一段文本的词元概率分布,记为token probability distribution。而DFR理论下的跨文档词频分布,可以理解为模型的训练语料库的词频分布,代表全局的分布情况,记为token frequency distribution。
![]() 因此,DC-PDD基于模型对待检测文本的词元概率,与待检测文本中词元在训练语料库中频率之间的差异来进行检测,只有这种差异大时,才表明当前文本更有可能是训练数据。而不是像现有方法那样仅依靠词元概率进行检测。
![]()
实验结果 实验在2个公开的英文基准数据集和PatentMIA上进行,实验结果表明,DC-PDD在多个模型和基准数据集上的表现优于现有方法。
![]() 此外,文章对DC-PDD做了消融分析,还对一些可能影响DC-PDD性能的因素做了进一步分析,如方法的性能随着待检测模型大小、随着待检测文本长度、方法的超参数选择等等。
结论 首先本文构造了一个新的基准数据集,用于评估现有方法在中文文本上的检测效果,弥补现有研究在这一块上的空白。其次作者受信息检索领域DFR理论的启发,提出一种新的检测方法来校准词元概率,使之更适用于训练数据的检测。最后通过大量实验进一步证实所提方法的有效性。在未来工作中,作者表示可能会探索数据集级别的预训练数据检测方法,而不仅仅实现对单条文本的检测。
大模型进展专栏联系方式:lmdi123@163.com 欢迎投稿 文字:张伟超,张儒清,张钊,吴贻清,邢天 编辑:梁星星,江禄民 审核:张国华 |