PaperRater论文检测系统 / 行业动态 / 正文

影响论文检测结果的因素

2012年11月25日 | 作者: paperrater | 分类: 行业动态 | 来源：PaperRater论文检测系统

（一）提供的待检测文档的类型及出处Cnki期刊学术不端文献检测系统目前以“中国学术期刊网络出版总库”为全文比对数据库，当前，可对 DOC、TXT、CAJ、KDH、NH、PDF 等多种格式的文件进行比对，从词、句子到段落等方面，可检测抄袭、伪造、一稿多投、篡改、不正当署名、一个成果多篇发表等多种学术不端行为。

    同时，职称评审文件中规定：优先从图书馆“中国知网CNKI数据库”中下载CAJ或PDF格式电子版论文（专着、译着、教材及外文刊物上发表的论文除外）。如未在该数据库中检索到提交论文，可以从图书馆其他数据库中继续查找并下载PDF格式电子版论文，如仍然没有，方可提供WORD文档。提交论文原件和完整论文的电子版（须PDF格式，着作、教材除外）。

    经过笔者的了解，在实际操作中，也是按照这个文件的规定做的，待检测文献的电子文档，并没有一定要求使用PDF格式，只要提供的电子文档能够正常地从中复制出文本来，PDF、DOC、CAJ（及其系列文档类型）、RTF及DOCX都可以。

    首先是从cnki学术网络中下载，可是受技术水平的限制，很多早期的文章是以 PDF 照片—图片的形式存在的，不能复制文本，还有部分编辑部提供的原稿采用了密码或版权保护也不能复制，另外一种情况是由于编辑部新发论文上网需要一定周期，新发论文也没有原始文档，只能向送检人索要编辑部的修改文档，当然，非 cnki 下载所得的文档，所有的文档类型要在检测汇总表中予以说明。

    由以上的复杂情况来看,不同类型、不同情况下提供的电子文档，在检测中会出现检测比例的不同。

    如一位研究者反映，他在《航空学报》个人比对库中的一篇文章（doc格式，为作者提交的录用定稿）已经在中国期刊网上发布（具体采用的比对文件格式未知），新提交的一篇稿件被检测出与这2篇文章有文字重合的问题，但检测结果中该稿与个人对比库中的稿件间的文字复制比为46%,而与同一篇文章在中国期刊网中的版本的文字复制比为26%,不同的格式竟然造成检测结果间20个百分点的差别。

    可见不同的文档形式会对检测结果产生较大的影响，这种现象需被重视。

（二）第三方检测模式毋庸置疑，检测系统在程序上是非常容易操作的，但任何一种程序设计都会存在一些设计没有考虑周全的部分和现有的技术水平和使用条件无法达到的要求。

    检测方式是图书馆的第三方检测,由于学科的限制，检测者对文章水平没有直观感受只能信赖软件，以系统检测结果出一份报告。一般来说，检测者不会对检测结果的百分比多少做一个结论，只是提交结果，评价者是由职称管理部门和专家来确定的。

    当然学术不端检测系统是一个初步的检测,后期还有专家评议一个环节来判断文章的优劣。但是对于一些处于临界值的稿件，如果只是看到其检测结果超标就进行清退对被检测者是不公平的，因为它已经没有资格进入下一道环节了。第三方检测者只是在出具汇总报告时添加的一个说明文字，提示一些具体情况，笔者认为可以使用一些可以共通的原则，对检测结果要出具更具体的修正报告，包括剔除系统误判的部分和系统未发现问题的部分，为参评者提供公正的服务。

    对职称论文检测报告的修正要制定可以通用再研判的标准，首先要搞清楚“文字复制比”与“文字抄袭率”的关系，我们通常看到的学术不端检测系统提供的是 “文字复制比”,但它绝对不等于“文字抄袭率”，“文字复制比” 是系统提供的有抄袭嫌疑的地方，“文字抄袭率”是我们已经定性的抄袭的文章的比例，两者性质是截然不同的。

   基于此，笔者认为真正的文章抄袭率应该如下修正：文章抄袭率=文字复制比-系统误判+系统漏判这里，“文字复制比”是系统提供的百分比，“系统误判”是指虽然被系统检测出来有抄袭的嫌疑，但并不能算作抄袭的部分，“系统漏判”是指虽然系统没有检测出来，但是存在隐性抄袭的部分。

（三）减掉系统误判的抄袭率。

   1.系统收录不全。所有的检测系统只默认首次在文献库中出现的文章为原创，在其以后提交的论文中出现了相同的文字并且没有标注出的，即被认定为抄袭，如果2位作者一先一后引用了如书籍、引用较早论文、引用未被系统收录的论文中的部位文字，后引用者一定会被系统认定抄袭，这种情况导致的抄袭率在出具的报告中建议适当减掉，否则有失公允。

   2.作者误引了抄袭文字，必要时通知作者申诉。对这点，职称检测政策中规定了“论文中有明确注明为引自其他论文中的内容，不计入”. 虽然注意到了这种情况，但统统减掉还会有漏网之鱼的嫌疑，在后面会具体讨论。

   3.按目前政策，下列特殊情况可免于计入相似比中：

（1）与本人数据库中的同一文章相似的，不计入。这种情况也存在，有时系统对同一篇文章会多次录入，对这个原因导致的相似比应剔除。

（2）与本人硕士、博士毕业论文中相似的，不计入。博士、硕士论文虽然被收录到了cnki文献库中，但是并不属于印刷及公开发表的文章，对这个原因导致的相似比应剔除。

（3）与本人论文发表后，他人引用本人论文中的内容,不计入。

（4）论文中有明确注明为引自其他论文中的内容，不计入。

（5）送检论文中的同一段文字内容，和其他多篇文章相似的，则该段文字造成的相似比，按一次计入，不重复累加。以上几种条款起到了保驾护航的作用都应该在检测报告中适当删减，但也有一些情况虽然没有被系统检测出，但一旦被查到是要严厉指出的。

（四）增补系统漏判的抄袭率:设定各种抄袭情况的权重系数有的文章虽然检测的抄袭率很低，但是文章若存在以下一些状况，应适当建议增补权重系数一项，具体为：

   1.有对句义、观点、主题抄袭现象，无个人观点，及对外文文献套改翻译抄袭等。这种抄袭手段隐蔽，比较难发现，性质也比较恶劣，对此，可以增加公示环节，以增强被检测者间互相监督，更有利于发现比较隐蔽的抄袭，一旦发现并查实，在所出具的报告中应明确指出：对检测结果乘以适度的权重系数，以增加其抄袭率。

   2.有对图表、实验方法抄袭现象，情节严重的。对于这点，曾有研究者指出检测系统对于含数学公式的PDF、WORD格式的文件具有一定的局限性，检测效果不理想。就目前检测的情况来看，对含公式、图表较多的论文，该系统的作用仍然存在很大的局限性,所出具的报告中应明确指出对这类型的文档建议另请专家评审。

   3.论文中有明确注明为引自其他论文中的内容，不计入，在实际的检测过程中会发现有的作者明明没有引用，也乱标参考文献引用以显示所看论文数量较多，对这种情况，发现了一定要在检测报告中明确指出。

   4.文章的后部重合度（ER）项较高，即在文章中的“解决问题”部分和文章的核心句子部分抄袭率较高,但全文抄袭率较低。这种情况应视情况加一个权重系数，拉高全文的抄袭率，因为文章核心部分的抄袭性质比较严重。这一定要在出具的检测报告中明确指出。

   Cnki检测系统是智能很强的系统，能帮助检测者高效检测稿件，但是，稿件的情况非常复杂，应该具体情况具体分析，对检测所出具的报告一定要慎重，准确判断报告中哪些是依据原则要减掉的系统误判百分比，哪些是要增加或建议加重权重的抄袭率，建议有关部门尽快做出统一的标准供检测者操作。

   另外对检测结果要实行公示制度和作者申辩制度，有利于发现比较隐蔽的抄袭，以做到对检测结果的完全的公正和客观。

上一篇：如何“斗”论文检测软件　下一篇：论文检测技术两种算法介绍