品牌升级,查看新版
4000-058-056
品牌全面升级,论文检测进入“PaperRight”时代!

编校常识对论文抄袭的识别


2014年04月07日 | 作者: paperrater | 分类: 行业动态 | 来源:PaperRater论文检测系统

在人人对学术腐败喊打的今天,论文剽窃现象仍为较为严重、较为普遍、令人倍感无奈的话题,名家的敢偷、洋人的敢剽、学生的敢盗、同事的敢窃。“高明者”改头换面地剽,心有余悸者小打小闹地“借”,急功近利者大段大段地抄,肆无忌惮者整文整书地占。名家如此,常人更盛,大学生毕业论文观点、内容似曾相识,教师立论、著述彼此“雷同”,剽窃、抄袭案例,时见报端刊首。从兰刚教授忍无可忍地指出这个现象至今,仍然没有太多实质性的改观。鉴于所有与论文相关的学术不端行为都要经过审查和发表这个环节,从2008年年底开始,我国已经启用了两套检测软件,一套是由中国学术期刊电子杂志社与清华同方知网共同研制的学术测谎仪,另一套是武汉大学副教授沈阳自主研发的反剽窃系统软件,目前已在全国20多所高校院系和100多家期刊社使用。美国的一些商业和科研部门研制和开发了专门用于诊断剽窃的剽窃检测器,其实质是特制的强力搜索引擎。利用论文检测软件查询,只需在剽窃检测器中输入关键词,或者论文题目,就可以查询到想要的结果,对部分涉嫌抄袭的文章有较好的检测效果。

但是所有机器检测方法都存在使用的盲点,如对观点借用等更隐蔽的抄袭方式是无法完全检测出的,而编辑可以利用编校经验通过人工检测的方法进行弥补。面对浩如烟海的文章,要做到准确识别涉嫌抄袭的文章或文章中抄袭的部分需要一些技巧,首先我们来界定一下抄袭的认定标准。

一、涉嫌抄袭文章的类型

要识别论文抄袭首先要对抄袭的标准进行界定,到目前为止还没有权威部门对界定标准进行认定,我们认为雷同度达到10%,即可认定抄袭,这不是国家教育部门或权威机构制定的,而是学术界自发形成的,大家通用的一个标准(也有的学校界定的标准是30%),在这个标准范围的框定之下,前文提出的剽、借、抄、占的四大抄袭类型笔者在工作中都有所见识。

1.“高明者”改头换面地剽。一般来说,这种抄袭的现象最隐蔽,是用各种计算机技术方法都很难准确识别的,因为计算机一般是按字的相似度来进行统计,很难做到按意义或主题的准确检索,如作者借用被剽窃文章的主要观点、研究方法、文章结构等部分,结合作者的理解进行再“创造”再结合同义词置换等方法,可以逃避部分检索,这也被戏称为“剽窃的最高境界”。

2.心有余悸者小打小闹地“借”。这种剽窃方法比较常用,已经发表的论文中经常可以看到这种文章的影子,或散落在部分的章节中,或存在于部分重要的段落中,让人防不胜防,因为它在文章中占的比例不高,而且呈现散落的特征,甚至可能踏在标准的附近,让人对之无可奈何。

3.急功近利者大段大段地抄。这种剽窃方法相对比较低级,多见于论文初写者和受写作训练较少的文章中,这种文章通篇给人的感受是似曾相识,到处都有见过的影子,文章的语言和风格很难统一,也比较容易被识别,目前,大段大段抄的作者已经比较收敛,因为一旦被发现,就会被毫不客气的退稿。

4.肆无忌惮者整文整书地占。这种文章在目前的学术氛围中也是比较少见的了,在长期的“猫捉老鼠的游戏”中已经基本被淘汰出局了,这是一种简单粗暴式抄袭,即使抄袭者都认识到了这种方法的危害,已经被大部分的抄袭者弃用了。

综上,大段抄和整篇占的做法比较少见了,并且是机器检测的长项。比较难治理的是改头换面的剽和小打小闹的借,由于编辑的工作性质是面对具体的文章,必须通过仔细阅读和修改才能将文章发表,这样的工作流程决定了编辑在发现隐蔽剽窃方面可以有效发挥作用。

二、人工识别涉嫌抄袭论文的方法

(一)对主题重复的文章识别

文章主题出现重复是文章抄袭的“最高境界”用一般的检测方法很难准确测出,一般出现在对热点问题、经典问题等的集中、重复讨论过程中。

如对热点问题来说,比较集中的时间段内会有多篇相关的文章,这时编辑就需要有一定的敏感性,对于同一个主题,人们探讨的无非是现状、原因、措施等方面,当然,有的文章侧重现实数据的采集、分析,有的文章侧重理论层面的探讨,这是针对同一个问题的不同研究方面,是我们应该鼓励的做法。但是同一个话题被多人关注,就一定会有重复阐述的出现。当一位编辑通过阅读相关的文章了解了该类论文的主题的内涵和研究的主要内容后,一旦当那种“现状、原因、措施”的所谓的“新八股”文章重复出现,就意味着“抄袭”现象的出现,这时候适当采取“主题及关键词检索”的方法,就可以查出那种表面上不同但主题雷同的“高明者”炮制的文章,编辑利用职业敏感性对文章主题重复的人工检测比机器检测法更具灵活性,因为机器检测法从本质上讲都是基于对词或标记“统计”的方法,计算机在自然语言理解方面有欠缺,而抄袭又不仅仅局限于照抄照搬式的,很难达到准确的抄袭识别。并且由于汉语不像英文那样用自然的分割符号,需要分词,而且在计算机中汉语又是双字节编码,无形中又加大中文论文的抄袭识别难度。这就是目前的很多隐蔽抄袭现象无法被准确识别的主要原因,如果我们提高了职业敏感性,将该篇疑似抄袭的文章拿到学术期刊网或以上提到的一些常用搜索引擎中用主题词和关键词结合的方法检索,一般就可以发现问题。

(二)对语句跳跃,上下文不连贯的文章

对于一般由作者原创的文章来说,文章的内在逻辑一般都是比较连贯的,因为一般论文写作都是遵循发现问题、深入思考、解决问题的思路进行的,作者对文章的结构布局、语言风格的使用等方面都比较的深思熟虑,对一些看似和文章有关的又很吸引人眼球的枝节的部分都能够做到有理的取舍,一般阅读起来都是一气呵成,给编辑的感受是非常愉悦的。但是也有一些文章在前言的部分有点跳跃、不连贯(这是一般作者开笔的准备阶段),到正文的时候也就会阅读顺利了。

可是有些“借”和“抄”的文章就不是这样了,一般来说,文章内部从头到尾大部分的段落和章节中都会出现语句风格不同,含义跳跃,上下文意思不连贯的现象,导致文章的内容混乱,前言不搭后语。这样的文章对编辑的耐心和技术是极大的考验。对那种“急功近利者大段大段地抄”的人来说,文章的内在逻辑是混乱的,也就是说,文章是有主题的,但是抄袭段落的论述可能对主题没有什么贡献,但也有一定的关联,最终经常发生那种文章的论述和文章的主题偏离的“跑题”现象。那些“心有余悸者小打小闹地借”的文章抄袭现象一般是在段落中出现的,这时候段落内容和段落的主题是有内在逻辑关联的,但是段落中的语言风格会有所不同,语句有些跳跃,也有的文章会出现在部分段落内部“跑题”现象,作为文章的编辑,一旦看到这种现象就要提高敏感性,将这部分文章可以截取拿到google、baidu、Plagiarism.com等网站搜索,有时就会查出被抄袭文章出处。

(三)对标点符号的识别

除了运用编辑长期工作形成的对文章主题、段落、语句等方面的敏感性之外,还有一些小技巧也可以运用到识别抄袭的工作中。经常写作论文的人都知道如果要从学术期刊网络中下载一些论文作为参考,如选取部分文章段落进行引用时,CAJ格式的文章复制到WORD文档中,会出现下载段落的标点符号都是默认的英文状态,细心的作者会将它们都换成中文状态的符号,但是有些作者出于各种原因,还会保留英文标点符号,这就给我们的识别带来了一些方便,如出现文章中主体是中文状态的标点符号,但是有部分的段落、章节出现了集中的英文符号,特别是逗号和引号(一般作者经常忽略修改),这时基本上就可以认定这段文章是有“出处”的。

另外一个现象是句尾的回车“↓”符号,它是CAJ格式的文章的默认回车符,这与WORD文档中的默认回车符的样式不同,一般出现在一行文字的最后面位置,因为对文章的内容和格式都没有什么影响,引用者常忽略将其除,如果我们看到有上述的符号存在,就可以认定至少是该段出现了抄袭现象,这样,编辑可以视情节轻重将其截取到网站检索并与作者联系修改或撤换等事宜。

除了剽、借、抄、占的文章内容造假的现象,一稿多发、参考文献著录不规范、虚假署名、伪造数据等现象也是屡见不鲜。编辑可以通过职业敏感性和一些小技巧将其发掘出来,但是编辑面临着的尴尬却是能够发现却不能够合理的处置,当然,编辑可以建议退稿,但是对一些比较缜密的造假即便发现也只能听之任之,否则得话,期刊就可能陷入“无米下锅”的境况,因为造假是广泛存在的,笔者深感对这个丑相的治理非一人一力之能,也非一时一日之功,这涉及到了全社会的道德底线的退位和众多规章制度特别是惩戒制度的缺失。对这个现象的治理要得到社会的、系统的整治,要得到主管部门、司法机构和社会各界的支持,更要建立相应的惩戒机制,否则学术打假只能长期存留在舆论呼吁的层面。