2014年04月15日 | 作者: paperrater | 分类: 行业动态 | 来源:PaperRater论文检测系统
近年来,在科学社会化、科技全球化的催生下,科学技术尤其是信息技术、生物技术飞速发展,与自然界和人类社会的相互关系也变得更为紧密。而与此同时,学术领域内的各种抄袭、编造、作假和其他违背科学共同体公认道德的学术不端行为长期存在,科学道德问题日益凸显,已引起全球科技界的高度重视和社会的普遍关注。
在各类学术不端行为中,学术抄袭无疑是最为典型和严重的。随着学术界及社会的竞争压力与日俱增,学术浮躁、急功近利的现象比比皆是,学术抄袭行为似有愈演愈烈之势。美国学术诚信中心(theCenterforAcademicIntegrity,CAI)的DonMcCabe教授在2001年对4500名高校学生进行的调查表明:72%的学生承认在写作时有一次或多次较为严重的抄袭行为;15%的学生在提交论文时,有较多篇幅来自学术刊物或网站;52%的学生承认使用互联网抄袭;在使用互联网抄袭的学生中有90%也同时抄袭了其它书面资料。在我国,社会转型期的浮躁之风对学术界亦有所侵袭,学术抄袭事件屡屡发生,仅媒体上公开披露的就涉及国内数十所重点高校,牵涉的相关负责人不仅有学生、教师,还有著名学者、科学家、院士等,如“王铭铭剽窃事件”、“贺海波论文抄袭事件”、“东北财经大学硕士论文抄袭事件”等。
众所周知,学术抄袭行为不仅会侵害原作者的权益,更会破坏学术发展环境、损害学术共同体的尊严,给科学和教育事业的发展带来严重影响。因此,深入研究学术抄袭行为及其防范路径有着十分重要的理论意义和现实意义。目前国外对该领域的研究较为成熟和系统化,已涉及到心理学、社会学、管理学、法学、信息科学等多个学科;我国现有的研究热点主要是抄袭识别系统的设计,研究者们希望能从技术角度自动甄别出抄袭行为,如清华同方研发的学术不端检测系统、武汉大学研发的ROST反剽窃系统等。这些软件系统利用复制检测技术来实现文本内容的相似度检测,对于抄袭行为的认定能够起到一定的辅助作用。目前已有部分高校采用软件检测结果作为学术论文抄袭判定的唯一标准,即若检测得到的文本相似度超过指定标准则视为抄袭。
然而,值得注意的是,由于计算机在自然语言理解方面有所欠缺,无法处理复杂文本的复制检测[6],而学术抄袭的形式繁多复杂,照搬照抄的抄袭只是其中很小一部分,单纯依靠软件检测会带来大量漏查情况;同时,不同类别、不同学科的学术论文的文献引用程度势必有所不同,若对所有论文都采用“一刀切”的抄袭认定标准将会引发大量误判问题;更严重的是,简单利用技术判定学术抄袭,对于年轻的学子和没有完全掌握研究方法的研究者会因为“学术抄袭”引发信誉危机,从而波及其一生的事业,所以要对学子和研究者的一生负责是非常重要的。因此,学术抄袭行为并非仅仅依靠一个软件即可防治,系统、严谨地考证学术抄袭行为的定义、类型构成、相关案例,参考国外针对抄袭防治的相关举措,制定具有参考性、原则性、可操作性的抄袭行为认定标准和防治措施,才是保护作者权益、防范学术抄袭的首要前提。
1、抄袭的定义与表现形式
1.1定义抄袭,在商务印书馆2005年新版《现代汉语词典》中被定义为“把别人的作品或语句抄来当作自己的”;世界知识产权组织在1980年出版的《版权和邻接权法律术语词汇》中的定义是“抄袭,一般理解为将他人作品的全部或部分,以或多或少改变形式或内容的方式,当作自己的作品发表。”美国现代语言协会(MLA,ModernLanguageAssociation)出版的《MLA论文写作手册》(MLAHandbookforWritersofResearchPapers)将抄袭定义为:“plagiarism(抄袭)来自拉丁文plagiarius(绑架者),指一种欺骗方式,它被定义为‘虚假地篡夺作者权,将他人成果据为己有的错误行为。
概言之,抄袭指的是以改变形式或内容的方法,将他人的语言文字、图标公式或研究观点有意或无意地归为己有的错误行为。
1.2表现形式抄袭行为的表现形式多种多样,根据不同的行为特点可以分为不同的类型。研究抄袭行为的种类划分对于准确把握抄袭行为的特征以及正确地认定抄袭行为有着十分重要的意义。
学术论文的写作通常由总结、分析已有的研究成果开始,因而在写作过程中必然涉及引用他人文献。正确地征引能够增强学术论文的分量及可信度,而不恰当的引用或是引用却不注明出处则会导致学术抄袭嫌疑。因此,根据论文中是否注明引文出处可将学术抄袭行为划分为未注明引文的抄袭和已注明引文的抄袭,后者更具隐蔽性和欺骗性。具体表现形式如表1所示。
在实际案例中,以上抄袭形式往往不是单独存在的,一篇论文中可能综合运用了多种抄袭手段。例如在南开大学世界史专业博士生博士学位论文《美国黑人民权运动的缘起———论美国黑人民权运动产生的原因和历史条件》抄袭一案中,“张文在抄袭中运用了照搬、摘录、编译、改写、拼接等多种手法,将所抄英文论著转换成中文,中间添加一些过渡性的词句,同时摘抄或改变被抄论著中的原注,穿插性地注出被抄袭的论著,使文章表面上显得注释繁密,材料丰富,文字流畅,造成了一种经独立研究而写成的假象,具有很强的隐蔽性和欺骗性,如果不经研究同一问题的专家与原著仔细核对,很难发现其抄袭的真相”。
2、抄袭行为的现有防治措施
学术抄袭行为的防治是一个复杂、严谨的系统工程,既需要道德、伦理等宏观层面的教育、法律制度的保障、相关政府主管部门强有力的监管,又需要具备可操作性的学术准则进行规范和约束,任何一方面都不能单独存在。目前,国外学界对于学术抄袭问题提出了很多有效的预防和整治措施,包括学术诚信教育、学术写作规范、抄袭行为的监督、探查和认定等;而国内则多在道德层面上予以分析批判,对于具体的操作问题则鲜有研究。因此,本文在此将重点放在可操作的技术层面上,对于诚信教育等道德层面上的问题则不予讨论。
综合当前国内外抄袭行为防治的各种具体手段、方式、方法,本文将抄袭行为的现有防治措施概括为预防、探查与认定三个步骤。
2.1预防在很多抄袭案例中都存在“无意识抄袭”的情况,例如引用了他人文献却忘记标注,或是文中引用的某部分章节来自以前的笔记,由于年代久远记不清来源等等。这些情况通常是由于作者不了解学术征引规范而导致的。因此,建立明确清晰、可操作的学术规范体系,对于有效规范学术成果的形式、防止学术抄袭是必不可少的。
美国较为重视学术写作规范的问题,许多期刊编辑部、出版社甚至大学系所、研究机构都制定了相关的写作规范,以供作者在写作和投稿时参考。其中尤以芝加哥体例(ChicagoStyle)、美国心理学协会体例(APAStyle)和美国现代语言协会体例(MLAStyle)最为学术界熟知,被美国最具权威的书评杂志《Booklist》称为“三大体例”(“BigThree”)。此外,不同的学术领域还有不同的写作规范手册,如化学研究领域有《美国化学协会体例指南》,医学领域有《美国医药学会体例手册》,法学界有《哈佛法律评论》(HarvardLawReview)编辑制订的“法律文献引用规则”等。这些体例手册囊括了几乎学术写作和编辑过程中所涉及的各个细节,如文稿的章节划分、标点使用、词的拼写、注释、征引书目、索引等;同时有意识地将学术规范教育融入到学习论文写作的过程当中,诸如写作中如何准确区分自己与他人的成果、避免抄袭、学术道德、知识产权意识等,使作者在潜移默化中接受学术规范的训练,养成遵守学术规范的习惯;此外还考虑到了学科间的范式差异,充分体现了各个学科的学术个性,具有很强的专业性。
在我国,学术论文的写作也并非无章可循,近20年的论文规范化工作形成了《科学技术报告、学位论文和学术论文的编写格式》(GB7713-87)、《文后参考文献著录规则》(GB7714-2005)、《出版物上数字用法的规定》、《中国科学院自然科学期刊编排格式规范》、《中国高等学校自然科学学报编排规范》、《中国学术期刊(光盘版)检索与评价数据规范》、《中国高等学校社会科学学报编排规范》、《高等学校哲学社会科学研究学术规范》等一系列规范,充分体现了我国在学术规范方面的所下的决心和努力。然而,与西方国家相比,我国现有的手册中多是道德层面上的原则性规定,缺乏写作过程所涉及各方面的详细说明,并不能为学术界提供一个明确清晰、可操作的学术规范参考。
2.2探查一些研究者希望从自然科学的角度入手,设计出用于探查抄袭行为的计算机软件。近年来,抄袭识别软件已被越来越多的学校和单位采用。例如,英文反抄袭软件Turnitin已被90多个国家的超过7000家机构所采用;开发反抄袭软件iThenticate的iParadigms公司称,包括世界银行在内的5000多个机构已批准使用该软件;在我国,也有很多高校和杂志社引进了清华同方研发的学术不端检测系统、武汉大学研发的ROST反剽窃系统等。这些软件通过匹配判定,给出论文与数据库中的相关论文的相似度,对于抄袭文献的探查能够起到一定的辅助作用。
抄袭识别技术属于复制检测技术中的一种,即通过对数字文档及文本进行分析处理,应用相似性分析和匹配统计算法判断两篇文本内容是否存在抄袭成分。现有的抄袭识别系统主要采用数字指纹(fingerprinting)和词频统计(wordfrequency)两类主流技术。数字指纹技术是指通过某种选取策略从文档中选取一些被称为“指纹”的字符串Token并映射到Hash函数中,这些Hash函数可以为论文的每一特征语句或段落产生唯一整数值,不同的指纹序列就代表了不同的论文内容,通过计算Hash函数中相同的指纹数目或比率就可以计算文本相似程度。该种方法处理速度快,指纹特征值较小,算法简单,适合于大规模运算,是目前最为流行的信息处理技术之一;但其缺点在于只能识别出简单的文本抄袭。基于数字指纹的识别系统主要有KOALA、MDR、I-Match和Winnowing等。词频统计的方法首先统计文档中每个单词出现的次数并生成文档特征向量,然而采用向量点积法、余弦法、相关频率模型等方法来度量文档的相似程度。该技术的特点是准确率高,但速度较慢,无法应用于超大规模的运算中。基于词频统计技术的识别系统主要有SCAM、dsCAM、CHECK等。
2.3认定目前对于抄袭行为的认定仍然缺乏一个针对性强的、完善的标准,在实际操作中多采用司法手段予以判定,一般来说遵循两个标准:第一,被抄袭作品是否依法受《著作权法》保护;第二,抄袭者使用他人作品是否超出了“合理使用”的范围。其中“合理使用”是引用他人作品在法律上的依据。
在美国,著作权合理使用的基本依据包括三种不同的法律:美国宪法中的著作权条例(thecopyrightclauseoftheU.S.Constitution)、现行《著作权法》(thecurrentcopyrightstatute)以及美国最高法院决议(copyrightdecisionsoftheU.S.SupremeCourt)。其中《著作权法》中的第107条是目前使用最多的用来判断合理使用的标准,主要包括:使用的目的和性质、版权作品的性质、相对于版权作品整体所使用内容的数量和内容的实质性、对版权作品的潜在市场或价值所产生的影响。
在我国《著作权法》第22条中也列举了合理使用的12种情况,可概括为个人使用(第1-2条)、宣传报告使用(第3-5条)、为教育目的使用(第6条)、国家机关使用(第7条)、图书馆等机构使用(第8条)、公益表演的使用(第9条)、公众场合的使用(第10条)、人道原因使用(第11-22条)。
3、对我国学术抄袭防治的建议
学术道德教育注重从正面灌输学术诚信道德观念,积极鼓励和引导研究者提高自身的学术诚信水平,是形成学术诚信观念、养成学术诚信行为习惯的根本途径。然而,如果不采用具备可操作性的规章制度进行约束和规范,再好的道德理念都只能留在空洞的说教上,面对业已发生的学术抄袭行为无计可施,无法促人警醒,更不能助其悔改。
目前我国很多高校和学术机构都已制定了有关学术抄袭防治措施的规章制度,但总体技术规范和处理程序仍不够规范、细化,尤其在关键的抄袭认定程序上,对于学术抄袭行为的明确界定尚未形成统一认识,对各类抄袭行为仍存在不同解释,由此造成各方对抄袭行为的认定存在分歧,影响后续的处理程序。因此,本文认为在我国对于学术抄袭防治的具体操作上,首要任务应该是结合当前相关的法律法规,制定一套具有可操作性的抄袭行为认定标准,以减少抄袭者打擦边球的空间以及认定时主观因素带来的偏差与争议。在此基础上再结合其它措施形成完善、有效的防治体系。
3.1建立明确的抄袭行为认定标准对于如何构建明确的抄袭认定标准,本文主要从学术论文的形式与内容两方面予以分析,并结合其它辅助方法,希望能起到抛砖引玉的作用。
3.1.1细化“量”的标准。“量”是指使用他人论文的数量和程度。由1.2节可知,使用他人论文的情况分为未标注引文和已标注引文两种:
a.对论文中未注明引文的部分,确定重复文本的数量标准。按照《著作权法》第二十二条的规定,引用者可以根据需要引用已经发表的文献,但必须详细准确地著录被引文献的作者、作品名称及出处等。也就是说,凡照抄别人的字句而没有注明出处都构成抄袭。考虑到中文语言的特殊性,为区分抄袭与“偶合”,应拟定最小重复文本字数、比例标准,当疑似抄袭文献与某篇来源文献的重复字数或比例超出该标准,且未注明引用,即视为抄袭;此外,应甄别抄袭部分在学位论文中所占篇章的作用,结合重复文本字数、比例区分抄袭的严重程度,以给予抄袭程度轻的学者以改正的机会。
b.对论文中注明引文的部分,明确“合理使用”与“不合理使用”的界限。对于论文中标注了引文的部分,则要根据引用的数量、目的、性质等判断是否符合“合理使用”的要求。关于合理使用的数量和程度,许多国家都作出了具体的规定。例如,我国文化部在1985年发布的《图书、期刊版权保护实施条例实施细则》第15条规定:“引用非诗词类作品不超过两千五百字或是被引用作品的十分之一,如果多次引用同一部长篇非诗词类作品,总字数不得超过一万字”;“引用诗词类作品不超过四十行或全诗的四分之一,但古体诗除外”;“凡引用一人或数人的作品,所引用的总量不得超过本人创作作品总量的十分之一,但专题评论文章和古体诗词除外”。
然而,现有的比例标准是否恰当仍有待商榷。论文的写作方式随学科或论文类型的不同而有很大差别,如综述性、评论性文章的引用比例较之研究型论文必然更高,数学、化学论文的公式引用较之文学论文必然更多等等,如果对所有学科、所有类型的文献都采用固化的数量标准势必会引发大量误判问题。因此,在明确“合理使用”与“不合理使用”的界限时,应将“量”的标准进一步细化,例如,对不同的学科类型、论文类型确定不同的引用字数标准和比例标准。此外,论文中不同的篇章对认定结果的影响因素应该是不同的,例如结论部分的引用对抄袭识别的影响程度较之引言部分更高,因此在计算某篇学术论文的总引用比例时,应对不同章节赋予不同的权值。
3.1.2明确“质”的标准。学术文献的表现形式与内在思想是密不可分的。如果核心内容、重要论点、重要论据或文章主体结构均引自他人,不论是否注明了引文出处,都应当认定为抄袭。例如,在美国著名判例“《福特回忆录》纠纷”中,《国家》(TheNation)杂志刊登了一篇2250字的文章,其中仅有300字直接来源于福特回忆录手稿。但由于该文所记述的“水门事件”属于回忆录的核心内容,因此美国最高法院判定《国家》杂志的行为已构成侵权,不属于合理使用。然而,由于现行法律侧重保护作品的外在表达形式,对于文献“质”的标准一般未作具体规定,司法实践亦未概括出可供适用的具体标准,因而在实际判定中受主观影响较大,往往带来争议。例如,2006年7月,北京市第二中级人民法院对“王天成诉周叶中著作权纠纷案”作出一审判决,对于改写他人的作品而不显示来源,法院认为这是“学术观点的描述”,无论怎样都不违法,因为“著作权法保护的是思想的表达形式,而非思想本身”。与前述“《福特回忆录》纠纷”案相比,本案完全忽略了对于学术文献内在思想的保护。由此可见,认定标准的不统一、不明确无疑引发了实际操作时的模糊性和不确定性问题。
因此,在判定抄袭行为时,应明确“质”的标准,即被引用部分不得构成原作品的实质或核心内容,主要包括考察疑似抄袭作品与原作品在以下方面的相似度:核心论点;非常识性的重要论据;核心内容;论文结构信息(如标题、作者、单位、摘要、关键词、段落等)。
3.1.3辅助手段。抄袭的认定应该是一个严谨的审查过程,除了采用上述标准化审查以外,还可以采取一些人工的辅助手段。例如:对创作者的创作能力、创作时间、创作背景进行审查;组织相关学术领域的专家组对论文进行匿名的抄袭行为认定;由专家向涉嫌抄袭者进行提问,通过类似答辩的过程来判断该文是否为原创等。
3.2编写通用的学术规范手册如前所述,美国的学术写作规范手册内容广泛、说明详细,是评判学术规范的严格准则体系;而在我国,许多学者对学术写作规范的认知都建立在自身所接收的各方零散信息上,对具体的规范条例并没有清晰的认识,下笔时难免会出现“无意识抄袭”等问题。因此,制定一部具有权威性、通用性的学术规范手册,并尽可能囊括写作过程中会遇到的各个细节是非常必要的。
此外,可以该通用规范手册为基础,根据不同学科领域、不同学历层次逐步加以完善,制定适应于不同学科领域的较为权威的规范手册,从而更好地体现各个学科的学术个性。
3.3研究适用于中文抄袭识别的新技术从抄袭识别技术的应用实践来看,目前的识别效果仍不够理想。这是由于随着信息技术的飞速发展,学术抄袭行为变得更为迅速、隐蔽性更强、探查难度更大,而常用的抄袭识别方法在语义理解层面上还有所欠缺,因而只能处理简单的抄袭情况,对于意义相同但表述不同的抄袭则无能为力。因此,可以考虑从语义的角度进行研究,以处理更多形式的抄袭现象,并增加识别的准确率。此外,由于汉语言本身的特殊性,现有的应用于英文论文的抄袭识别技术并不能完全照搬过来。因此,应该加强研究中文论文的结构信息和语言特点,开发针对中文学术论文的抄袭识别系统。
4、总结
“学如积薪,后来居上”。学术研究是一个批判性的继承过程,在科学研究中科学、合理地使用他人的学术成果,是科学发展、学术进步的必由之路。然而,合理地使用并不代表可以抄袭他人成果,学术抄袭是对知识的无意义重复,对学术创新毫无帮助,严重的抄袭行为不仅会破坏学术风气、浪费学术资源,更会妨碍学术的后继发展。对于学术抄袭问题,西方国家采取了多种措施进行预防与治理,效果相对明显;我国政府、高校以及相关学术机构也逐渐认识到了问题的严重性,并采取了一系列措施,但由于未能建立统一的、具备可操作性的学术抄袭防治体系,与西方国家相比实质性效果还不明显。
综上所述,在加强学术道德教育的同时,必须首先建立明确的抄袭判定指标体系,在此基础上制定通行的学术规范、研究先进的抄袭行为探查技术。只有形成一个完善的、可操作的抄袭行为防治体系,才是保护作者权利、防治抄袭行为的必要前提,是净化学术空气、提高学术质量、推动学术繁荣的根本举措。