计算机学术会议论文查重流程
在计算机学术会议中检测论文重复率(也称为查重或抄袭检测)是一个标准流程,旨在维护学术诚信,确保论文的创新性和原创性。整个过程通常依赖专业的软件工具和人工审核,具体如下:
1. 使用专业查重软件:
核心工具: 会议组织者(通常是出版社或程序委员会)会使用商业化的、针对学术文献设计的查重软件。最常见的包括:
iThenticate: 这是学术界(尤其是STM领域)最广泛使用的专业工具之一,拥有庞大的学术文献数据库(期刊、会议、书籍、网页等)。IEEE、ACM等主要计算机会议出版社普遍使用它。
Crossref Similarity Check (由iThenticate提供支持): 许多加入Crossref的出版社使用此服务。
Turnitin: 虽然更常用于教育领域(学生作业),但其数据库也包含大量学术出版物,有时也会被会议采用,特别是在教育技术相关的领域。
国内系统: 在中国,知网查重系统也被广泛用于中文论文的检测。
工作原理: 这些工具将提交的论文PDF或DOC/DOCX文件中的文本,与它们庞大的数据库(包括已发表的期刊论文、会议论文、学位论文、网络资源、以及之前提交到该系统的文档)进行比对。
生成报告: 软件会生成一份详细的“相似性报告”或“原创性报告”。这份报告会:
标记重复文本: 用不同颜色高亮显示论文中与其他来源匹配的文本片段。
标注来源: 明确标出每个匹配文本的来源(可能是具体某篇论文、网页、书籍等)。
计算总体相似度百分比: 给出一个总的“重复率”或“相似度”百分比数字。
2. 针对计算机领域的特殊考量:
代码查重: 这是计算机领域论文查重的一个关键且独特的环节。普通的文本查重软件对代码效果不佳。
专用工具: 程序委员会(特别是负责代码相关track的委员)会使用专门的代码查重工具,例如:
Moss (Measure of Software Similarity): 斯坦福大学开发的免费工具,是计算机领域代码查重的业界标准。它通过分析代码结构、控制流、变量命名模式等特征生成指纹,并进行高效比对,能有效检测即使经过变量重命名、注释修改、代码重排等简单伪装的抄袭。作者通常被要求在投稿时提交源代码压缩包,供委员会使用Moss检查。
JPlag: 另一个针对多种编程语言的代码剽窃检测工具。
Codequiry, SimScan等: 其他商业或开源选择。
检测对象: 主要检测论文中实验部分涉及的、作者声称是自己实现的源代码。
结果: 也会生成相似度报告,指出代码片段与数据库中其他代码(特别是往年会议论文、公开的作业/竞赛代码、开源项目)的匹配程度。
算法描述: 即使没有代码,描述算法的伪代码或文字叙述也是查重重点。文本查重软件会检查这部分内容的原创性。
图片/图表: 目前主流查重工具主要针对文本和代码。图片内容的直接抄袭通常需要人工检查或专门的图像比对技术(较少在会议初审阶段大规模自动应用),但图片中的文字(如坐标轴标签、图例)通常会被OCR识别后纳入文本查重范围。算法结构图、流程图等的实质性抄袭也依赖人工判断。
3. 人工审核与判断:
核心步骤: 软件生成的报告只是起点,最终判断是否构成抄袭或不当重复的是程序委员会成员(通常是领域专家)。
解读报告: 委员会成员会仔细查看查重报告:
区分合理引用与抄袭: 忽略标题、作者信息、标准公式、参考文献列表(软件有时会误报)、以及已正确引用并打上引号的直接引语。重点审查未恰当引用的文本、核心思想/方法的描述、算法伪代码、实验设置描述等。
分析代码相似度: 对于Moss报告,会看匹配的代码片段是否具有实质性(是核心逻辑还是通用模板?)、相似度高低、是否进行了有效伪装等。即使是低相似度,如果是关键部分的复制,也可能有问题。
检查自我抄袭: 特别注意作者是否过度重复自己已发表的工作而未充分引用和说明(文本回收)。
结合上下文: 判断重复的内容是否构成论文的核心贡献,或者仅仅是必要的背景介绍/方法描述。
决策: 基于查重报告和人工审核,程序委员会决定:
论文是否因抄袭/高重复率而被直接拒稿。
是否需要作者对某些重复部分进行解释或修改。
重复率在可接受范围内,不影响评审(常见于合理引用的部分)。
4. 流程:
投稿时/投稿后: 作者通过会议投稿系统提交论文(通常是PDF,有时要求源代码压缩包)。
自动查重: 提交后,系统通常会自动触发文本查重(如iThenticate)。对于要求代码的会议,程序委员会成员会在评审过程中或初审后手动运行代码查重工具(如Moss)。
报告生成与审核: 查重报告生成后,会分发给负责该论文的程序委员会主席或相关领域主席/委员审阅。
影响评审: 查重结果(尤其是高重复率或疑似抄袭)会严重影响甚至决定论文的评审结果。严重的抄袭会导致直接拒稿甚至更严厉的措施(如通知作者机构)。
给作者的建议:
1. 严格自律: 始终坚持原创写作,正确引用所有来源(包括自己的前期工作)。
2. 提前自查: 在投稿前,使用正规查重工具(注意:避免使用来源不明的小工具以防论文泄露)进行自查。可以使用Turnitin(如果学校提供)、iThenticate(付费)或一些可靠的免费/低成本查重服务(谨慎选择)。重点检查引言、相关工作、方法描述等部分。
3. 特别关注代码:
确保提交的代码是自己原创实现或已获得明确授权并正确引用的。
避免直接复制开源代码而未声明(即使做了修改)。
如果使用了基础框架或库,清晰说明。
4. 处理自我引用: 如果要重用自己已发表工作的文字(尤其是方法描述),务必:
显著改写。
明确引用。
说明当前工作与之前工作的区别和扩展。
5. 注意预印本: 如果论文预印本(如arXiv)已公开,这通常会被查重软件收录。投稿时不需要删除预印本,但会议评审时会考虑到这点(预印本属于作者自己的工作)。不过,过度依赖预印本内容而不做实质性更新也可能被质疑。
6. 仔细阅读查重报告: 如果会议返回了查重报告并要求解释,务必认真阅读,逐条核对来源,给出合理解释或进行修改。
总结: 计算机会议论文的重复率检测是一个结合强大软件工具(针对文本和专门针对代码)和领域专家人工审核的综合过程。其核心目标是维护学术诚信,确保发表成果的原创性。作者应高度重视,严格遵守学术规范,并在投稿前做好自查。记住,一个“低”的重复率数字并非万能通行证,关键内容的不当重复(即使百分比不高)或代码抄袭,都可能带来严重的拒稿后果。