计算机学术会议论文查重流程

计算机学术会议论文查重流程

2025-08-051019

在计算机学术会议中检测论文重复率（也称为查重或抄袭检测）是一个标准流程，旨在维护学术诚信，确保论文的创新性和原创性。整个过程通常依赖专业的软件工具和人工审核，具体如下：

1. 使用专业查重软件：

核心工具：会议组织者（通常是出版社或程序委员会）会使用商业化的、针对学术文献设计的查重软件。最常见的包括：

iThenticate: 这是学术界（尤其是STM领域）最广泛使用的专业工具之一，拥有庞大的学术文献数据库（期刊、会议、书籍、网页等）。IEEE、ACM等主要计算机会议出版社普遍使用它。

Crossref Similarity Check (由iThenticate提供支持): 许多加入Crossref的出版社使用此服务。

Turnitin: 虽然更常用于教育领域（学生作业），但其数据库也包含大量学术出版物，有时也会被会议采用，特别是在教育技术相关的领域。

国内系统：在中国，知网查重系统也被广泛用于中文论文的检测。

工作原理：这些工具将提交的论文PDF或DOC/DOCX文件中的文本，与它们庞大的数据库（包括已发表的期刊论文、会议论文、学位论文、网络资源、以及之前提交到该系统的文档）进行比对。

生成报告：软件会生成一份详细的“相似性报告”或“原创性报告”。这份报告会：

标记重复文本：用不同颜色高亮显示论文中与其他来源匹配的文本片段。

标注来源：明确标出每个匹配文本的来源（可能是具体某篇论文、网页、书籍等）。

计算总体相似度百分比：给出一个总的“重复率”或“相似度”百分比数字。

2. 针对计算机领域的特殊考量：

代码查重：这是计算机领域论文查重的一个关键且独特的环节。普通的文本查重软件对代码效果不佳。

专用工具：程序委员会（特别是负责代码相关track的委员）会使用专门的代码查重工具，例如：

Moss (Measure of Software Similarity): 斯坦福大学开发的免费工具，是计算机领域代码查重的业界标准。它通过分析代码结构、控制流、变量命名模式等特征生成指纹，并进行高效比对，能有效检测即使经过变量重命名、注释修改、代码重排等简单伪装的抄袭。作者通常被要求在投稿时提交源代码压缩包，供委员会使用Moss检查。

JPlag: 另一个针对多种编程语言的代码剽窃检测工具。

Codequiry, SimScan等：其他商业或开源选择。

检测对象：主要检测论文中实验部分涉及的、作者声称是自己实现的源代码。

结果：也会生成相似度报告，指出代码片段与数据库中其他代码（特别是往年会议论文、公开的作业/竞赛代码、开源项目）的匹配程度。

算法描述：即使没有代码，描述算法的伪代码或文字叙述也是查重重点。文本查重软件会检查这部分内容的原创性。

图片/图表：目前主流查重工具主要针对文本和代码。图片内容的直接抄袭通常需要人工检查或专门的图像比对技术（较少在会议初审阶段大规模自动应用），但图片中的文字（如坐标轴标签、图例）通常会被OCR识别后纳入文本查重范围。算法结构图、流程图等的实质性抄袭也依赖人工判断。

3. 人工审核与判断：

核心步骤：软件生成的报告只是起点，最终判断是否构成抄袭或不当重复的是程序委员会成员（通常是领域专家）。

解读报告：委员会成员会仔细查看查重报告：

区分合理引用与抄袭：忽略标题、作者信息、标准公式、参考文献列表（软件有时会误报）、以及已正确引用并打上引号的直接引语。重点审查未恰当引用的文本、核心思想/方法的描述、算法伪代码、实验设置描述等。

分析代码相似度：对于Moss报告，会看匹配的代码片段是否具有实质性（是核心逻辑还是通用模板？）、相似度高低、是否进行了有效伪装等。即使是低相似度，如果是关键部分的复制，也可能有问题。

检查自我抄袭：特别注意作者是否过度重复自己已发表的工作而未充分引用和说明（文本回收）。

结合上下文：判断重复的内容是否构成论文的核心贡献，或者仅仅是必要的背景介绍/方法描述。

决策：基于查重报告和人工审核，程序委员会决定：

论文是否因抄袭/高重复率而被直接拒稿。

是否需要作者对某些重复部分进行解释或修改。

重复率在可接受范围内，不影响评审（常见于合理引用的部分）。

4. 流程：

投稿时/投稿后：作者通过会议投稿系统提交论文（通常是PDF，有时要求源代码压缩包）。

自动查重：提交后，系统通常会自动触发文本查重（如iThenticate）。对于要求代码的会议，程序委员会成员会在评审过程中或初审后手动运行代码查重工具（如Moss）。

报告生成与审核：查重报告生成后，会分发给负责该论文的程序委员会主席或相关领域主席/委员审阅。

影响评审：查重结果（尤其是高重复率或疑似抄袭）会严重影响甚至决定论文的评审结果。严重的抄袭会导致直接拒稿甚至更严厉的措施（如通知作者机构）。

给作者的建议：

1. 严格自律：始终坚持原创写作，正确引用所有来源（包括自己的前期工作）。

2. 提前自查：在投稿前，使用正规查重工具（注意：避免使用来源不明的小工具以防论文泄露）进行自查。可以使用Turnitin（如果学校提供）、iThenticate（付费）或一些可靠的免费/低成本查重服务（谨慎选择）。重点检查引言、相关工作、方法描述等部分。

3. 特别关注代码：

确保提交的代码是自己原创实现或已获得明确授权并正确引用的。

避免直接复制开源代码而未声明（即使做了修改）。

如果使用了基础框架或库，清晰说明。

4. 处理自我引用：如果要重用自己已发表工作的文字（尤其是方法描述），务必：

显著改写。

明确引用。

说明当前工作与之前工作的区别和扩展。

5. 注意预印本：如果论文预印本（如arXiv）已公开，这通常会被查重软件收录。投稿时不需要删除预印本，但会议评审时会考虑到这点（预印本属于作者自己的工作）。不过，过度依赖预印本内容而不做实质性更新也可能被质疑。

6. 仔细阅读查重报告：如果会议返回了查重报告并要求解释，务必认真阅读，逐条核对来源，给出合理解释或进行修改。

总结： 计算机会议论文的重复率检测是一个结合强大软件工具（针对文本和专门针对代码）和领域专家人工审核的综合过程。其核心目标是维护学术诚信，确保发表成果的原创性。作者应高度重视，严格遵守学术规范，并在投稿前做好自查。记住，一个“低”的重复率数字并非万能通行证，关键内容的不当重复（即使百分比不高）或代码抄袭，都可能带来严重的拒稿后果。

学术干货详细信息

计算机学术会议论文查重流程