CrossCheck/iThenticate这个查重软件,投过稿的同学想必都知道,专业的查重软件,国际各大期刊出版社都在使用,很多情况下编辑会根据软件的查重结果对论文进行判断。一般来说,论文的总体相似率超过20%,编辑就会要求修改或者可能直接拒稿,后果还是很严重的。一般情况下,总体重复率不超15%,单一相似来源不超2%相对比较安全。那CrossCheck/iThenticate到底是如何进行判定重复的呢?
一篇被CrossCheck/iThenticate查重的文章,这个系统首先应该做的是进行文本的格式化,因为一篇文章中,除了单词以外,还有大量的符号(标点符号,数学符号及特殊符号等)。这些并不是CrossCheck/iThenticate查重的对象,所以会把他们预先处理掉,这些符号会通通被替换为空格,这种文本处理方式也是很常见的,在python和matlab的数据处理中经常会使用,处理后的文章就只剩下单词和公式等内容,然后软件会调用文献库用特定的程序对文章进行比对处理,根据软件设置的重复原则对文本进行标记,最终得出一份相似性报告。
那么,CrossCheck/iThenticate判定重复规则是什么呢?网上很多关于这些规则的说法,大部分是说连续六个单词即判定重复,或者根据语言风格相似即判定重复,其实这些说法不准确,其实查重的基本规则只有一条:被判定为重复的不连续的六个单词中间,连续不重复的单词小于四个(不包括四个),即判定这六个单词重复。(注意:这是系统默认的判定规则,大部分期刊使用默认规则)。
- 1391 次浏览