2024-07-01 分类:ai论文查重
阅读(6) 评论(0)
近几年,无论是在新闻稿还是公众号里,都充斥着大量论文图片误用的报道,严重的撤职查办,不严重的停止招生几年,即使单位不给予惩罚,对个人及团队的学术声誉影响巨大。
通过检索网上资料及文献,所得材料不少。许多看到的情况跟实际情况完全相反,许多奇怪的事,见所未见,闻所未闻。
这不是一个地方的问题,很多地方都有,譬如山东、东北等高发地区。各种反对图片查重的议论,必须迅速矫正;各种对图片误用的错误处置,必须迅速变更,这样,才对中国的科研事业、科研前途有所裨益。
目前图片查重的兴起是一个极大的问题,很短时间内,将成千上万科研工作者的心吊动起来,其势犹如狂风暴雨,猛烈非常,这是无论什么都压抑不了的。
一切不以科研发展为目的虚伪科研,都将会被图片查重埋葬。一切期刊、基金,都将在他们面前接受检验而决定弃或用。
图片查重的重要意义不仅仅在于纠正科研误用,在消除国际社会对中国科研工作者的误解具有重要意义。查重的目的不在于打假,而在于规范目前乃至未来的科研规范,从而形成良好的科研习惯。
从这一点而言,图片查重的重要性明显是高于文字查重的。
其实,广大科研工作者并不需要去害怕查重,误用就误用了,能解释清楚就好,但如果是科研造假那就另当别论了,毕竟现在在国家层面对这一项是零容忍的。
让我们行动起来,利用现有的蓬勃发展的图片查重软件与技术,规范科研过程,成为一个真正的科研工作者。
图片查重在十年以前是几乎没有人提的,在 PUBPEER 出名后,才逐渐为大家所重视。
比较出彩的是 2022 年 7 月发表在《Nature》的一篇文章,通过 AI 人工智能识别技术,对 3500 篇预印版论文进行的检测中,找出 24 张涉嫌重复/造假的图像。
这是一项历时 5 年的研究文章,得到了著名打假人伊丽莎白·比克(Elisabeth Bik) 的赞许,不过遗憾的是它依旧需要人工去识别及后期处理。
国内也有研究提出基于不同算法的图片查重形式,但目前参与这一领域的基本上是小公司,缺乏大平台大资金的支持。
比较出名的有 Figcheck、丰倍查重、学术查等公司,笔者出于撰写此篇文章需要,对几大软件进行了初步测评,测评结果如下:
Figcheck (www.figcheck.com)
简介:自助查重模式,需要自己上传文件,自己识读报告,每天免费查重一次。
优势:对像素丰富的图片识别度极高,采用 AI 人工智能识别模式。
劣势:需要客户自己解读报告,WB 印迹识别差,镜像、曝光改变形式的重复识别差,大量查重时候费用较高。
简介:编辑辅助专业查重模式,发送文件,即可获取结果,号称最全最专业的查重。
优势:适用各种形式图片,采用三级编辑审核模式,比较省心,采用 AI 人工智能识别+机械物理识别相结合模式。
简介:自助查重模式,需要自己上传文件,自己识读报告,每天免费查重一次。
优势:适用各种形式图片,费用相对较低,号称采用 AI 人工智能识别模式。
劣势:识别精度较差,假阳性率极高,识别模式更像是机械物理识别,需要客户自己解读报告,此外,WB 印迹识别差。
科研图片查重软件没有优劣之分,好用最重要,鉴于各种软件的研发年限都不会超过 5 年,测评与学习都需要时间,特别是那些宣称是 AI 人工智能软件,更是需要海量的图片进行学习,才能得到一个比较高的精度。
所以,就目前而言没有完美的软件,且不可避免的需要编辑核对,或者自己充当那个核对编辑。
至于选择哪个软件,可以根据课题组实际情况进行选择,应当纳入的考虑因素主要有:课题经费、图片形式、年发文量等等。
实际上,图片查重更应当在期刊杂志中广泛应用,就如同文字查重一样,可以为科研工作者免去很多不必要的烦恼。
微信公众号推送规则改变,推送不再按时间顺序。如果没经常互动,如点赞、留言、点击「在看」,可能将看不到「科研论文时间」的推送。希望您多和我们互动,随手给喜欢的文章点个「在看」,感谢!
如需转载文章,可联系科研哥(微信号:dxy-keyangege)
Van Noorden R. Pioneering duplication detector trawls thousands of coronavirus preprints. Nature. 2020 Jul 21. doi: 10.1038/d41586-020-02161-3. Epub ahead of print. PMID: 32694870.
丁一. 基于 SIFT 的论文图片匹配度对比查重算法. 信息与电脑, 2019(16):4.