【科学人】图片也要查重了？期刊用AI审论文防造假，旋转/翻转/拉伸都不行

注：本文由四川电信应用新技术研究中心利用深度学习和知识图谱等技术, 从海量信息中自动发现并生成。

来源：大数据文摘|BigDataDigest

大数据文摘出品

最近两年关于学术造假的爆料一直不少，尤其是“图像复用”，一些顶尖高校的教授甚至院士都被指出存在一图多用的情况。

显然，这样的情况除了有人专门去深扒，审稿人自己肯定记不住这些图片是不是和前面的论文雷同了，所以只依靠审稿人去判断，“图片复用”的情况肯定还是会一直发生。

情况在现在有了转机。

据Nature官网的News栏目报道，在一项研究发表在美国癌症研究协会（AACR）出版的十种期刊上之前，它要接受一次不同寻常的额外检查——AI审稿。

自2021年1月以来，AACR在经过同行评审后拟定接受的所有稿件上都使用了AI软件，其目的就是找出存在雷同的图像，包括已被旋转、滤波、翻转或拉伸的。

先自动再手动，争取不放过一个，已经有四家在使用

美国癌症研究协会（AACR）是这一AI技术的早期采用者。

为了避免发表带有篡改图片的论文，许多期刊雇人手工审查提交的稿件，通常使用软件来辅助检查发现的内容，这些被篡改的图片可能是由于彻头彻尾的欺骗，也可能是为了美化发现的不当企图。

但Nature获悉，在过去一年里，至少有4家期刊已经开始将这一过程自动化，依靠人工智能软件在手稿发表之前发现图片重复或者部分重复。

“AACR在接收以色列Rehovot的一家名为Proofig的公司提供这项服务之前，也尝试了很多软件产品。”Daniel Evanko说，他是该协会在宾夕法尼亚州费城的期刊运营主管。 “我们对此非常满意，”他补充道。他希望这种筛查将有助于研究人员，并在发表后减少问题。

AI只是完成第一次初筛，当AI标记有问题的图像后，仍然需要专业的编辑来判断。

例如，如果数据集本来就需要显示两次——并论文中附有解释——那么重复的图像可能是合适的，或者有些复制可能只是简单的论文排版过程中的复制粘贴错误，这样不算造假，AI发现的所有这些问题只能通过编辑和作者之间的讨论来解决。

然而，既然人工智能正变得足够高效和低成本，专家们表示，未来几年内，一波AI自动图像检查助手可能会席卷学术出版行业，就像10年前使用软件检查手稿是否抄袭成为一种常规做法一样。出版业组织也说，他们正在研究如何比较不同期刊的手稿图像。

其他图像完整性专家对这一趋势表示欢迎，但同时也警告说，目前还没有对各种软件产品进行公开比较，而且自动检查可能会出现太多的误报或遗漏的操作。

从长远来看，对软件审查的依赖可能也会促使欺诈者使用AI反过来来欺骗AI，就像某些人通过修改文本来逃避审查一样。

“我担心，我们正在进入一场与基于AI的技术的军备竞赛，这可能导致不可能找到的深度造假，”德国《EMBO报告》（EMBO Reports）的主编贝尔纳德•波拉尔表示。

进入AI审查时代？一些机构还在观望

2016年，由微生物学家、加利福尼亚州的图像分析顾问伊丽莎白·比克领导的一项对大约20000篇生物医学论文的人工分析表明，多达4%的论文可能包含有问题的图像复制。

现实是，通常每年只有大约1%的论文得到更正，更少比例的论文被撤销。

尽管事实如此，但很多机构对于AI查找图片复制还是持谨慎态度。公共科学图书馆（PLOS）的一位发言人表示，他们正在“热切地”监测工具的进展情况，这些工具可以“可靠地识别常见的图像完整性问题，并且可以大规模应用”。

Elsevier表示，他们“仍在测试”软件，不过也指出，其部分期刊在发表前会筛选所有接受的论文，“使用软件工具和手工分析相结合的方法”，检查图像是否存在问题。

2020年4月，Wiley引入了一项临时接受的手稿图像筛选服务，目前已有120多种期刊使用这项服务，但这项服务目前是由软件辅助手工筛选，一位发言人说。

出版Nature的Springer Nature表示，它正在评估一些外部工具，同时整理数据，以训练自己的软件，这些软件将“结合相互互补的人工智能和人类元素，以识别有问题的图像”。

-The End-

ICT，有我有你！

归档