人工智能都能发SCI了,你能吗?

 

这件事始于2005年,原本只是三位研究生的闹剧而已。麻省理工学院(MassachusettsInstitu...



这件事始于2005年,原本只是三位研究生的闹剧而已。麻省理工学院(Massachusetts Institute of Technology)的电脑科学博士生杰里米.斯特里布林(Jeremy Stribling)、马克斯.克伦(Max Krohn)和达纳.阿瓜约(Dan Aguayo)编写了一个程式SCIgen,它可以产生无意义的电脑科学研究论文。目前已为软体工程师的斯特里布琳表示:「这个程式的目的是要揭发低质会议,这种会议缺乏同行审查,并以出版和开会费用诈骗研究人员。」

程式的使用者在短时间内遍布全球,而它自动产生的「杰作」更是被许多科学会议和期刊所接受。不过,如此打遍天下无敌手的SCIgen终于遇到了它的对手-SciDetect,学术出版商施普林格(Springer)利用这个开放原始码的程式来自动侦测机械化产生的论文。 (施普林格为学术出版巨头,其总部设于德国海德堡,并在纽约设有电气及电子工程师学会)

SCIgen使用「上下文无关文法」(context-free grammar)来生成词汇,这些文句表面上看似合理,但实际上只需阅读过便可以发现完全是一派胡言。以下为范例:

Cyberneticists agree that semantic modalities are an interesting new topic in the field of programming languages, and theorists concur. This is a direct result of the development of web browsers. After years of compelling research into access points, we confirm the visualization of kernels. Amphibious approaches are particularly theoretical when it comes to the refinement of massive multiplayer online role-playing games.



SCIgen也可以产生令人印象深刻但无意义的数据图、流程图和引文。他们投稿了三篇SCIgen论文至「世界系统学、控制论与信息学会议」(World Multiconference on Systemics, Cybernetics and Informatics,简称WMSCI),一场他们怀疑主办方声称以同行审核呈件但实为诈欺的年度学术研讨会。果不其然,其中的两篇论文被WMSCI所接受。

后来,他们将SCIgen放上了网路供大众免费使用,鼓励研究人员自主性产生论文,并投稿至疑似低审查标准的会议,然后上网提交「战绩」。在过去的十年间,研究人员挖出了许多声称执行同行实质审查却不然的期刊和会议,SCIgen也开始产生变异以应用在各个领域,从数学到后现代理论都逃不过它的「肆虐」。 (作者延续了这个传统,但使用了不同以往纸本的生成方式)

出版商饱受这场闹剧折磨直到2013年,在2008到2011年间共有85篇SCIgen论文被发表在24项不同的电脑科学会议中,但也有成功挡下的出版商,施普林格就退回了122篇无意义论文。此项调查背后的首席研究员,同时也是法国约瑟夫.傅立叶大学(Joseph Fourier University)电脑科学家的斯瑞尔.拉贝(Cyril Labbé)表示:「假论文除了制造闹剧外,从中还发现有中国学者和学生买来扩充其出版纪录。」隔年,《科学》(Science)便破获了专门买卖假学历的地下市场,其中一些小贩会利用SCIgen来省下手写「正宗」假论文的力气。

为了终结这场噩梦,施普林格向拉贝求助。他提供了一个可以精准搜寻无意义论文的方法,此法需要类似侦测垃圾邮件的统计技术,但不是像Viagra一样的语法模式。此交易结果被刊登在新闻上,也正式宣告了SciDetect的诞生,这个由拉贝研究团队产生的程式,可以自动侦测由SCIgen和类似程式所产生的论文。它的目的为确保所有不公平、快速作弊的方式无所遁形。

但有些人认为SciDetect的产生并不是为了抓骗子,而是为了避免尴尬。在出版界担任咨询的独立研究者菲利普.戴维斯(Philip Davis)认为:「正如有人利用SCIgen来揭露编辑的缺失和期刊的同行审查,任何具备些许英文水平的人都应该能够发现这些SCIgen或类似软体的杰作。对我来说,这似乎只是出版商保护自己、免于被期刊编辑退件的招数。」

arXiv的创办人保罗.金斯帕格(Paul Ginsparg)则表示:「施普林格排除由软体刻意产生的无意义论文是立意良善,但对于人类作者无意间产生的无意义文句该怎么办呢?」(arXiv免费提供演算法侦测无意义文句)而对此,施普林格的代表表示:「软体的确无法取代同行审查和学术评价,但将SciDetect出借给出版商等同于多了一只手,有助于打击诈欺和伪造论文。」她也补充说道,自从2013年撤稿后,便再也没有SCIgen乱码文章提交至施普林格会议。

案例:

2005年,《Rooter: A Methodology for the Typical Unification of Access Points and Redundancy》被WMSCI录用。

2005年,Mathias Uslar使用SCIgen生成的《A Case for Lamport Clocks》被IPSI-2005录用。

2005年,Genco Gülan教授在第3届交互式媒体设计国际讨论会(3rd International Symposium of Interactive Media Design)论文集上发表了使用SCIgen生成的《I/O Automata No Longer Considered Harmful》。

2007年,伊朗沙里夫科技大学学生使用SCIgen生成的论文《Cooperative, Compact Algorithms for Randomized Algorithms》被由Elsevier出版的《应用数学与计算》杂志(Journal of Applied Mathematics and Computation)录用。出版商得知这篇文章为虚假的文章后,将其移除。

2008年,Herbert Schlangemann将他使用SCIgen生成的《Towards the Simulation of E-Commerce》一文投往2008年计算机科学与软件工程国际会议(International Conference on Computer Science and Software Engineering,缩写CSSE)。他借用了瑞典电影短片Der Schlangemann的名字作为文章的署名。这篇文章甚至通过了同行评审,被CSSE录用,作者还被邀请担任所在分会的主席。



本文来自:正義破表的論文打手:SCIgen(http://pansci.asia/archives/78112)


    关注 白泽图


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册