最新调查：因为Excel出错的论文，不减反增

果壳

2021-09-06 18:36果壳官方账号

Excel 软件的自动类型转换功能总是错误地将基因名称转换为日期或其他数据类型，多年来一直困扰着计算生物学家。虽然学界早已意识到该问题，相同的错误却在近年变得越来越普遍了。最近一项针对一万多篇论文的调查显示，其中三分之一研究数据的基因名称都出了错。

图片来源 | Pixabay

撰文 | 武大可

澳大利亚迪肯大学（Deakin University）的研究团队近期对 2014 到 2020 年间发表在 PubMed Central 的 11 117 项研究论文的补充基因列表进行了调查，发现其中有 3436 组数据出现了由Microsoft Excel 的自动类型转换导致的错误，错误的基因列表占比超过了 30%。分析结果 7 月 30 日发表在《公共科学图书馆-计算生物学》（PLoS Computational Biology）上。

“这些错误至关重要。”- Mark Ziemann

这项研究的通讯作者、迪肯大学的基因组生物学研究者 Mark Ziemann 从今年年初开始持续对期刊中的基因数据进行观察，并每月发布一份数据错误清单，很多知名期刊都是这份名单上的常客。Ziemann 在 The Conversation 网站上撰写了一篇评论文章，表达对现状的痛心。他指出，如此大量的错误影响广泛而严重，不仅反映出研究人员缺乏对此问题的重视和相关技能，还反映出期刊论文的同行评审存在严重疏忽，这意味着更多的错误可能潜伏其中。

画蛇添足

自动更正或类型转换功能会导致基因组名称错误，这个问题并非最近才被发现。早在 2004 年，《BMC 生物信息学》（BMC Bioinformatics）上就有研究指出，至少有 30 个人类基因和蛋白质名称会受到 Excel 软件的日期转换影响。浮点格式转换可能引起的基因标识符错误更是高达 2000 多个。并且由于 Excel 不保存修改历史，这些转换是不可逆的，原始的基因名称无法恢复。

受到影响的字符串主要有两类：

1. 本身名称与特定日期格式恰好相符。如名为“MARCH1”，“SEPT1”、“Oct-4”的基因，会被 Excel 当作 3 月 1 日、9 月 1 日、10 月 4 日等日期，转换为日期数据。

2. 唯一的英文字母为“E”或“e”，其前后均为数字。这类字符串巧合了浮点计数的格式，会被 Excel 自动转换为有效数字在 [1, 10) 间的浮点数字（科学计数法），如“2310009E13”会被转换为“2.31E+19”。

一些基因名称会被 Excel 识别为日期，自动修正变成了“自动出错” | 科研圈

Ziemann 的团队在 2016 年就进行了一项调查研究。他们编写了一套脚本，分析了 2005 到 2015 年间发表在 18 本不同期刊上的 3597 篇论文所附的 7467 个 Excel 补充数据文件（.xls 和 .xlsx 后缀），发现其中 704 篇论文的共 987 个补充文件中存在基因名称错误，出错比例达到了 20%。

基于 2016 年的这一研究报告，国际人类基因组组织（HUGO）基因命名委员会（HGNC）于 2017 年宣布修改一些基因名称，以避免被 Excel 误判为日期格式。共有 27 个基因名称得到更新，如“SEPT4”被改为“SEPTIN4”，“MARCH1”被改为“MARCHF1”。

30 个左右的基因在人类基因组约 44 000 个基因中只占一小部分，这些错误似乎不太可能动摇任何特定基因组研究的结论。但 2010 年美国杜克大学（Duke University）曾有研究报告表达了担忧——在商业和金融领域，电子表格中的微小错误可能导致一系列交易失误，最终导致股市崩盘，基因组学和其他数据密集型科学领域也是如此。哪怕仅仅一个基因数据错误，都可能导致数据列表全部错位一行，彻底改变基因组分析结果。

澳大利亚悉尼大学的分子生物学家、已经使用基因微阵列和基因转录数据在牛羊疾病领域进行了 20 年研究的 Auriol Purdie 也认为这一错误对她的研究产生了重大影响。她表示，自己很容易发现由于格式转换而发生的基因数据丢失，但 Excel 程序并不能自动帮她找到具体是哪些基因数据出了问题。手动在包含多达 2 万条数据的基因表格中逐一寻找丢失的基因成为了研究工作中无比繁重的负担。

愈演愈烈

出乎预料的是，在学界意识到 Excel 的自动更正导致的严重错误，且 HGNC 进行了基因更名后，这一问题并未被解决，甚至有愈演愈烈之势。Ziemann 的团队 2016 年对过去十年的论文数据进行的统计调查得出的错误率尚为约 20%，而今年对 2014 年到 2020 年的相同调查得出的错误率却高达 30%。

科研圈根据 Mark Ziemann 的数据制作。数据来源：Mark Ziemann / The Conversation

欧洲生物信息学研究所（European Bioinformatics Institute）的 HGNC 联络人 Elspeth Bruford 认为，凭此错误增长就得出更名无用的结论或许为时过早，因为更名的影响还需数年时间来渗透到学界，在论文和数据表中体现出来。但即使更名的作用完全与预期相符，她也并不对该问题的解决持完全乐观的态度。更名与 HGNC 倾向于保持基因名称稳定的初衷背道而驰，仅靠更名也并不能完全解决 Excel 误改的问题——巧合了 Excel 日期的基因得到了更名，但与浮点计数格式撞上了的基因并没有得到更名。

Bruford 认为，这一问题很难通过 Excel 更新得到解决。基因研究领域的用户群只占了 Excel 所有用户中微不足道的一部分，并且微软也表示“Excel 的默认设置旨在满足大多数用户在大多数情况下的需求”，不会为了遗传学领域的用户对软件进行修改。对基因相关领域的研究者来说唯一一劳永逸的解决方案可能是转用其他工具，脚本化的计算机语言如 Python 或 R 是最佳选项。这些语言不但能避免画蛇添足的自动更正，本身功能也远比 Excel 强大——能够提供更强的分析技术，具有可重复性和可审核性，并且允许更好地进行版本管理，区分不同作者的贡献。

尽管好处是显而易见的，但转用编程语言进行研究对很多研究者们来说门槛或许太高了。Purdie 表示，她早已适应了 Excel 的“怪癖”，养成了在会受影响的基因名称前加上半个单引号来防止自动转换的习惯。比起学习编程语言所要耗费的巨大时间和精力，这样的小麻烦是她“能够妥协的事情”。她还会在共享和发布数据之前按基因名称对数据进行排序——这至少会让被错误转换为日期的基因排在首位——来进行快速检查，这与 Ziemann 对坚持使用 Excel 的研究者的建议一致。

Ziemann 仍坚持转用编程语言的重要性，“它们最初可能很难学习，但从长远来看，所能带来的科学益处是值得的”。他强调，“数据密集型领域（尤其是生命科学领域）的研究者需要更好的计算机技能”，对于遇到学习困难的研究人员，相关机构应提供基本代码技能的指导，就如志愿项目 Software Carpentry 正在做的。除了研究人员，大学也应更多地为本科生提供所需的高级分析技能课程。

参考文献

[1]https://theconversation.com/excel-autocorrect-errors-still-plague-genetic-research-raising-concerns-over-scientific-rigour-166554

[2]https://www.nature.com/articles/d41586-021-02211-4

[3]https://genomebiology.biomedcentral.com/articles/10.1186/s13059-016-1044-7

[4]https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1008984

[5]https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-5-80

[6]https://www.genenames.org/news/newsletters/2017/05/10/HGNC-Newsletter-Spring-2017/

[7]https://www.deakin.edu.au/about-deakin/people/mark-ziemann

[8]http://ziemann-lab.net/public/gene_name_errors/

[9]https://www.nature.com/articles/nm0610-618a

[10]https://www.bbc.com/news/technology-37176926

本文经授权转载自科研圈（ID：keyanquan），如需二次转载请联系原作者。

查看原图 43K