进行数据众包,对解决新冠病毒等流行病有重要作用

“SARS期间有30多个版本的个案调查表,花了一个多月才确定终版。”
图片
编译:步摇
编辑:tuya
出品:财经涂鸦
内容来自于《柳叶刀》2月20日刊登的文章。
作者Gabriel M Leung和Kathy Leung来自香港特别行政区香港大学LKS医学院公共卫生学院世卫组织传染病流行病学和控制合作中心
2019年冠状病毒疾病(COVID-19)传播速度和规模空前,这也是自冠状病毒导致第一次人畜共患病的严重急性呼吸综合征进入人类以来最大规模的一次病毒传播。据称可能在2019年11月系统分析表明,测序基因组的最新共同祖先出现在2019年10月23日至2019年12月16日之间。
截至2020年2月19日,据报道,全世界近30个国家和地区的确诊患者累计人数已超过70 000。
在任何一种新出现的流行病中,更不用说以如此大的规模和如此迅速的全球传播速度的流行病爆发中,其第一个任务就是根据各个病例定义的工作标准,将一系列可疑,可能和确诊的个体汇总在一起。该列表将允许快速初步评估流行病的增长和传播的可能性,以便确定隔离和隔离期,以及监视潜在病例的检测效率。随着疫情的进展,随着更多的临床,流行病学和病毒学(包括遗传学)知识的获得,数据和列表将实时更新。
因此,从公共卫生的角度来看,列表是必不可少的。因此,在《柳叶刀》数字健康杂志上发表的孙开元及其同事的研究成果表明,在COVID-19爆发的关键时刻列表非常有价值。孙开元及其同事利用中国的社交媒体,特别是医疗保健专业人员使用的社交网络,在2020年1月期间收集了有关COVID-19患者的个人数据和每日省级病例数。他们将这些信息提取到众包中的列表,经过适当分析后,与官方版本的列表非常吻合,例如中国疾病预防控制中心于2020.7年1月29日发布的报告。尽管孙开元及其同事的工作实时提供了宝贵的疫情图景,但地理覆盖范围却很不统一,武汉和湖北省的震中病例很少。
我们调查了COVID-19可能的列表的不同来源。瓶颈仍然在于仔细整理尽可能多的相关数据,筛选和验证这些数据,提取情报以预测并告知爆发策略,然后以迭代周期,不断重复此过程以监视和评估进度。一个可能的方法将是通过文本挖掘和自然语言处理(不限于英语)来开发和验证算法,以使自动化机器人能够搜索各种网络空间,从而加快这些过程。
在这个拥有智能手机及数量庞大的应用程序的时代,政府不仅要抗击流行病本身,而且还要打击假新闻和虚假谣言(所谓的信息流行病)。信息流行病最明显的后果是嘈杂的喧闹声,这种混乱的声音会使混乱引起非理性的恐惧,甚至引起群众恐慌,并最终在恰恰相反的情况下对社会造成破坏性影响。
在新加坡和香港等最开放的自由贸易经济体中,超市货架空置的图像迄今已报道不到100例,这在一定程度上提醒了这种信息传播的潜在影响。另一个例子是世界范围内口罩的短缺和一些国家的出口禁令。创建诸如孙开元及其同事在其工作中汇编的资源,将使科学家和非专业观察员都能够迅速填补知识空白,否则将助长虚假信息传播。
最后,疫病,信息病和大病都具有经济成本。在2003年的严重急性呼吸系统综合症(SARS)爆发期间,中国占全球经济总产值的4%,而今天却占16%。2019年,中国的供应链和生产线仍与世界许多贸易市场紧密相连。当然,这些经济不确定性并未考虑到这种爆发可能对世界其他地区造成的影响,而现在已经包括非洲在内的大多数大洲都报道了病例。
尽管有上述动机,但在紧急情况下,尤其是在世界上人口最多的国家,疫情爆发,尤其是在1周内加倍传播的疫情期间,在短短几周内能涵盖所有国内地区的分析的现成数据和清单的数量都是惊人的。即使在2003年SARS爆发期间,我们也处理了30多个版本的个案联系调查表,然后在确定第一例病例后的一个多月内才确定最终版本。值得注意的是,中国的卫生保健职能已下放到省级和地方级(拥有300多个县级疾病预防控制中心分支机构),并且它仍然是一个发展中国家,在较大的地理区域内,随着社会经济发展梯度的不同,其防疫水平也不同。
众包数据可以像正式发布的数据一样及时甚至更快地进行编译和分析。但是,这些未来的发展并没有否定及时发布和更新具有保密性所允许的详细信息的官方专线清单的重要性。但是,这样的众包方式将大大有助于解决和减轻世界在未来几年内将要面临的流行病,信息病和地域病。