美国发布新冠病毒数据集,借力AI应对疫情

◎ 科技日报记者 刘霞
截至3月18日12时,世界卫生组织等权威机构提供的数据显示,全球新冠病毒确诊人数已超过19万人,数千人因此丧生。
在人们想方设法应对新冠疫情之时,美国白宫和科技界意识到人工智能(AI)有望在应对疫情方面发挥巨大作用,有鉴于此,他们携手发布了“新冠肺炎开放研究数据集”(CORD-19),希望借助方兴未艾的AI技术的力量应对疫情。
美发布新冠肺炎开放数据集
据美国白宫科技政策办公室(OSTP)网站16日消息,艾伦人工智能(AI)研究所、陈扎克伯格基金会(CZI)、乔治敦大学安全与新兴技术中心(CSET)、微软、美国国立卫生研究院国家医学图书馆(NLM),以及OSTP今日联合发布了“新冠肺炎开放研究数据集”。
图片
“新冠肺炎开放研究数据集”(CORD-19)图标。图片来源:“冒险节拍”网站
据悉,该数据集包含与新冠肺炎、新型冠状病毒及冠状病毒组有关的29000多篇学术文献,其中超过13000篇是完整文献。这一数据集是迄今可用于数据和文本挖掘研究的最广泛的机器可读冠状病毒文献合集,将主要用于医学和机器学习等相关领域研究,帮助人们更快更好地应对新冠肺炎疫情。
白宫首席技术官迈克尔·科雷特西奥斯表示:“白宫与美国国家科学、工程与医学研究院及世界卫生组织合作,确定了数十个与新冠肺炎有关的科学问题,人工智能有望帮助科学家尽快而且全面地总结和分析信息,最终提出应对方案。”
科雷特西奥斯进一步说:“美国科技企业的果决行动对于预防、检测、治疗和开发新冠肺炎疗法至关重要,我们呼吁人工智能专家采取行动,开发新的文本和数据挖掘技术,帮助科学界回答与新冠肺炎有关的最紧迫的科学问题。”
借AI提升文献检索速度
微软首席科学官埃里克·霍维茨表示:“我们创建此开放数据集的目的是启发和激励AI界研发新工具,帮助科学家快速掌握成千上万篇文献的重点和精髓,以更快更好地找到应对新冠肺炎疫情的措施和方法。”
霍维茨强调说:“生物医学领域每年将有100多万种出版物发表,AI作为科学家‘左膀右臂’的重要性也日益凸显。”
研究人员称,通过机器学习技术,借助CORD-19开放数据集,科学家可以节约更多时间。AI会学习科学家想要了解的内容,在庞大的数据集中找到每个科学家所需的内容,从而大大缩小检索范围和文本规模。
各种AI工具纷纷登场
在应对疫情方面,各种形式的AI都有望“大显身手”,其中最突出的是自然语言处理(NLP)技术。
例如,艾伦人工智能研究所的语言模型ELMO和 AllenNLP有助科学家理解不同论文内容之间的关系。该机构语言学家道格·雷蒙德说:“过去几年,我们在自然语言处理方面取得了长足进步,CORD-19这类数据集的实用性可能会比几年前更大,因为现在我们有了更多可用的工具。”
图片
据国外媒体报道,目前有多个团队使用NLP技术对抗冠状病毒。例如,美国哈佛医学院开发出了一种工具,可以评估患者的病例、社交媒体和健康卫生数据。此外,一家名为“蓝点”(BlueDot)的公司使用NLP工具来搜寻新闻报道、公共健康数据和其他资源,在新冠肺炎疫情爆发之初发挥了监测功能。
无独有偶,中国疾病预防控制中心的工作人员也在使用阿里巴巴达摩院最新的NLP技术开展病历文本分析和流行病学调查工作,而且,达摩院的StructBERT模型上周被评为全球性能最强的NLP系统。
除NLP,其它形式的AI技术也不甘示弱,纷纷登场,在应对新冠疫情中各展所长。比如,消毒机器人可以帮助医护人员进行疫区消毒;深度学习技术可以帮助医生预测死亡率等数据指标;而图像识别技术可以让医护人员更快地根据CT图像识别出新冠肺炎患者。
此外,世界各国各地政府也纷纷采用各种技术来应对疫情,比如GPS跟踪、自我筛选应用程序、文本警报及智能手机跟踪等。其他正在开展的举措包括:加拿大抗体研发公司Abcellera正与美国高级研究计划局(DARPA)的大流行病预防平台携手研制抗体;旨在阻止疫情在60天内暴发的“使预防和治疗成为可能的自动诊断”(ADEPT)项目等。
谷歌首席执行官桑达尔·皮查伊周日宣布,谷歌公司正与政府合作创建一个网站,帮助人们自我筛查,然后决定是否要寻医问药;Alphabet旗下的生命科学部门Verily则正在研发新型冠状病毒检测工具。
艾伦人工智能研究所所长奥伦·埃奇奥尼表示,人工智能可以帮助科学家加快进度并找到解决问题的答案。但他也强调,人工智能只能增强人类的能力,不会自行解决问题。
微软、白宫和艾伦研究所等发布的冠状病毒数据集首发于美国科技博客网站“冒险节拍”(Venture Beat)。
来源:科技日报
编辑:张爽
审核:朱丽
终审:冷文生