新式算法依据谷歌Twitter数据可提前三周预测新冠疫情爆发

腾讯科技

2020-07-07 15:35腾讯新闻科技频道官方账号

哈佛大学研究员毛里西奥·桑蒂拉纳

腾讯科技讯 7月7日，据外媒报道，在当前新冠疫情在全球肆虐之时，判断当地经济何时收紧或放松已成为世界上最重要的猜谜游戏，每位政策决策者都在依靠自己的直觉和相关基准。例如，当医院容纳能力达到70%时，这就是个危险信号，新冠病毒感染病例和死亡人数上升也是如此。

但是，正如佛罗里达、加利福尼亚和德克萨斯等州州长最近几天所了解到的那样，这样的基准导致了警报系统的表现相当差劲。一旦新冠病毒在人群中找到突破口，它就会在医院、检测诊所和其他地方再次被发现之前，在卫生官员采取行动之前，迅速传播和繁殖。现在，一个由多国科学家组成的团队开发出了新的算法模型，可以在疫情发生前两到三周预测疫情，帮助卫生官员及时采取有效的控制措施。

在最新发布的论文中，由哈佛大学研究员毛里西奥·桑迪兰纳(Mauricio Santillana)和尼科尔·科根(Nicole Kogan)领导的团队展示了这种算法，该算法能在病例数开始增加前14天或更长时间内显示出危险迹象。该系统使用Twitter、谷歌搜索和智能手机移动数据等数据流进行实时监控。桑迪拉纳博士是波士顿儿童医院机器智能实验室主任，也是哈佛大学儿科学和流行病学助理教授。

研究人员写道，该算法就像“冷却或加热系统中的恒温器，可以引导公共卫生机构采取间歇性收紧或放松等干预措施”，以此保证更平稳、更安全的重新开放。桑迪兰纳博士称：“在大多数传染病建模中，你会根据预先的假设来预测不同的场景。我们在这里所做的是观察，而不是假设。不同之处在于，我们的方法会对行为的即时变化做出反应，而且我们可以将这些变化纳入模型之中。”

桑迪兰纳等人的论文尚未接受同行评议，但外部专家表示，它证明了实时数据(比如社交媒体)在改进现有模型方面的价值不断上升。

德克萨斯大学奥斯汀分校生物学家和统计学家劳伦·安克尔·迈耶斯(Lauren Ancel Meyers)说，该研究表明，“新一代的替代数据来源可能提供新冠疫情感染病例上升的早期信号，特别是如果确诊病例数因寻求治疗和获得检测结果的延误而滞后的情况。”使用实时数据分析来衡量疾病进展的方法至少可以追溯到2008年，当时谷歌工程师们开始通过追踪“感觉疲惫”、“关节疼痛”、“达菲剂量”等词的搜索趋势来估计流感患者的就诊次数。

但众所周知，谷歌流感趋势算法表现不佳。例如，后来的评估发现，由于数据限制和媒体关注等外部因素的影响，它不断高估了就诊次数，这些因素可能会推高与实际疾病无关的搜索量。从那时起，研究人员对这种方法进行了多次调整，将谷歌搜索与其他类型的数据结合起来。卡内基梅隆大学、伦敦大学学院和德克萨斯大学等大学的团队都有结合了某些实时数据分析的模型。

弗吉尼亚大学的计算机科学家马德哈维·马拉瑟（Madhav Marathe）说：“我们知道，只有单独的数据流是没用的。这篇新论文的贡献在于，他拥有种类繁多的数据流。”

在这篇新论文中，除了谷歌之外，该团队还分析了来自四个来源的实时数据：与疫情相关的Twitter帖子和带有地理位置的标签、医生在名为UpToDate的医生平台上的搜索、来自智能手机的匿名移动数据以及上传到应用程序上的Kinsa智能温度计读数。研究人员将这些数据流与东北大学开发的复杂预测模型相结合，该模型基于人们在社区中的移动和互动方式而开发。

桑迪兰纳团队通过观察数据流中的趋势与每个州3月和4月份病例数量和死亡人数之间的关系，测试了趋势的预测价值。例如，在纽约，与疫情相关的Twitter帖子的急剧上升趋势在3月中旬病例数量爆炸前一周多就开始了，而相关的谷歌搜索和Kinsa读数在几天前也开始飙升。该研究小组结合了所有数据源，实际上根据每个数据源与即将到来的病例增加相关性有多强来对每个数据源进行加权。研究人员发现，这种“协调”算法平均可提前21提案预测疫情爆发。

展望未来，该模型预测，如果不采取进一步措施，内布拉斯加州和新罕布什尔州的感染病例可能会在未来几周内增加，尽管病例数量目前持平。桑迪兰纳博士说：“我认为，考虑到疫情在不断变化，保守地说，我们可以至少提前一周或更长时间发出警告。”他的合著者包括来自马里兰大学、斯坦福大学、萨尔茨堡大学以及东北大学的科学家。

桑迪兰纳博士补充说：“我们并不认为这些数据取代了传统的监测，而是证实了这一点。这类信息可以让决策者更早做出决定：‘我们不要再等一周了，现在就行动吧！’”

专家表示，尽管大数据分析有很大吸引力，但它无法比其他传统模型更好地预测大众行为的突然变化。没有任何算法可以预测黑人男子乔治·弗洛伊德(George Floyd)在警察暴力执法过程中遇害后引发的全国性抗议活动。尽管抗议者采取了预防措施，但大规模集会可能已经播下了新的疫情爆发种子。

社交媒体和搜索引擎也会随着时间的推移变得不那么敏感。随着人们对病原体越熟悉，他们就越不会用选定的关键词进行搜索。像疾病控制预防中心这样的公共卫生机构也会使用来自社交媒体和其他来源的实时数据，但它们并没有将这样的算法作为预测的核心。乔治敦大学生物学家什韦塔·班萨尔(Shwata Bansal)说：“这对我们来说是极其有价值的数据，但我不想谈这方面的预测业务，因为可能造成的伤害相当严重。随着时间的推移，我们需要看到这样的模型得到验证。”

大多数专家表示，考虑到新冠病毒疫情的持续性和反复性，以及目前公共卫生基础设施的不足，这种情况似乎很可能发生。这是一个迫切的需求，也不缺乏数据。桑迪兰纳博士说：“我们看到的是我们认为最好的可用数据流，我们现在渴望看到亚马逊或Netflix的数据能给我们带来什么。”（腾讯科技审校/金鹿）

查看原图 1002K