当晚,董恩盛花了七八个小时输入数据、制作追踪图,一直干到凌晨三四点钟。经过审核修改等程序,导师于美东时间22日首次在社交媒体推特上发布了第一版疫情世界地图——恰赶上北京时间1月23日武汉宣布“封城”。
董恩盛说,最开始几乎没有现成模板可以套用,他不停地输入数据、坐标。当数据一一呈现在世界地图上,他渐渐意识到,就在全球范围内进行实时更新的流行病地图而言,这属于首创。
和导师喝杯咖啡,开上七八个小时夜车,就能启动一项世界首创,有这么轻松和简单吗?
美国总统选举时,政要们在为某名竞选人背书时,有句惯用套话,就是称赞此人“一生都在为此做准备”。董恩盛和杜鸿儒都很年轻,但就他们的学习和工作经历而言,还真可以套用这句话。
董恩盛说,他本科毕业于重庆西南大学地理系,2012年赴美国留学。获得硕士学位后,他曾先后在美国地方政府的IT及卫生部门、软件公司、电力公司、电信公司等实习和工作。
他接受过正规的地理和统计方面学术训练,目前研究领域包括网络科学、移动性建模、机器学习、空间分析和可视化及传染病的跨学科研究。新冠疫情暴发前,他就曾参与预测美国和太平洋岛屿国家和地区的麻疹风险及斯里兰卡的登革热疫情。
杜鸿儒也具有跨学科背景。他是天津大学化工学院2017届毕业生,曾就读于英国爱丁堡大学化工材料科学专业和美国威斯康星大学麦迪逊分校工业工程及运筹学专业。
他长于数学模型和路径优化,主要研究方向包括流行病大数据处理、通过网络优化和数学建模来研究和预测全球流行病的发展。他在2月1日加入疫情地图团队,数据自动更新代码就是他动手编写的。
他说,不妨把病毒传播设想成一种网络,州县都是网络节点,每个节点之间的人口流动构成连线。不管通过数学建模预测疫情趋势,还是进行人口社会学分析,系统科学角度都很重要。
身为中国学子,董恩盛和杜鸿儒对新冠疫情的担忧和关注,早于大部分美国科学家。正是这样的专业敏感度和对疫情信息的敏感度叠加,使得他们较早意识到制作世界疫情地图的意义和价值。而之前的学术训练与经验积累,也使他们在导师带领下,不仅可以有脑洞“想到”,也水到渠成地有能力“做到”。
但“做到”并不比“想到”更容易。从1月下旬到现在,为疫情地图的升级、完善和维护,并在疫情数据上展开相关研究,董恩盛和杜鸿儒付出了大量心血和劳动。
在手动输入阶段,他们每天都要工作大约10个小时。3月中旬向全自动数据更新转换时,每天工作量达到十五六个小时,导师也和他们一起工作到凌晨三四点钟。即便在团队扩大到大约50人、数据实现实时自动更新后,光是每天审核和修正数据工作,少则五六个小时,多则要十个小时。
魔鬼往往藏在细节里。4月13日,约翰斯·霍普金斯大学新冠疫情数据统计网站造了一起乌龙事件,错将全球确诊人数报至200万人以上,原因是将佛罗里达州实际病例数21019误填为123019,从而造成10万多例的误差。但不久后,他们又将数字回调至约190万。
在疫情地图维护中,核查数据以确保准确是重要一环。杜鸿儒介绍说,由于美国疾控中心数据滞后,他们主要依靠抓取美国地方媒体和各州卫生官员推特报告的数据,其他国家和地区的疫情则依据Worldometers等网站和当地媒体。由于更新时间早于官方数据,在电脑自动更新次日,团队就针对美国疫情数据与各州疾控中心数据核查,其他国家和地区数据则与世界卫生组织数据进行核查。
董恩盛说,为保证数据准确,他们还采取了四个措施,一是保留数据原始记录,每次更新都有回溯记录可查,二是总结时间序列表格,三是列出所有修正记录,四是组织人工核查。
值得一提的是,约翰斯·霍普金斯大学疫情世界地图背后,还活跃着更多中国年轻人的身影。
据董恩盛和杜鸿儒介绍,目前,运营团队约有50人,其中数据核实团队的志愿者,主要是各个院系的中国留学生。而中国方面提供的疫情数据,对国际研究的贡献更是不可磨灭。新冠疫情应对,对中国开展跨学科的国际传染病研究,加强全球公共卫生参与,提高政府部门和研究机构疫情数据可视化、国际化程度等,都提供了新的契机。
脱颖而出
在董恩盛和杜鸿儒看来,约翰斯·霍普金斯大学疫情地图脱颖而出,要归功于多方面因素,综合起来有以下八个主要原因:
一是动手早,在世界范围里先人一步,而与之后出现的其他疫情地图相比,数据更准确、更快;二是在流行病学方面比较专业,美国疫情精确到县级,对研究者和公众用处很大;三是在地图绘制方面表现出的专业性;四是数据公开透明,所有数据上传至GitHub,为全球所有政府决策部门和科研人员提供了开源数据;五是确保更新及时,用户参与度高,德、法、意等非英语语种国家的许多用户会主动向他们报告当地媒体报道的最新疫情,比等待官方审核渠道的确诊数字快得多;六是疫情地图的设计,黑色与红色对比度较高,构成视觉上的强烈冲击;七是约翰斯·霍普金斯大学在全球医学和公共卫生领域都享有很高声誉,使得