在全球范围内能被诸多媒体每日加以引用的数据平台,就连副总统彭斯于开会之际都会目不转睛地瞧着它,会想到吗,这个每日访问量飙升至二十亿次的具权威性的信息来源起始时的开发者仅仅是一名一年级的博士生,并且他最先的时候是以手工方式去更新数据的。
一个博士生的小想法
2020年1月20日,此日乃美国马丁路德金日,约翰霍普金斯大学处于放假状态。一年级博士生董恩盛于家中刷新闻,感觉疫情似乎颇为严重。他此前开展过同类的数据研究,遂萌生出一个想法:能否将疫情数据予以收集起来,用以记录新冠肺炎自发生直至被人类战胜的整个历程。
第二天,他与导师劳伦加德纳碰面,讲述了这个想法,导师认为能够尝试一下。1月21日,他们着手开展工作,那时地图上仅有中国以及周边几个区域的病例。董恩盛全然没有料到,这个小型项目在两个月后会变成全球媒体每日必定查看的权威信息源。
手动更新的半个月
1月22日起至31日,整个项目里的全部数据,皆是董恩盛手动逐个收集的,他每日早晚分别更新一回,对着电脑将各地报告的病例数字敲入进去,那段时期美国尚未大规模暴发,数据量尚可应付,然而他已然感觉到这工作并不轻松。
于一场直播之中,他后续讲道,那时仅是个简易的念头,并未作非常多的思索,仅仅是感觉理应有人去开展这件事情。这般手动进行的操作延续了足足十天,一直到2月1日之际,他们才将采集系统升级成为半自动的状态。诸多后来被视作理所当然的事物,其起始点常常便是这般质朴的。
数据从哪里来
自2月1日往后,中国大陆方面的数据主要是从丁香园抓取而来。董恩盛团队察觉到,丁香园从国家卫健委以及各省卫健委获取数据的速度异常之快,每隔15分钟便能够同步一回。他们紧紧盯着丁香园,如此便能够确保中国数据更新具备及时性。
中国大陆以外的数据,可不那么让人省心,丁香园更新很缓慢,他们要自己去留意各国卫生部门官网,关注世界卫生组织的公告,还要瞅着各种媒体的报道。截至今天,这个项目的官方数据源清单里,列有世卫组织,包含中美欧疾控部门,有各地媒体,还有丁香园、worldometers、一亩三分地这些第三方平台。项目自始至终都没有跟美国官方卫生部门建立直接的合作关系,所有的数据均来自公开的渠道。
把CDC甩在后面
美国疾控中心网站存有疫情页面,其数据截止的时间为当天下午4点,周末的数据会统一延迟到周一才进行更新,这同约翰霍普金斯大学近乎全天实时予以维护的地图相较,差距可不是一点半点。
倘若媒体想要争抢新闻,那么时效性便如同命运之势。新华社、美联社、法新社、BBC无一不在引用这个仪表盘,电视台径直将地图投影到大屏幕之上,从而让主播对着进行解读。在2020年3月之后,美国那个副总统彭斯于卫生部门开会之际,其背后大屏幕所显示的同样是这个项目。来自一个大学的小小团队,正是在官方数据发布显得迟缓之时,顽强地凭借公开信息搭建起一套比官方更具可信度的系统。
技术选型的关键
在短时间内搭建起仪表盘,所依靠的是成熟工具,是采用ESRI公司ArcGIS系列开发工具的项目,该公司是地理信息系统行业老牌厂商,GIS技术能结合地图可视化效果与地理分析功能,还能操作数据库。
早在很多时候,这套技术于水文领域、交通领域、测绘领域以及公共卫生领域,就已然存在大量的应用情况了,此次仅仅只是变换了一个场景而已。中国疾控中心自身也同ESRI共同开展了相似的系统构建工作,该系统能够对二十个设有筛查中心的美国机场航线进行追踪,进而对航空传播路径作出分析处理。并不是霍普金斯具备了多么神奇的能力,而是这个技术所指向的方向本身就是正确无误的。
仪表盘之外的野心
董恩盛这位中国博士生所做的项目,杜鸿儒这位中国博士生所做的项目,在公众的眼中,那是以看病例数字作为工具的存在。在《柳叶刀》上曾发表过一篇短文,短文将这个项目的真实意图清清楚楚地讲明白了。研究团队从事这件事情,并非是为了给媒体提供新闻素材,也并非是为了让彭斯开会的时候有个屏幕能够观看。
构成他们核心目标的是去构建一套完整且可靠的数据模型,运用这套数据来模拟疫情传播的动态变化,病例数字仅为表象,而背后的传播路径、暴发规律以及干预措施的效果,这些才是进行学术研究真正想要解答的问题,仪表盘仅仅是迈向这个目标的首要步骤。
关于此仪表盘截图,你最近一次看到它是在怎样的那一条新闻当中呢?在那个时候,你是否曾有过这样的思考,即这些数字的背后,实际上是两名中国留学生于宿舍之内通过艰苦努力而得来的呢?







