刘家明
这两个月来,和大多数国人一样,每晚都在等卫生部发布2019冠状病毒的疫情数据,心情也随着数据的高高低低而起起伏伏,令人忧心忡忡。
最近这一周,卫生部改在下午先公布确诊数据,晚上再发布其他详情,这样可先减少大家的悬念,让想要深人了解数据的国人晚上才去慢慢分析资料。由于从疫情一开始就掌握了整个情况,所以我国卫生部发表的数据算是最透明和最准确的。
根据每天发布的数据,卫生部和各种报章媒体,都用近年发展起来的大数据所带动的“数据可视化”科技,用图表以最简单易懂的方式呈现出来,让读者“看懂”数据。于是我们知道了病毒会从人传人,老人和男性患者(甚至某种血型)是风险群,知道了病毒潜伏期,传染期和感染区,发病时的各种症状,确诊病例、痊愈人数和死亡率等等。
从统计学的角度来说,我们已大概把这病毒摸透了,继续出现的数据或许也不会改变什么。不过我们却没有从所谓的颠覆科技的大数据里,得到较深层次的分析和理解,更不必说大数据的“预测功能”在这场抗疫作战中的贡献了。
根据世界卫生组织的流行病标准,要了解疫病的传播有一个称为基本传染值(Basic Reproduction Ratio,简称R0),它代表病毒平均能感染的人数。如果R0大于1,就表示疫情在继续传播,且可以发展成为流行疫病,一般上靠近2时就要考虑封城隔离了。如果R0低于1的话,就表示疫情会慢慢减缓,受到了控制。当然R0的算法不是我们这些非专业人士能够算出来的。
目前我们知道的数据里没有包括R0,所以只从新增病例数目来看是很难了解事态的严重性的。但从目前大约三分之一的确诊病例中还找不到感染源,也就是说这些个别病例的R0至少是2,情况堪忧。
世界各国对这次冠状病毒的测试有不同的做法,很多时候是在情况已经失控了才开始检测。随着检测的增加和普及,发现的病例也自然会增加,有时还会达到惊人的数目。但也有的地方却是测试不全面,所以确诊病例也少,故此单日确诊病例数目就变得没什么意义了。
我国开始时应该只是对疑似病例进行检测,而且还有由“公共卫生防范诊所”(PHPC)做为前线过滤网,再加上特别优惠的病假制度,以鼓励对自己有怀疑的国人应用PHPC机制,所以测试的人数不大。
我国目前可能已开始对客工和相关的接触人士增加检测,看来确诊数目会快速增加。在病例逐渐趋向4000起,被各种方式隔离的有好几万人,在一个500多万人的密集居住城市里,这些数据是否能更确实的告诉我们些什么呢?数据分析是否能在这里发挥其所长呢?
让我们重新认识一下大数据这个科技宠儿。大数据所处理的数据库要超大,涉及层面要非常广,流量非常大且快,这样的话,大数据科技才能分析和预测出人类或一般电脑系统不能应付的难题。
这个冠状病毒的突袭,几个月来从世界各地所收集到的数据并不完整,收集标准不一,更缺乏“互关性”;尤有甚者,无论其数量或流量和相关层面都没达到所谓大数据的要求。到目前为止基本上收集到的还只算是“统计数据”,大数据科技除了用以展示数据图表外无用武之地,所以也不能一味怪罪大数据没有出力了。
记得17年前在沙斯疫情时期,当知道了我们要确保在21天里再没有新增病例后,才能从国际疫区名单里除名,于是全国一心“同仇敌忾”,互相关照确保安全,终于达到指标。
就算大数据科技不成熟或还不能被排上用场,相信数据专才和分析员除了表面统计数据外,或许已经从各个不同方面的数据,综合分析和了解了疫情和动向。
这次在冠病19的阴影下和人心惶惶之际,国民只能跟着官方颁布的各种措施和限制生活,与政府同步遏制疫情。如果大家也能够多深入了解疫情和抗疫的来龙去脉的话,有了更明确的目标和希望,或许也会更快见到曙光。
作者是电子工程师