Home

Awesome

估计和预测 2019-nCoV 新型冠状病毒的爆发情况

简体中文 | English

日期: 2020年1月

内容:

  1. 估计和预测 2019-nCoV 新型冠状病毒在武汉的爆发情况

    MSE, basic SEIR model, sentiment analysis 了解 SEIR 模型原理

    • 模型 1: 估计武汉封城时的感染人数
    • 模型 2: 模拟预测武汉封城后肺炎感染人数以及峰值
  2. 根据丁香园实时数据预测全国未来两个月的肺炎趋势

    Author: Shih Heng Lo(模型灵感的提供以及指导者); Yiran Jing. <br /> Baseline: Ridge regression, improved by Dynamic SEIR model

    • 全国走势预测
    • 湖北省及非湖北地区走势预测

以下模型的重要局限:

  1. 模型的各种假设对结论的影响非常大。(很难收集到足够准确且全面的信息,所以有些假设未必合适)
    • 每个模型的敏感度测试有针对部分假设做一些调整
  2. 以下的模型都非常简单,而且没有包含足够多的数据,所得结论只是粗略估计
    • 但是因为仅针对武汉市区预测,所以或许这么简单的模型就足够了
    • 会根据最新消息持续更新模型

预测未来病情走势困难的主要原因:

  1. 我们目前对2019-nCoV的了解还有许多未知
    • 比如,我们不能正确地检测出所有感染患者:约17% 的病患不会表现出明显症状,但是依旧可以传染病毒给他人
  2. 我们无法得到真实的历史数据, 中国官方的数据是低于实际情况的,尤其是武汉市
    • 比如说,封城的时候到底检测出了多少病患,我们无从知晓
  3. 官方不断颁布的新政策对病情走势影响很大
    • 比如,交通限制,强制居家隔离(反而造成大量家庭内部感染),2月5号之后武汉新建立的三所医院开始接受大量病患
    • 这些随着时间发展快速变化的正常都对病情控制有很大的影响。而当我们用模型预测未来时,我们的重要前提假设是未来不会有新的政策发生

Data

实时数据抓取并储存在csv


估计和预测 2019-nCoV 新型冠状病毒在武汉的爆发情况 (模型 1 和 2)

2020年1月23日,交通枢纽的武汉市被封城。900万人民被困在武汉市区。在此之前,有500万人因春节离开武汉。估计机场的国际人流量为1900万。

考虑到新型武汉肺炎的快速传播性和武汉居住人口在封城前后变化巨大,我选择了不同的模型来估计封城前后武汉的感染人数,主要参考和借鉴今日发表的相关论文,数据参考官方数据。

模型 1: 估计武汉封城时的感染人数😷

Method: Considering Wuhan is the major air and train transportation hub of China, we use the number of cases exported from Wuhan internationally as the sample, assuming the infected people follow a Possion distribution, then calculate the 95% confidence interval by profile likelihood method. Sensitivity analysis followed by.

Reference: report2 (Jan 21)

模型 2: 模拟预测武汉封城后肺炎感染人数以及峰值📈

Method: Deterministic SEIR (susceptible-exposed-infectious- recovered) model and Sensitivity analysis

Reference: Nowcasting and forecasting the potential domestic and international spread of the 2019-nCoV outbreak (Jan 31)


模型 3: 根据丁香园实时数据预测全国未来两个月的肺炎趋势📉

Method: Dynamic SEIR (susceptible-exposed-infectious- recovered) model, Gradient Descent Model comparison based on the test score (MAPE) of last 5 days, baseline is ridge Ridge regression Reference: Dynamic SIR model

红色的线为现存感染人数的走势预测 注释:

模型实际表现

The mean absolute percentage error (MAPE) is a measure of prediction accuracy of a forecasting method in statistics. The MAPE of confirmed cases using data between 2020- 2-14 to 2020-02-22 is 0.0066. The figure below visualizes the real observation and the SEIR model predictions for the next 9 days. Overall, SEIR model predicts well for the peaking time and the general trend.

Dynamic contact rate β as a function of time t

Optimization algorithm Gradient Descent


抓取数据步骤:

  1. 从丁香园抓取最新数据
## Update data from DXY
$ cd ../data_processing && python DXY_AreaData_query.py # save data out to data folder.

可视化

目前见过的最棒的全国可视化

image

海外可视化(英文版)

CoronaTracker Analytics Dashboard


目前关于肺炎的学习和任务,以及接下来的方向在这里更新:Project

如果你对肺炎相关的数据分析和可视化感兴趣,请联系我!