How to tell if your country’s coronavirus statistics are invalid

[Vea traduccion en espanol abajo]

Everyone in Ecuador is closely watching the curve of the number of Ecuadorian coronavirus cases over time. As dead bodies begin to accumulate in the streets of Ecuador’s largest city, Guayaquil (not all due to coronavirus, to be sure), all of us anxiously look for signs that the curve is beginning to flatten, that the curfew, transit restrictions, and economic shutdown are having some effect. Last week the number of new cases per day finally did begin to drop from one day to the next. Were our countermeasures having some effect? Many of us, including me, thought so. Here is what the graph of new confirmed (tested) cases per day looked like as of March 30 (which is Day 18 on this graph):


However, looking more closely, there is something odd about this graph. There is too much variability for it to be accurately describing a disease which has a long and variable incubation time. Symptoms of Covid-19 usually don’t show up for three to eight days after infection; the median waiting time until symptoms show up is five days after exposure, with most people showing symptoms after between three and eight days. People don’t get tested and aren’t registered in this graph until after they show symptoms, so the people who test positive on any given day were infected between three and eight days earlier. So the positive test counts for each day are influenced by all of the infection rates of the previous three to eight days. This makes it mathematically impossible for the graph to change much  from one day to the next, if the graph were really measuring what it is supposed to be measuring.

Let’s play with some hypothetical data to see how much the graph could vary from day to day. Let’s first look at a very extreme case: let’s say the probability  of infection doubles every day, and then suddenly one day everyone is put into complete isolation and the infection rate instantly drops to zero.  To make this graph I have to know the proportion of infected people who show symptoms after three days, the proportion who show symptoms after four days, etc.  A good guess (given that the median for covid-19 is known to be 5 days, and that in one sample of 45 infections on the same day, some people did report symptoms on Day 3 and on Day 8) is that 10% get symptoms after three days, 20% get symptoms after four days, 20% get symptoms after five days, 20% after 6 days, 20% after seven days, and 10% after eight days. (The exact values of these numbers aren’t too important for the point I am making.)

So, under these conditions, how fast can the graph of new positive test cases per day drop when the actual infection rate suddenly drops to zero? Here is the answer (the infection rate drops to zero on Day 1):


Note that even after the infections are completely stopped from Day 1 onward, the graph continues to rise steeply for a few days as people infected earlier begin to show symptoms and get positive tests. The rise begins to slow down three days after the infections stop (Day 4 on the graph), and then it gently but steadily declines.

That was what happens when the disease is spreading exponentially until it suddenly disappears. Let’s look at the other extreme– what happens if the infection rate is holding steady until it drops to zero on Day 1? Symptoms continue to show up, and people continue to register new positive cases, for several more days after people cease getting infected. Then the curve starts to go gently down.


In real life, of course, the infection rate could never go from a high number to zero overnight. So any real curve will be even smoother than these. Likewise the actual range of delays between infection and test result is wider than the numbers I used, and this should also make the real curve even smoother than these.

Now look again at the Ecuadorian graph at the top of this post. It shows much more dramatic drops than any of these hypothetical graphs in which the disease is completely cured overnight. The Ecuadorian graph is just not possible under any sort of natural situation.

Indeed, when I add in the data from March 31 (which is Day 19 on the graph below) to April 5, the Ecuadorian graph reveals that the apparent dip in cases on March 29 and March 30 meant absolutely nothing:


Could this be blamed on random statistical variation from day to day? Probably not. The number of infections per day has what statisticians call a “Poisson distribution”, and its range of random variation (the “standard deviation”) is known to equal the square root of the mean value.  If we had many days with the same infection probability, the number of infections per day would almost always be within two standard deviations of the mean. The highest daily value in graph above, 456, could be expected to vary from 413 to 498. The value just two days earlier was 42 new positive cases, far beyond the expected range of random variation given the value of 456 two days later.

So what can explain the Ecuadorian graph? At first I thought that test kits might be so scarce that the number of new verified coronavirus cases per day is almost entirely dependent on the availability of test kits. So this would really be a graph of test kit availability, nothing more. However, Javier Robayo points out that another limitation is the lack of people and time to run the tests, each of which takes several hours. The biggest dips happen on weekends, suggesting that this kind of human factor is indeed shaping the graph. Sadly, this all means that patterns on this graph can offer no guidance to Ecuador’s citizens or its decision-makers.
Further evidence for this pessimism can be found by comparing the number of deaths with the number of detected cases. Coronavirus death totals are not very reliable in Ecuador, as the government only lists deaths confirmed by testing for the virus. For example the health ministry reports a total to date of 180 coronavirus deaths, and mentions but does not tabulate an additional 159 deaths that were “probably” coronavirus ( accessed April 5). But just to be conservative, let’s accept the official figure of 180 deaths as of April 5. Those people must have become infected in the preceding several weeks. The mortality of this virus is about one in a hundred or a bit less:

If there are 180 people dead, there must have been 180*100= 18000 infected people one to three weeks before April 5. To be conservative, let’s look back only one week (looking back farther would make the projection worse). The official number of infected people for March 30 is only about 1900 people, not 18000.. This suggests that there are really almost ten times more people infected than the official numbers show. And if, as seems likely, the real death toll is twice the reported rate, then the real number of infected people is about twenty times greater than the official figures show. As of today, that would be 67000, which is more than 4000 cases per million inhabitants. This would be about twice the reported per capita infection rate of New York City.

This estimate of 34000-67000 infected depends on the death rate for Covid-19 really being 1% in Ecuador. If medical care in Ecuador were much worse than elsewhere in the world, perhaps the death rate is actually much higher here. If the death rate were 20% instead of 1%, the numbers of deaths and infections would match better. I am not sure which result is more frightening, that the rate of infection is one of the highest reported in the world, or that the death rate is one of the highest in the world. The truth is probably somewhere in between. I don’t think any of the possibilities are good.

The President of Ecuador himself agrees with this frightening conclusion: “Sabemos que tanto en número de contagios, como de fallecimientos, los registros oficiales se quedan cortos. La realidad siempre supera el número de pruebas y la velocidad con la que se presta la atención”.

[“We know that in both the number infected, and in the number of deaths, the official counts fall short. The reality is always exceeding the number of tests and the pace of attention.”- Lenin Moreno, President of Ecuador.]

And now Banos is running low on food…..We hope the internet and electricity don’t fail.

Lou Jost, Fundacion EcoMinga

[Traduccion por Alejandra Salome Solorzano Flores]
Cómo saber si las estadísticas de croonavirus en tu país son invalidas
Todos en Ecuador están viendo de cerca la curva del número de los casos de coronavirus ecuatoriano a lo largo del tiempo. A medida que los cadáveres se empiezan a acumular en las calles de la ciudad más grande del Ecuador, Guayaquil (no todos debido al coronavirus, de seguro), todos nosotros buscamos ansiosamente señales de que la curva se empiece a aplanar, que el toque de queda, las restricciones de tránsito y el cierre económico están teniendo algún efecto. La semana anterior, el número de casos nuevos cada día finalmente empezó a descender de un día al otro. ¿Estaban teniendo efecto nuestras contramedidas? Muchos de nosotros, incluyendome, pensamos eso. Aquí está el gráfico de nuevos casos confirmados por día al 30 de marzo (que es el día 18 de la gráfica):
Sin embargo, viendo más de cerca, hay algo extraño en este gráfico. Hay mucha variabilidad para que describa con precisión una enfermedad que tiene un tiempo de incubación largo y variable. Los síntomas de Covid-19 usualmente no aparecen durante tres a ocho días después de la infección; el tiempo medio de espera hasta que aparecen los síntomas es cinco días después de la exposición, con mucha gente mostrando síntomas después de tres a ocho días. Las personas que no se hacen la prueba hasta que muestran síntomas, no se registran en este gráfico, así que las personas que dan resultado positivo en un día determinado se infectaron entre tres y ocho días antes. Por lo tanto, los conteos positivos de cada día están influenciados por todas las tasas de infección de los tres u ocho días anteriores. Esto hace matematicamente imposible que el gráfico cambie mucho de un día para otro, si el gráfico realmente midiera lo que se supone que está midiendo.
Juguemos con algunos datos hipotéticos para ver que tanto podría variar el gráfico de un día al otro. Veamos primero un caso muy extremo: digamos que la probabilidad de infección se duplica todos los días, y repentinamente un día todos se aíslan y la tasa de infección cae instantáneamente a cero. Para hacer este gráfico, necesito saber la proporción de personas infectadas que muestran síntomas después de tres días, la proporción que muestra síntomas desúes de cuatro días, etc. Una buena suposición (ya que se sabe que la mediana para covid-19 es de  cinco días, y que en una muestra de 45 infecciones el mismo día, algunas personas informaron síntomas el día tres y el día ocho) es que el 10% tiene síntomas después de tres días, 20% tiene síntomas despúes de cuatro días, 20% muestra síntomas después de cuatro días, 20% después de seis días, 20% después de siete días,  y 10% después de ocho días (Los valores exactos de estos números no son tan importantes para el punto que quiero abordar).
Por lo tanto, bajo estas condiciones, ¿qué tan rápido puede descender el gráfico de nuevos casos por día, cuando la tasa de infección actual disminuye súbitamente a cero? Aquí está la respuesta (la tasa de infección cae a cero en el día 1):
Tenga en cuenta que incluso después de que las infecciones se detienen por completo en el día uno en adelante, el gráfico continúa aumentando durante unos días a medida que las personas antes infectadas comienzan a mostrar síntomas y a obtener resultados positivos. El incremento comienza a disminuir tres días después de que las infecciones se detengan (Día 4 en el gráfico), y luego disminuye de manera suave pero constante.
Eso fue lo que sucedió cuando la enfermedad se propagó exponencialmente hasta que desapareció repentinamente. Veamos el otro extremo: ¿qué sucede si la tasa de infección se mantiene estable hasta que cae a cero en el día 1? Los síntomas continúan mostrándose, y las personas continúan registrando nuevos casos positivos, por muchos días más después de que las personas dejan de infectarse. Entonces la curva comienza a descender suavemente. 
En la vida real, por supuesto, la tasa de infección nunca podría pasar de un número alto a cero durante la noche. Por lo tanto, cualquier curva real será incluso más suave que estas. Del mismo modo, el rango actual de demoras entre la infección y los resultados de tests es más amplio que los números que usé, y esto debería hacer la curva real incluso más suave que estas. 
Ahora miremos el gráfico ecuatoriano al principio de este post. Muestra disminución más dramática que cualquiera de estos gráficos hipotéticos en los cuales la enfermedad se cura por completo durante la noche. El gráfico ecuatoriano simplemente no es posible bajo ningún tipo de situación natural. 
En efecto, cuando añado en los datos de Marzo 31 (que es el día 19 en el gráfico más abajo) a Abril 5, los gráficos ecuatorianos revelan que la caída aparente de casos el 29 y 30 de Marzo no significan absolutamente nada.
¿Podría atribuirse esto a la variación estadística de un día a otro? Probablemente no. El número de infecciones por día tiene lo que los estadísticos llaman “Distribución de Poisson”, y se sabe que su rango de variación aleatoria (la “desviación estándar”) es igual a la raíz cuadrada del valor medio. Si tuvieramos muchos días con la misma probabilidad de infección, el número de infecciones por día casi siempre estaría dentro de dos desviaciones estándar de la media. Se podría esperar que el valor diario más alto en el gráfico anterior, 456, varíe de 413 a 498. El valor solo dos días antes fue de 42 casos positivos nuevos, mucho más allá del rango esperado de variación aleatoria dado el valor de 456 dos días después. 
Así que, ¿qué puede explicar el gráfico ecuatoriano?. Primero pensé que los kits de prueba podrían ser escasos de modo que el número de nuevos casos verificados pod día es totalmente dependiente de la disponibilidad de estos kits. Por tanto, este podría ser un gráfico de disponibilidad de kits para test, nada más. Sin embargo, Javier Robayo apunta tambien que  falta personas capaces de ejecutar los tests, y falta tiempo para hacerlos, cada uno de los cuales toma al rededor de unos horas. Los mayores descensos ocurren los fines de semana, lo que sugiere que este tipo de factor humano está dando forma al gráfico. Lamentablemente, todo esto significa que los patrones en este gráfico no pueden ofrecer orientación a los ciudadanos de Ecuador o sus tomadores de decisiones. 

Mayor evidencia de este pesimismo se puede encontrar comparando el numero de muertos con el numero total de casos. Los numeros totales de muertos por coronavirus tampoco son confiables en Ecuador, ya que el gobierno solo enumera las muertes confirmadas mediante la prueba del virus. Por ejemplo, el ministerio de salud informa un total de 180 muertes por coronavirus hasta la fecha y menciona, pero no tabula, 159 muertes adicionales que fueron “probablemente” por coronavirus ( consultado el 5 de abril). Pero para ser conservadores, aceptemos la figura oficial de 180 muertes al 5 de abril. Estas personas debieron infectarse en las últimas semanas. La mortalidad de este virus es aproximadamente uno de cada cien o un poco menos:

Si hay 180 personas muertas, debe haber 180*100=18000 infectadas aproximadamente una a tres semanas antes del 5 de abril. Pero el número oficial de personas infectadas para el 30 de marzo es de aproximadamete 19000 personas. Esto sugiere que en realidad hay casi diez veces más personas infectadas de lo que muestran las cifras oficiales. Y si, como parece probable, el número real de muertes es el doble de la tasa reportada, entonces el número real de personas infectadas es aproximadamente veinte veces mayor que lo que muestran las cifras oficiales. A partir de hoy, eso sería 67000 que es más de 4000 casos por millón de habitantes. Esto sería aproximadamente el doble de la tasa de infección per cápita reportada en la ciudad de Nueva York.

Este estimado de 34 000 – 67 000 infectados depende de la tasa de muerte por Covid-19, siendo realmente 1% en Ecuador. Si el cuidado médico en Ecuador fuera mucho peor que en otras partes del mundo, quizás la tasa de mortalidad en realidad sea mucho más alta aquí. Si la tasa de mortalidad fuera del 20% en lugar del 1%, el número de muertes e infecciones coincidiría mejor. No estoy seguro de qué resultado es más aterrador, que la tasa de infección es una de las más altas del mundo, o que la tasa de mortalidad es una de las más altas del mundo. La verdad probablemente esté en algún punto intermedio. No creo que ninguna de las posibilidades sea buena.

El presidente de Ecuador por sí mismo, está de acuerdo con esta conclusión aterradora: “Sabemos que tanto en número de contagios, como de fallecimientos, los registros oficiales se quedan cortos. La realidad siempre supera el número de pruebas y la velocidad con la que se presta la atención”.

Ahora Baños se está quedando con escazez de comida…. Esperamos que el internet y electricidad no fallen. 
Lou Jost, Fundacion EcoMinga
Traducción: Salomé Solórzano-Flores


10 thoughts on “How to tell if your country’s coronavirus statistics are invalid

  1. It could be great, with some co-autors : Chun-Huo Chiu, Anne Chao…, for us who are not biologist+statistician+ecologist, that you could explain the statistics, give your point of view, for the problems of the diffusion models, extrapolation calculations of the Coranovirus data, pertinence of the actual results, political conclusions, proposed solutions … so a huge modelised exercice, especially for youngers, all in a scientific manner (why not with Hill’s numbers, bootstrapping, …)

    • I am afraid that detailed modeling is best left to professionals. Anne and Chun-Huo actually do have experience in this kind of thing, but I think it is a bigger problem than I can tackle. I’m content to just look for signs that the data are screwed up.My quarantine time is occupied by trying to submit scientific descriptions of the new species I discovered years ago but have not had the time to publish yet. This is especially urgent since I might get the disease.

  2. Because I come from mechanical area… a “simple” 2 dimensions parabolic Heat equation, with te geometry of earth area with countries, internal heat varying in time and space, space linked to road, town … heat beeing like enzymatic reaction varying in temperature from 10°C to 30°C… could give a good idea of some parameters… with great softwares like, Abaqus, Adina, Ansys ? so a great thesis as a synthesis between mechanical, fluid mechanics, chemistry, climate, meteororoly, biology, medecine, politics as limit conditions… now we have a real case with coranovirus and with the virus size we can have laboratory tests on only some m² …

  3. Pingback: Ecuador fixes their Covid-19 statistics | Fundacion EcoMinga

Leave a Reply

Fill in your details below or click an icon to log in: Logo

You are commenting using your account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s