Bonus: vastauksia hyviin kysymyksiin, joita kukaan ei ole vielä kehdannut kysyä (tosi pitkä)
K: Miksi lasket trendit joskus eri pituisista jaksoista?
V: Lasken trendit yksinkertaisella suoran sovituksella mittaustulosten logaritmiin (lineaarinen regressio). Suoran sovitus vain kouralliseen mittaustuloksia painottaa hieman turhan paljon päätepisteitä. Yleensä pyrin käyttämään 6vk jaksoa, koska näppituntumani on, että se kuvaa virusmäärän muutosnopeutta suunnilleen samalla tarkkuudella kuin 5vk keskiarvo hetkellistä virusmäärää. Mutta esim. viikolla 41 olisi 6vk jakso alkanut tuloksesta, joka oli ympäröiviin verrattuna aivan poikkeuksellisen suuri ja päättynyt yhteen pienimmistä. Näin laskettu trendi olisi ollut todennäköisesti aivan liian jyrkästi vähenevä, etenkin kun vielä huomioi tapausmäärien maltillisemman kehityksen. Pidensin tarkastelujaksoa viikolla lieventääkseni poikkeuksellisen tuloksen vääristävää vaikutusta.
K: Mikset ilmoita trendeille luottamusvälejä tai todennäköisyyksiä? Eikö ne saa lineaarisessa regressiossa yleensä kaupan päällisenä?
V: En ole nähnyt mokomaa vaivan arvoiseksi. Lineaarinen regressio on turhan yksinkertainen malli. Jätevesidatan luotettavuuden aste on varsin helppo hahmottaa intuitiivisesti suoraan kuvaa katsomalla. Mittaustulokset saattavat joskus asettua sattumalta jollekin suoralle aivan tarkalleen, mutta se ei tarkoita, että viruksen määrän muutosnopeus olisi silloin sen tarkemmin tiedossa kuin muulloinkaan. Kuvaa katsoessa tämän epävarmuuden muistaa huomioida todennäköisemmin kuin suoran sovituksen hyvyyttä kuvaavia lukuja tarkastellessa, sillä kuvassa on mukana myös laajempi konteksti.
K: Miksi edes lasket trendit erikseen sen sijaan, että vain ilmoittaisit, kuinka 5 viikon keskiarvo on muuttunut?
V: Keskiarvokäyrä kertoo määrästä totuudenmukaisesti, mutta valehtelee määrän muutoksista. Keskiarvojen erotus on käytännössä vain yhden määritystuloksen ja sitä 5 viikkoa aiemman määritystuloksen erotus jaettuna viidellä. Se ei siis hyödynnä kuudesta käytetystä tuloksesta kuin kahden informaatiota. Tämän vuoksi se on herkkä viikottaiselle vaihtelulle. Suorakin on hieman turhan herkkä yksittäisille poikkeamille, kuten edellä selitin, mutta se sentään hyödyntää kaikkia kuutta tulosta.
K: Miksi sitten edes piirrät kuvaajiin 5 tuloksen keskiarvon, jos se mutkittelee liikaa? Mikset käytä jotain hienostuneempaa tilastollista mallia? Tai edes samaa tasoitusta, jota käytät tapausmäärille?
V: Minulla ei anonyyminä ole minkäänlaista tunnustettua auktoriteettia. Minusta on ollut siksi tärkeää, että kaikki ymmärtävät helposti, miten olen nämä kuvaajat tehnyt. Ajatukseni on alun perin ollut, että helppotajuisuus lisää näiden katsausteni luotettavuutta, koska julkaisemieni tietojen muuntelemattomuus on silloin mahdollista kenen tahansa tarkistaa. Siihen ei tarvitse osata mitään erikoista matematiikkaa tai salatiedettä. Toisaalta helppotajuisuuden painoarvo lienee nykyään pienempi, kun tapani ovat tulleet tutuiksi.
Yksinkertaisen keskiarvokäyrän puutteet ovat kyllä häirinneet itseäni niin paljon, että olen miettinyt, pitäisikö ne poistaa kuvista kokonaan ja piirtää vain määritystulokset. Tällaiset suhteellisen harvat määritystulokset edustavat itse itseään niin hyvin, että niiden oheen on vaikea lisätä mitään sellaista, mikä helpottaisi niiden hahmottamista silmän hämäämisen sijaan. Toisaalta jokin lyhyen aikavälin skenaarioennusteita ja niiden todennäköisyyksiä tuottava simulaatiomalli voisi olla hyvinkin mielekäs, mutta sellaisen toteuttaminen olisi vaikeaa ja työlästä.
Koronatapauskäyriin olen suhtautunut vähemmän vakavasti. Niissä käytän painotettua keskiarvoa (Blackman-ikkuna), joka suodattaa tehokkaasti pois lyhyen aikavälin vaihtelut.
K: Miksi ilmoitat luvut “suhteessa vuosien 2020–2022 maksimiin” oikean virusmäärän sijaan?
V: Kuvassa on kyllä molemmat. Useimmilla meistä on luultavasti jonkinlainen henkilökohtainen mielikuva siitä, millaista vuosina 2020–2022 oli niinä hetkinä kun koronaa oli liikkeellä eniten ja siitä puhuttiin paljon. Se on mittatikku, jonka koosta useimmilla on edes mahdollisesti jokin käsitys. Pitää puolestaan olla melko vihkiytynyt aiheeseen, jotta RNA-kopioiden lukumäärä sanoo yhtään mitään. Jotain “riljoonia” ne minullekin vain ovat. Vertaaminen auttaa myös muistuttamaan, että koronapandemia ei ole todellisuudessa päättynyt.
K: Mikset julkaise joka viikko myös seurantapaikkakuntien käyriä?
V: Piirrän kyllä nekin aina joka raportista itselleni ja katson ne läpi, mutta en ole pitänyt niiden jakamista yleensä vaivan arvoisena. Niitä on niin monta ja ne ovat joka tapauksessa epidemiamittareina jonkin verran epävarmempia kuin yhdessä. Voin toki jakaa niitä aina pyydettäessä ja joskus mahdollisesti piirtää aivan uusiakin kuvia, joten kannattaa naputella minulle viestiä, jos on jotain toiveita tai ehdotuksia.
K: Mikset viesti havainnoista ja epävarmuuksista neutraalisti? Korostat aina vain kielteisiä asioita, kuten epidemian kasvua tai sen mahdollisuutta, tai jos jotain hyvää tapahtuu, epäilet kovin herkästi virheen mahdollisuutta. Koskaan et nosta esiin positiivisia mahdollisuuksia samalla tavalla. Se ei ole tieteellistä.
V: Meillä lienee hyvin eri näkemys siitä, että mikä on tieteellistä. Tarkoitukseni ei ole johdatella ihmisiä ottamaan riskejä, vaan auttaa suojautumaan niiltä. Vain varoittamisen arvoisista asioista on syytä varoittaa. Esim. mitä järkeä olisi varoittaa ihmisiä talvella mahdollisesta liukkauden puutteesta?