Bonus: vastauksia hyviin kysymyksiin, joita kukaan ei ole vielÀ kehdannut kysyÀ (tosi pitkÀ)
K: Miksi lasket trendit joskus eri pituisista jaksoista?
V: Lasken trendit yksinkertaisella suoran sovituksella mittaustulosten logaritmiin (lineaarinen regressio). Suoran sovitus vain kouralliseen mittaustuloksia painottaa hieman turhan paljon pÀÀtepisteitÀ. YleensÀ pyrin kÀyttÀmÀÀn 6vk jaksoa, koska nÀppituntumani on, ettÀ se kuvaa virusmÀÀrÀn muutosnopeutta suunnilleen samalla tarkkuudella kuin 5vk keskiarvo hetkellistÀ virusmÀÀrÀÀ. Mutta esim. viikolla 41 olisi 6vk jakso alkanut tuloksesta, joka oli ympÀröiviin verrattuna aivan poikkeuksellisen suuri ja pÀÀttynyt yhteen pienimmistÀ. NÀin laskettu trendi olisi ollut todennÀköisesti aivan liian jyrkÀsti vÀhenevÀ, etenkin kun vielÀ huomioi tapausmÀÀrien maltillisemman kehityksen. Pidensin tarkastelujaksoa viikolla lieventÀÀkseni poikkeuksellisen tuloksen vÀÀristÀvÀÀ vaikutusta.
K: Mikset ilmoita trendeille luottamusvÀlejÀ tai todennÀköisyyksiÀ? Eikö ne saa lineaarisessa regressiossa yleensÀ kaupan pÀÀllisenÀ?
V: En ole nÀhnyt mokomaa vaivan arvoiseksi. Lineaarinen regressio on turhan yksinkertainen malli. JÀtevesidatan luotettavuuden aste on varsin helppo hahmottaa intuitiivisesti suoraan kuvaa katsomalla. Mittaustulokset saattavat joskus asettua sattumalta jollekin suoralle aivan tarkalleen, mutta se ei tarkoita, ettÀ viruksen mÀÀrÀn muutosnopeus olisi silloin sen tarkemmin tiedossa kuin muulloinkaan. Kuvaa katsoessa tÀmÀn epÀvarmuuden muistaa huomioida todennÀköisemmin kuin suoran sovituksen hyvyyttÀ kuvaavia lukuja tarkastellessa, sillÀ kuvassa on mukana myös laajempi konteksti.
K: Miksi edes lasket trendit erikseen sen sijaan, ettÀ vain ilmoittaisit, kuinka 5 viikon keskiarvo on muuttunut?
V: KeskiarvokÀyrÀ kertoo mÀÀrÀstÀ totuudenmukaisesti, mutta valehtelee mÀÀrÀn muutoksista. Keskiarvojen erotus on kÀytÀnnössÀ vain yhden mÀÀritystuloksen ja sitÀ 5 viikkoa aiemman mÀÀritystuloksen erotus jaettuna viidellÀ. Se ei siis hyödynnÀ kuudesta kÀytetystÀ tuloksesta kuin kahden informaatiota. TÀmÀn vuoksi se on herkkÀ viikottaiselle vaihtelulle. Suorakin on hieman turhan herkkÀ yksittÀisille poikkeamille, kuten edellÀ selitin, mutta se sentÀÀn hyödyntÀÀ kaikkia kuutta tulosta.
K: Miksi sitten edes piirrÀt kuvaajiin 5 tuloksen keskiarvon, jos se mutkittelee liikaa? Mikset kÀytÀ jotain hienostuneempaa tilastollista mallia? Tai edes samaa tasoitusta, jota kÀytÀt tapausmÀÀrille?
V: Minulla ei anonyyminÀ ole minkÀÀnlaista tunnustettua auktoriteettia. Minusta on ollut siksi tÀrkeÀÀ, ettÀ kaikki ymmÀrtÀvÀt helposti, miten olen nÀmÀ kuvaajat tehnyt. Ajatukseni on alun perin ollut, ettÀ helppotajuisuus lisÀÀ nÀiden katsausteni luotettavuutta, koska julkaisemieni tietojen muuntelemattomuus on silloin mahdollista kenen tahansa tarkistaa. Siihen ei tarvitse osata mitÀÀn erikoista matematiikkaa tai salatiedettÀ. Toisaalta helppotajuisuuden painoarvo lienee nykyÀÀn pienempi, kun tapani ovat tulleet tutuiksi.
Yksinkertaisen keskiarvokÀyrÀn puutteet ovat kyllÀ hÀirinneet itseÀni niin paljon, ettÀ olen miettinyt, pitÀisikö ne poistaa kuvista kokonaan ja piirtÀÀ vain mÀÀritystulokset. TÀllaiset suhteellisen harvat mÀÀritystulokset edustavat itse itseÀÀn niin hyvin, ettÀ niiden oheen on vaikea lisÀtÀ mitÀÀn sellaista, mikÀ helpottaisi niiden hahmottamista silmÀn hÀmÀÀmisen sijaan. Toisaalta jokin lyhyen aikavÀlin skenaarioennusteita ja niiden todennÀköisyyksiÀ tuottava simulaatiomalli voisi olla hyvinkin mielekÀs, mutta sellaisen toteuttaminen olisi vaikeaa ja työlÀstÀ.
KoronatapauskÀyriin olen suhtautunut vÀhemmÀn vakavasti. NiissÀ kÀytÀn painotettua keskiarvoa (Blackman-ikkuna), joka suodattaa tehokkaasti pois lyhyen aikavÀlin vaihtelut.
K: Miksi ilmoitat luvut âsuhteessa vuosien 2020â2022 maksimiinâ oikean virusmÀÀrĂ€n sijaan?
V: Kuvassa on kyllĂ€ molemmat. Useimmilla meistĂ€ on luultavasti jonkinlainen henkilökohtainen mielikuva siitĂ€, millaista vuosina 2020â2022 oli niinĂ€ hetkinĂ€ kun koronaa oli liikkeellĂ€ eniten ja siitĂ€ puhuttiin paljon. Se on mittatikku, jonka koosta useimmilla on edes mahdollisesti jokin kĂ€sitys. PitÀÀ puolestaan olla melko vihkiytynyt aiheeseen, jotta RNA-kopioiden lukumÀÀrĂ€ sanoo yhtÀÀn mitÀÀn. Jotain âriljooniaâ ne minullekin vain ovat. Vertaaminen auttaa myös muistuttamaan, ettĂ€ koronapandemia ei ole todellisuudessa pÀÀttynyt.
K: Mikset julkaise joka viikko myös seurantapaikkakuntien kÀyriÀ?
V: PiirrÀn kyllÀ nekin aina joka raportista itselleni ja katson ne lÀpi, mutta en ole pitÀnyt niiden jakamista yleensÀ vaivan arvoisena. NiitÀ on niin monta ja ne ovat joka tapauksessa epidemiamittareina jonkin verran epÀvarmempia kuin yhdessÀ. Voin toki jakaa niitÀ aina pyydettÀessÀ ja joskus mahdollisesti piirtÀÀ aivan uusiakin kuvia, joten kannattaa naputella minulle viestiÀ, jos on jotain toiveita tai ehdotuksia.
K: Mikset viesti havainnoista ja epÀvarmuuksista neutraalisti? Korostat aina vain kielteisiÀ asioita, kuten epidemian kasvua tai sen mahdollisuutta, tai jos jotain hyvÀÀ tapahtuu, epÀilet kovin herkÀsti virheen mahdollisuutta. Koskaan et nosta esiin positiivisia mahdollisuuksia samalla tavalla. Se ei ole tieteellistÀ.
V: MeillÀ lienee hyvin eri nÀkemys siitÀ, ettÀ mikÀ on tieteellistÀ. Tarkoitukseni ei ole johdatella ihmisiÀ ottamaan riskejÀ, vaan auttaa suojautumaan niiltÀ. Vain varoittamisen arvoisista asioista on syytÀ varoittaa. Esim. mitÀ jÀrkeÀ olisi varoittaa ihmisiÀ talvella mahdollisesta liukkauden puutteesta?