Mikä on p-arvo ja miten se lasketaan?

Buy Aricept Online Stromectol Without Prescription Lotrisone No Prescription Celexa For Sale Inderal Generic Buy Cymbalta Online Flomax Without Prescription Coumadin No Prescription Penisole For Sale Celexa Generic

aihekuvitus

Otsikon perusteella ei ehkä täysin selviä mistä on kyse, joten tarkennan hieman. Varsinkin tilastollisia tutkimuksia lukiessa voi törmätä mainintaan p-arvosta. Tutkimustuloksia kahlailleille seuraavanlainen maininta voi olla tuttu: “Sairastuneista noin 95% oli 50 vuotiaita (p=0.065)”. Mutta mitä tuo p ja sen arvo 0.01 oikein tarkoittavat? Miksi se pitää mainita ja mitä sillä tekee?

Asian selittämiseksi on hyvä ottaa konkreettinen esimerkki (tähdennän, että tämä esimerkki on hatusta heitetty; se ei siis pidä oikeasti paikkansa). Kuvitellaan vaikka, että tutkimme vaikka rintasyövän esiintyvyyttä. Meillä on tiedot 200 potilaasta (100 miestä ja 100 naista), joista vaikkapa puolet on sairastunut rintasyöpään jossain elämänsä vaiheessa. Tarkoituksena tutkimukselle on selvittää, ketkä sairastuvat rintasyöpään. Eli siis välttämättä minkä takia siihen sairastutaan, vaan tässä tapauksessa se, että minkä ikäisenä siihen yleisimmin sairastutaan.

Jokaiselta tutkimusotokseen kuuluvalta on tässä tapauksessa tiedossa sukupuoli ja sairastumisikä. Analysoimalla kerättyjä tietoja huomattiin, että kun 100 naisesta 10 on sairastunut rintasyöpään, on se ilmaantunut miehistä vain yhdelle. Tutkimusotoksen perusteella näyttäisi tällöin siltä, että 10% naisista sairastuu rintasyöpään kun taas miehillä vastaava luku on vain 1%.

Tarkoitushan tällaisessa tutkimuksessa on, että tämä saatu tulos voitaisiin myös yleistää. Siis: kun kerran tutkimusotoksen 200 osallistujalle näyttäisi pätevän tällaiset säännöt, voisivatko ne päteä yleisesti myös kaikille suomalaisille ja vaikkapa kaikille ihmisille maailmassa?

Tässä kohtaa tutkimusta tulee yleensä pohdittua omien tutkimustulosten luotettavuutta. Tutkimuksen perusteella yleistettyjen tuloksien pitäisi päteä myös seuraavilla tutkimuskerroilla. Siis: jos minun tulokseni pitävät paikkansa, myös muiden pitäisi päästä samaan tulokseen samanlaisella koejärjestelyllä. Jos joku muu siis mittaisi rintasyövän esiintyvyyttä niin hänen pitäisi päätyä samankaltaiseen tulokseen. Jos näin ei olisi, tutkimukseni ei olisi kovin luotettava!

Tutkimuksen luotettavuuteen vaikuttavat monet tekijät. Kun analysoidaan tilastollista tutkimusta, usein kerrotaan erikseen, mitkä tuloksista ovat tilastollisesti merkittäviä ja mitkä eivät. Jos tulos on tilastollisesti merkittävä (engl. statistically significant), se tarkoittaa yksinkertaisesti sitä, että tilastotiedon valossa vertailluissa tuloksissa on eroa. “Tilastollisesti merkittävä” ei silti tarkota, että ero tuloksissa olisi suuri. Se ei myöskään kerro siitä, mistä ero johtuu: kun selviää, että tulos on tilastollisesti merkittävä, jää tutkimuksen tekijän tehtäväksi pohtia, mistä se voisi johtua.

Tilastollista merkittävyyttä voidaan mitata monella tavalla. Yksi erittäin suosittu tapa tähän on p-arvon laskeminen saaduista tuloksista. Nyt tulee keskeinen määritelmä:

Tilastollisessa hypoteesin testauksessa, p-arvo on todennäköisyys, jolla vähintäänkin yhtä merkittävä ero tuloksessa saadaan aikaan käyttämällä nollahypoteesia.

Määritelmä ei todellakaan ole kovin itseselitteinen. Tieteen kielestä tuttu sana hypoteesi tarkoittaa yksinkertaisesti olettamusta tai oletusta. Esimerkkitapauksessamme huomasimme, että tutkituilla miehillä esiintyi vähemmän rintasyöpää. Tämän pohjalta loimme yleistyksen (hypoteesin), että “rintasyöpä on kaikilla naisilla 10-kertaa yleisempää”.

P-arvossa mainittu nollahypoteesi on keino, jonka avulla voimme testata, kuinka oikeutettu tällainen yleistys (hypoteesi) on. Nollahypoteesi tarkoittaa sitä, että oletammekin, että samanlaisen tuloksen kun meidän yleistyksessä, voisi saada aikaan sattumalta.

Todennäköisyyttä, että nollahypoteesi pitääkin paikkansa, sanotaan p-arvoksi. P-arvo on siis tavallaan todennäköisyys, jolla saman tuloksen saa aikaan sattumalta. Jos tuloksen p-arvo on 0.50, se tarkoittaa sitä, että arpomalla puolet tuloksista saadaan näyttämään samanlaisita. Tulokseen, jossa p-arvo on pienempi, on taas vaikeampi päästä mäihällä. Jos p-arvo on 0.10, vain joka kymmenes arpomalla saatu tulos on sama, 0.01:llä vain joka sadas, ja niin edelleen.

Mitä pienempi p-arvo on, sitä luotettavampi on tulos. Tilastollisesti luotettavan tuloksen rajana pidetään usein p:n arvoa 0.05, tällöin vain noin yksi kahdestakymennestä arpomalla saadusta tuloksesta päätyy vähintään yhtäsuureen eroon. Jos siis saamme väitteelle “rintasyöpä on kymmenen kertaa yleisempi naisilla” p-arvoksi 0.04, voidaan tulosta pitää “tilastollisesti merkittävänä” (englanniksi statistically significant). Vastaavasti p:n arvolla 0.1, tulos ei ole tilastollisesti merkittävä, eikä siten kovin luotettava.

Se, miksi tilastollisen merkittävyyden raja on juuri 0.05 on puhtaasti sopimuksenvarainen asia. “Tilastollinen merkittävyys” on siis jokseenkin veteen piirretty viiva. Mitä pienempi p-arvo on, sitä luotettavampi on tulos. Joskus suurempikin epävarmuus (eli suurempi p-arvo) voi riittää tulosten tulkinnassa. Tulosten luotettavuuden arviointiin antaa suuntaa oheinen lista: (peräisin lähteestä [1])

p < 0,001
tulos on tilastollisesti erittäin merkitsevä
0,001 <= p < 0,01
tulos on tilastollisesti merkitsevä
0,01 <= p < 0,05
tulos on tilastollisesti melkein merkitsevä
0.05 <= p < 0,10
tulos on suuntaa antava

Tässä vaiheessa on muuten hyvä tehdä muutama tärkeä huomio. P-arvossa “P” on lyhenne sanasta probability eli todennäköisyys, englanniksi p-arvo on siis “p value”. P-arvo itsessään ei siis tarkoita mitään muuta kuin todennäköisyyttä. Usein p:n arvo liitetään sujuvasti suoraan väitteen perään, esimerkiksi: “rintasyöpä on naisilla kymmenen kertaa yleisempää (p=0.04)”. Tällainen teksti ei asiayhteydestä irroitettuna kuitenkaan tarkoita mitään, sillä annettu p-arvo liittyy johonkin tilastolliseen testiin, ei väitteeseen itsessään.

Tyypillisesti p-arvo liittyy tilastollisiin testeihin, joissa mitataan muuttujien välistä korrelaatiota tai mittadatan sopivuutta malliin. Tällöin kyseeseen voivat tulla esimerkiksi Pearsonin korrelaatioarvon laskenta ja Chi square -testi. Jos löydät irrallaan lojuvan p-arvon tekstistä, kannattaa etsiä, mihin testiin arvo liittyy! Siis vielä kerran: tutkimustuloksille ei voi antaa p-arvoa, mutta tilastollisille testeille, joihin ne perustuvat, voidaan!

Esimerkissä kirjoitetimme: “sairastuneista noin 95% oli 50 vuotiaita (p=0.065)”. Nyt tiedämme, että tämä voitaisiin tulkita tarkoittavan: “sairastuneista noin 95% oli 50 vuotiaita, mutta tilastolliselta merkittävyydeltään tulosta voidaan pitää lähinnä suuntaa antava”. Tilastolliselta kannalta väitteen varmistamiseen yleistämistä varten saatettaisiin siis tarvita vielä jatkotutkimusta. On myös syytä huomata, että annetun esimerkin perusteella emme voi tietää, millä tilastollisilla menetelmillä kyseiseen tulokseen on päästy, mikä oikeassa tutkimuksessa olisi yhtä lailla tärkeä tietää.

Jäikö joku asia vielä kaivelemaan? Lisälukemistoa kiinnostuneille:

Lähteet

[1] Tilastomatematiikka. Leila Karjalainen. 8. painos. Gummerus Kirjapainot Oy. Jyväskylä. ISBN 952-9776-23-3.

Leave a Reply