tiistai 1. syyskuuta 2009

Periytyvyydestä ja tilastoista.

Mankiw välitti graafin, joka kuvaa biologisen isän tulojen ja lapsen älykkyysosamäärän suhdetta. Graafi on piirretty sekä lapsille, jotka elävät biologisten vanhempiensa luona että lapsille, jotka on adoptoitu.

Tekstissä on esitetty tulkinta sosioekonomisen aseman ja älykkyyden suhteesta:
The fact that the biological father's income is almost an equally strong predictor of a child's test scores even when the biological father was not present in the household clearly suggests that most of the association between income and test scores does indeed arise because of omitted variable bias.
Puuttuvan muuttujan harha eli OVB on ekonometrian peruskauraa, mutta usein yllättävän heikosti ymmärretty.

Jos estimoimme (lineaarisella) regressiolla, kuinka hyvin jokin muuttuja X ennustaa muuttujaa Y, sovitamme dataan mallin Y = b1 + b2X + u, missä u on virhetermi. Virhetermin pitäisi olla riippumaton X:stä ja keskimäärin nolla (tämä on varmaa ns. pienimmän neliövirheen sovituksessa; muitakin tapoja sovittaa malli on, mutta en käsittele niitä tässä).

Pelkästään se, että Y:hyn vaikuttaa myös toinen muuttuja Z, ei vielä synnytä puuttuvan muuttujan harhaa. Jos Z kuitenkin on tilastollisesti riippuvainen X:stä(*), eli jos X:n ja Z:n välillä on jokin nollasta poikkeava (positiivinen tai negatiivinen) korrelaatio, mallissa esiintyy OVB. Olen ollut huomaavinani, että OVB syntyy todella herkästi sellaisesta ajatusvirheestä, että riippuvuus kyllä tiedostetaan, mutta mallia spesifioitaessa juuri riippuvuutta käytetään jotenkin hämärästi muuttujan sivuuttamisen perusteena.

Eli esimerkiksi sosioekonominen asema on toki älykkyystestien hyvä ennustaja, mutta koska biologisen isän sosioekonominen asema ennustaa lähes yhtä hyvin sekä adoptoidun että biologisten vanhempien kasvattaman lapsen älykkyystestejä, on todennäköistä, että jokin biologisesssa vanhemmuudessa sinänsä, ei niinkään sosioekonomisessa asemassa, on taustalla.

Tässä tapauksessa X on sosioekonomisen aseman proxy-muuttuja, esimerkiksi vanhempien tulot, Y lapsen älykkyys ja Z - puuttuva muuttuja - jokin älykkyyden periytyvän komponentin kuvaava muuttuja. Jos dataa olisi riittävästi, ehdottaisin täksi muuttujaksi vaikkapa lapsen biologisten isovanhempien älykkyystestitulosten keskiarvoa.

"Todellinen" malli siis olisikin muotoa Y = b1 + b2X + b3Z + u'. En epäile, että sosioekonomisen aseman kerroin olisi negatiivinen, mutta uskoisin sen pienenvän kertaluokkaa pienemmäksi kuin alkuperäisessä mallissa.

(*) Tarkalleenottaen nollakorrelaatio on riipuvuuden välttämätön, mutta ei riittävä ehto, mutta en lähde tässä halkomaan hiuksia; riippuvuudet, jotka eivät näy korrelaationa ovat useimmiten jokseenkin patologisia.

Ei kommentteja: