Reddit - statisztika - Miért létezik a 10%-os feltétel a normál mintaeloszlásnál?

Kicsit magam is összezavarodtam, de lehet, hogy összekevered a mintaméret és a válaszarány fogalmát? Ezek nem ugyanazok.

Először is, NEM kell 30.000-es minta a jó paraméterbecsléshez (ill, a populáció jellemzőinek becsléséhez), ha jó a mintavétel.

Második, ahol a mintavétel önmagában bizonytalansági tényezőt vezet be az általunk ismert és a populáció valódi értékei közé, a felmérés <100%-os válaszadási aránya egy újabb bizonytalansági tényezőt vezet be.

Egy 300 000-es populáció esetén tehát egy mondjuk 300-as mintaméret (most csak a fejem tetejére gondolok, nem néztem utána… bocs?) elegendő lehet a szükséges pontosság eléréséhez a populáció értékeinek becsléséhez. Vagy talán többre van szükség; mondjuk, hogy N=1000, ami sok célra elég nagynak számít.

És most tegyük fel, hogy 40%-os válaszadási arányt kapunk. Tehát kiküld 1000 kérdőívet (mondjuk pusztán véletlenszerűen), és csak 400-at kap vissza. A 400 önmagában elég jó mintanagyság, de ebben a kontextusban ez már problémás: ha eleve csak véletlenszerűen vettél volna mintát 400 egyedből (és mindannyian válaszoltak volna), akkor torzítatlan becsléseket kapnál arról, hogy mi történik a populációban. Most azonban egy 1000 fős mintából nem véletlenszerűen kiválasztott 400 egyedről van szó. Ez a nem véletlenszerű tényező áll a probléma aközött, amit tudsz, és amit a mintádban kellett volna lennie (nem pedig a populációból való mintavétel véletlenszerű tényezője). Ez a nem-véletlenszerűség valószínűleg torzítás – de ez a legrosszabb fajta, mert valószínűleg nem is tudhatod, hogy milyen torzításról van szó (bár nagyon keményen próbálhatod kitalálni, ha publikálni akarsz). Egy volt amerikai tisztviselő szavaival élve, ez egy “ismeretlen ismeretlen”. Tehát most az összes paraméterbecslésed nem csak bizonytalan, hanem nagy valószínűséggel pontatlan is egy bizonyos irányba, de nem tudod, hogy ez az irány milyen irányú, vagy hogy mennyivel tévednek.

Egy olyan világba merülve, amelyet nem sokat tanulmányoztam, azt hiszem, vannak módszerek annak becslésére, hogy mekkora torzítást okozhattak a felmérési tanulmányok különböző tökéletlen válaszadási arányai, de azt hiszem, hogy a lehetséges torzítás összege elég gyorsan növekszik, ahogy a válaszadási arány 100% alá csökken.

Reddit – statisztika – Miért létezik a 10%-os feltétel a normál mintaeloszlásnál?

Vélemény, hozzászólás? Kilépés a válaszból