Sám jsem z toho trochu zmatený, ale možná jste si spletl pojmy velikost vzorku a počet odpovědí? Není to totéž.
Za prvé, pro dobré odhady parametrů NEpotřebujete vzorek o velikosti 30 000 (tj,
Druhé, tam, kde výběr vzorku sám o sobě vnáší prvek nejistoty mezi to, co znáte, a to, jaké jsou skutečné hodnoty populace, míra odezvy na průzkum <100 % vnáší další prvek nejistoty.
Takže při populaci 300 000 by velikost vzorku řekněme 300 (teď to beru z hlavy, nehledám to… promiňte?) mohla být dostatečná pro získání přesnosti, kterou potřebujete při odhadu hodnot populace. Nebo možná potřebujete víc; řekněme, že N=1000, což je pro mnoho účelů dost velké.
A teď předpokládejme, že získáte míru odpovědí 40 %. Rozesíláte tedy 1000 dotazníků (řekněme čistě náhodně) a zpět dostanete pouze 400 dotazníků. 400 je samo o sobě docela dobrá velikost vzorku, ale v tomto kontextu je to nyní problematické: kdybyste v první řadě prostě náhodně vybrali 400 jedinců (a všichni by odpověděli), měli byste nezkreslené odhady toho, co se děje v populaci. Nyní však máte 400 jedinců, kteří byli náhodně vybráni ze vzorku 1 000 jedinců. Tento nenáhodný faktor stojící mezi tím, co víte, a tím, co mělo být ve vašem vzorku, je problém (nikoliv náhodný faktor výběru vzorku z populace). Tato nenáhodnost je pravděpodobně zkreslení – ale to je ten nejhorší druh, protože pravděpodobně ani nemůžete vědět, o jaký druh zkreslení se jedná (i když se můžete hodně snažit odhadnout, pokud se snažíte publikovat). Řečeno slovy jednoho bývalého amerického úředníka, je to „neznámá neznámá“. Takže nyní jsou všechny vaše odhady parametrů nejen nejisté, ale s největší pravděpodobností jsou nepřesné v určitém směru, ale nevíte, v jakém směru a o kolik se liší.
Pouštím se do světa, který jsem příliš nestudoval, ale věřím, že existují způsoby, jak odhadnout, jak velké zkreslení mohlo vzniknout v důsledku různých nedokonalých podílů odpovědí na průzkumné studie, ale můj odhad je, že výše potenciálního zkreslení roste docela rychle, jakmile podíl odpovědí klesne pod 100 %.
.