Hlavní obsah
Pravděpodobnost a kombinatorika
Kurz: Pravděpodobnost a kombinatorika > Kapitola 1
Lekce 4: Binomické rozděleníPravidlo 10 % pro přibližnou nezávislost
Ve videu si názorně ukážeme, jak lze použít pravidlo 10 % (nebo 5 %), pokud nemáme splněnou důležitou podmínku pro binomické rozdělení, a to nezávislost. Pokud totiž budeme mít dostatečně velkou populaci, ze které budeme vybírat vzorek, výsledná pravděpodobnost bude velmi blízko pravděpodobnosti při skutečné nezávislosti.
Chceš se zapojit do diskuze?
Zatím žádné příspěvky.
Transkript
Podíváme se na třetí podmínku
binomického rozdělení, která je častým kamenem úrazu. Jedná se o podmínku, že
jednotlivé pokusy musí být nezávislé, neboli že výsledek jednoho pokusu
neovlivní výsledky žádného jiného pokusu. Problém s touto podmínkou
nastane například při průzkumu veřejného mínění, kdy se ptáme řady lidí,
co si myslí o nějakém tématu. Problém je v tom, že jakmile se zeptáme prvního
člověka, tak ten už je vyřazen ze skupiny lidí nebo z té populace, které
se ptáme. A při výběru dalšího člověka už tak jsme ochuzeni o tuhle jednu
možnost a nejedná se o nezávislé pokusy. Na druhou stranu ten jeden
odebraný člověk je tak zanedbatelným procentem celé populace, že by to
nemuselo vadit. Proto se můžeme setkat s takzvaným pravidlem deseti procent anebo
přísnějším pravidlem pěti procent. Toto pravidlo říká, že pokud vzorek, který
vybíráme, tedy ti lidé, kterých se ptáme, nepřesáhne deset procent populace, to
znamená deset procent těch lidí, ze kterých vybíráme, tak můžeme
předpokládat, že jednotlivé pokusy jsou přibližně nezávislé. Výsledná pravděpodobnost tedy nebude
přesně taková, jaká má teoreticky být, ale přibližně bude podobná. Podíváme se na příklad, který nám celé
pravidlo lépe ilustruje. Uvažujme situaci, kdy máme nějakou třídu žáků, ve
které je padesát procent chlapců a 50 procent dívek. Z této třídy budeme
vybírat tříčlennou skupinu, tedy tři žáky, budeme je vybírat samozřejmě náhodně
a náhodná proměnná X bude označovat počet chlapců ve vybrané tříčlenné
skupině. Nás bude zajímat, jaká je
pravděpodobnost, že všichni tři vybraní žáci budou chlapci. Neboli
pravděpodobnost, že X se rovná tři. Schválně zde není zadaný počet žáků ve
třídě, protože právě to nás zajímá, jaký má vliv na výsledek výpočtu. Pojďme
nejprve zkontrolovat, jestli tato úloha splňuje podmínky binomického rozdělení.
Za prvé, musí být pevně daný počet pokusů. To zde máme, vybíráme tři žáky.
To jsou tři pokusy. Za druhé, každý pokus musí jít vyhodnotit jako úspěch
či neúspěch. To zde také máme. Chlapec je v tomto případě úspěch. Za třetí,
mají být jednotlivé pokusy nezávislé. To zde splněno není, proto jsme tento
příklad vybrali, protože jakmile vybereme jednoho žáka ze třídy, tak ten
už je odstraněn z té skupiny, ze které vybíráme, a tudíž se nám změní poměr
chlapců a dívek. A při dalším pokusu už bude
pravděpodobnost, že vybereme chlapce, jiná. Za čtvrté, stejná pravděpodobnost
úspěchu ve všech pokusech, to zde splněno je, protože zde se jedná o
pravděpodobnost v každém jednotlivém pokusu bez ohledu na výsledky ostatních
pokusů. Podobný příklad jsme už viděli při rozpoznávání binomických rozdělení.
A tehdy jsme ho zamítli právě kvůli nesplnění třetí podmínky. Tentokrát se
pojďme podívat, jak tato třetí podmínka ovlivňuje výsledky a to v závislosti na
tom, kolik je ve třídě žáků. Vytvoříme si jednoduchou tabulku, ve které budeme
mít tři sloupečky, v prvním bude počet žáků ve třídě. To je právě velikost
populace, o které hovoří pravidlo deseti procent. Velikost nebo počet objektů,
počet lidí, počet žáků, ze kterých vybíráme. Ve druhém sloupečku bude přesná
pravděpodobnost, že vybereme přesně tři chlapce. A ve třetím sloupečku si
vypočítáme velikost vzorku, ale relativní velikost vzorku vzhledem k velikosti
populace, to znamená počet vybíraných žáků, 3, vydělíme číslem n, což je počet
žáků ve třídě. Nejprve si pojďme vzít poměrně malou třídu s dvaceti žáky. V
takové třídě, jaká je přesná pravděpodobnost, že vybereme tři
chlapce? Při výběru prvního žáka máme na výběr deset chlapců z dvaceti žáků,
to znamená, pravděpodobnost úspěchu je deset ku dvaceti. Jakmile už vybereme
jednoho chlapce, zbývá pouze devět chlapců z devatenácti žáků. A pokud vybereme dva chlapce, tak pro
třetí pokus už nám zbývá pouze osm chlapců z celkového počtu osmnácti
žáků. Výsledná pravděpodobnost je přibližně
deset a půl procenta. Velikost vzorku v této třídě jsou 3 vybírání žáci z
dvaceti možných. To je tři ku dvaceti neboli 15 procent. To je více než deset procent, o kterých
hovoří naše pravidlo. To znamená, tato třída, tato situace nesplňuje pravidlo
deseti procent a není tak možné zanedbat podmínku nezávislosti. Ale je
potřeba počítat takto přesně, jako jsme to právě udělali. Dále se pojďme
podívat na třídu s třiceti žáky a opět stejným postupem vypočítáme
pravděpodobnost. V prvním pokusu 15 ku 30ti. Poté ubude jeden chlapec, zbývá 14
z dvaceti devíti. A do třetice 13 z 28. Výsledkem je pravděpodobnost přibližně
11,2 procenta. Velikost vzorku v této třídě je 3 ku 30ti, což je 10 procent. Přesně hranice, o které hovoří naše
pravidlo, to znamená podle pravidla deseti procent zde už bychom mohli
nezávislost zanedbat a počítat přibližně tak, že pravděpodobnost ve
všech pokusech je stejná a neovlivněná. Pojďme se podívat na ještě
větší třídu s šedesáti žáky. Zde opět stejným a přesným výpočtem
pravděpodobnosti dojdeme k výsledku nebo k výsledné pravděpodobnosti
přibližně 11 celých 9 procenta. Velikost vzorku je v tuto chvíli pět
procent populace. Situace tak splňuje i přísnější hranici pěti procent.
Podíváme se ještě na jednu třídu s opravdu velkým počtem žáků, uděláme si
trochu víc místa. A budeme uvažovat třídu, která má 500 žáků. Princip výpočtu je stále stejný, jenom
se nám trochu zvětší čísla ve zlomcích, 250 chlapců, 249 chlapců a 248
chlapců ve třetím pokusu. Výsledkem je pravděpodobnost přibližně
12 celých 4 procenta. Velikost vzorku v tomto případě je pouhých 0 celá 6
procenta populace. No a konečně, jak by to dopadlo, kdyby
pokusy byly skutečně nezávislé. Jinými slovy v každém pokusu bez ohledu na
výsledky předchozích pokusů by byla šance padesát na padesát, čili jedna
polovina. Výsledná pravděpodobnost je tak jedna polovina krát jedna polovina
krát jedna polovina, což je přesně 12 a půl procenta. Pokud bychom tedy
zanedbali podmínku nezávislosti, pak ve všech předchozích případech by nám
vyšla pravděpodobnost 12 a půl procenta. Vidíme, že u první třídy s
dvaceti žáky by zanedbání vedlo k poměrně velké chybě. Místo přesné
hodnoty deset a půl procenta by nám vyšla odhadnutá pravděpodobnost 12 a
půl procenta. To je sice rozdíl pouze dvou
procentních bodů, ale relativně místo 10 a půl 12 a půl procenta, to je skoro dvacetiprocentní chyba.
První třída také nesplňuje podmínku deseti procent, protože vzorek tří žáků
tvoří 15 procent populace. U druhé třídy už je přesný výsledek 11,2
procenta blíže odhadnutému nebo přibližnému výsledku 12 a půl procenta. A
podle pravidla deseti procent zde už můžeme nezávislost zanedbat a spleteme
se tak zhruba o 1,3 procentního bodu. Jak žáků ve třídě přibývá, postupně se i
přesná pravděpodobnost více a více blíží dvanácti a půl procentům. Když se
podíváme na poslední třídu s pěti sty žáky, tak i tam bychom přesně
teoreticky měli říct, to nejsou nezávislé pokusy. Ubývají nám chlapci,
to znamená musíme počítat přesně tak, jak je ukázáno v tomto řádku. Ale vidíme,
že ve výsledku se už moc nespleteme, když řekneme, jsou to nezávislé pokusy.
Přibližně ano, ti tři vybraní žáci jsou velmi malým procentem populace. Pojďme
si říct, jsou to nezávislé pokusy. Přesně toto zanedbání se dělá například u
průzkumu veřejného mínění, kdy pokud se tisíce Čechů zeptáte na nějakou otázku,
tak vzhledem k celkové populaci deseti milionů je těchto vybraných tisíc Čechů
tak zanedbatelným procentem, že můžete říct ano, jsou to nezávislé pokusy. Na
závěr je třeba zdůraznit ještě jednu věc. Z tohoto videa by se mohlo zdát, že
menší vzorky jsou lepší než velké vzorky. To tak ale v žádném případě
není. Toto pravidlo hovoří jenom o tom, že když máme malý vzorek relativně k
velikosti populace, tak můžeme zanedbat podmínku nezávislosti. Jinými slovy,
lépe se nám s ním bude počítat. Ale větší vzorky dávají lepší statistické
výsledky.