If you're seeing this message, it means we're having trouble loading external resources on our website.

Pokud používáš webový filtr, ujisti se, že domény: *.kastatic.org and *.kasandbox.org jsou vyloučeny z filtrování.

Hlavní obsah

Pravidlo 10 % pro přibližnou nezávislost

Ve videu si názorně ukážeme, jak lze použít pravidlo 10 % (nebo 5 %), pokud nemáme splněnou důležitou podmínku pro binomické rozdělení, a to nezávislost. Pokud totiž budeme mít dostatečně velkou populaci, ze které budeme vybírat vzorek, výsledná pravděpodobnost bude velmi blízko pravděpodobnosti při skutečné nezávislosti.

Chceš se zapojit do diskuze?

Zatím žádné příspěvky.
Umíš anglicky? Kliknutím zobrazíš diskuzi anglické verze Khan Academy.

Transkript

Podíváme se na třetí podmínku binomického rozdělení, která je častým kamenem úrazu. Jedná se o podmínku, že jednotlivé pokusy musí být nezávislé, neboli že výsledek jednoho pokusu neovlivní výsledky žádného jiného pokusu. Problém s touto podmínkou nastane například při průzkumu veřejného mínění, kdy se ptáme řady lidí, co si myslí o nějakém tématu. Problém je v tom, že jakmile se zeptáme prvního člověka, tak ten už je vyřazen ze skupiny lidí nebo z té populace, které se ptáme. A při výběru dalšího člověka už tak jsme ochuzeni o tuhle jednu možnost a nejedná se o nezávislé pokusy. Na druhou stranu ten jeden odebraný člověk je tak zanedbatelným procentem celé populace, že by to nemuselo vadit. Proto se můžeme setkat s takzvaným pravidlem deseti procent anebo přísnějším pravidlem pěti procent. Toto pravidlo říká, že pokud vzorek, který vybíráme, tedy ti lidé, kterých se ptáme, nepřesáhne deset procent populace, to znamená deset procent těch lidí, ze kterých vybíráme, tak můžeme předpokládat, že jednotlivé pokusy jsou přibližně nezávislé. Výsledná pravděpodobnost tedy nebude přesně taková, jaká má teoreticky být, ale přibližně bude podobná. Podíváme se na příklad, který nám celé pravidlo lépe ilustruje. Uvažujme situaci, kdy máme nějakou třídu žáků, ve které je padesát procent chlapců a 50 procent dívek. Z této třídy budeme vybírat tříčlennou skupinu, tedy tři žáky, budeme je vybírat samozřejmě náhodně a náhodná proměnná X bude označovat počet chlapců ve vybrané tříčlenné skupině. Nás bude zajímat, jaká je pravděpodobnost, že všichni tři vybraní žáci budou chlapci. Neboli pravděpodobnost, že X se rovná tři. Schválně zde není zadaný počet žáků ve třídě, protože právě to nás zajímá, jaký má vliv na výsledek výpočtu. Pojďme nejprve zkontrolovat, jestli tato úloha splňuje podmínky binomického rozdělení. Za prvé, musí být pevně daný počet pokusů. To zde máme, vybíráme tři žáky. To jsou tři pokusy. Za druhé, každý pokus musí jít vyhodnotit jako úspěch či neúspěch. To zde také máme. Chlapec je v tomto případě úspěch. Za třetí, mají být jednotlivé pokusy nezávislé. To zde splněno není, proto jsme tento příklad vybrali, protože jakmile vybereme jednoho žáka ze třídy, tak ten už je odstraněn z té skupiny, ze které vybíráme, a tudíž se nám změní poměr chlapců a dívek. A při dalším pokusu už bude pravděpodobnost, že vybereme chlapce, jiná. Za čtvrté, stejná pravděpodobnost úspěchu ve všech pokusech, to zde splněno je, protože zde se jedná o pravděpodobnost v každém jednotlivém pokusu bez ohledu na výsledky ostatních pokusů. Podobný příklad jsme už viděli při rozpoznávání binomických rozdělení. A tehdy jsme ho zamítli právě kvůli nesplnění třetí podmínky. Tentokrát se pojďme podívat, jak tato třetí podmínka ovlivňuje výsledky a to v závislosti na tom, kolik je ve třídě žáků. Vytvoříme si jednoduchou tabulku, ve které budeme mít tři sloupečky, v prvním bude počet žáků ve třídě. To je právě velikost populace, o které hovoří pravidlo deseti procent. Velikost nebo počet objektů, počet lidí, počet žáků, ze kterých vybíráme. Ve druhém sloupečku bude přesná pravděpodobnost, že vybereme přesně tři chlapce. A ve třetím sloupečku si vypočítáme velikost vzorku, ale relativní velikost vzorku vzhledem k velikosti populace, to znamená počet vybíraných žáků, 3, vydělíme číslem n, což je počet žáků ve třídě. Nejprve si pojďme vzít poměrně malou třídu s dvaceti žáky. V takové třídě, jaká je přesná pravděpodobnost, že vybereme tři chlapce? Při výběru prvního žáka máme na výběr deset chlapců z dvaceti žáků, to znamená, pravděpodobnost úspěchu je deset ku dvaceti. Jakmile už vybereme jednoho chlapce, zbývá pouze devět chlapců z devatenácti žáků. A pokud vybereme dva chlapce, tak pro třetí pokus už nám zbývá pouze osm chlapců z celkového počtu osmnácti žáků. Výsledná pravděpodobnost je přibližně deset a půl procenta. Velikost vzorku v této třídě jsou 3 vybírání žáci z dvaceti možných. To je tři ku dvaceti neboli 15 procent. To je více než deset procent, o kterých hovoří naše pravidlo. To znamená, tato třída, tato situace nesplňuje pravidlo deseti procent a není tak možné zanedbat podmínku nezávislosti. Ale je potřeba počítat takto přesně, jako jsme to právě udělali. Dále se pojďme podívat na třídu s třiceti žáky a opět stejným postupem vypočítáme pravděpodobnost. V prvním pokusu 15 ku 30ti. Poté ubude jeden chlapec, zbývá 14 z dvaceti devíti. A do třetice 13 z 28. Výsledkem je pravděpodobnost přibližně 11,2 procenta. Velikost vzorku v této třídě je 3 ku 30ti, což je 10 procent. Přesně hranice, o které hovoří naše pravidlo, to znamená podle pravidla deseti procent zde už bychom mohli nezávislost zanedbat a počítat přibližně tak, že pravděpodobnost ve všech pokusech je stejná a neovlivněná. Pojďme se podívat na ještě větší třídu s šedesáti žáky. Zde opět stejným a přesným výpočtem pravděpodobnosti dojdeme k výsledku nebo k výsledné pravděpodobnosti přibližně 11 celých 9 procenta. Velikost vzorku je v tuto chvíli pět procent populace. Situace tak splňuje i přísnější hranici pěti procent. Podíváme se ještě na jednu třídu s opravdu velkým počtem žáků, uděláme si trochu víc místa. A budeme uvažovat třídu, která má 500 žáků. Princip výpočtu je stále stejný, jenom se nám trochu zvětší čísla ve zlomcích, 250 chlapců, 249 chlapců a 248 chlapců ve třetím pokusu. Výsledkem je pravděpodobnost přibližně 12 celých 4 procenta. Velikost vzorku v tomto případě je pouhých 0 celá 6 procenta populace. No a konečně, jak by to dopadlo, kdyby pokusy byly skutečně nezávislé. Jinými slovy v každém pokusu bez ohledu na výsledky předchozích pokusů by byla šance padesát na padesát, čili jedna polovina. Výsledná pravděpodobnost je tak jedna polovina krát jedna polovina krát jedna polovina, což je přesně 12 a půl procenta. Pokud bychom tedy zanedbali podmínku nezávislosti, pak ve všech předchozích případech by nám vyšla pravděpodobnost 12 a půl procenta. Vidíme, že u první třídy s dvaceti žáky by zanedbání vedlo k poměrně velké chybě. Místo přesné hodnoty deset a půl procenta by nám vyšla odhadnutá pravděpodobnost 12 a půl procenta. To je sice rozdíl pouze dvou procentních bodů, ale relativně místo 10 a půl 12 a půl procenta, to je skoro dvacetiprocentní chyba. První třída také nesplňuje podmínku deseti procent, protože vzorek tří žáků tvoří 15 procent populace. U druhé třídy už je přesný výsledek 11,2 procenta blíže odhadnutému nebo přibližnému výsledku 12 a půl procenta. A podle pravidla deseti procent zde už můžeme nezávislost zanedbat a spleteme se tak zhruba o 1,3 procentního bodu. Jak žáků ve třídě přibývá, postupně se i přesná pravděpodobnost více a více blíží dvanácti a půl procentům. Když se podíváme na poslední třídu s pěti sty žáky, tak i tam bychom přesně teoreticky měli říct, to nejsou nezávislé pokusy. Ubývají nám chlapci, to znamená musíme počítat přesně tak, jak je ukázáno v tomto řádku. Ale vidíme, že ve výsledku se už moc nespleteme, když řekneme, jsou to nezávislé pokusy. Přibližně ano, ti tři vybraní žáci jsou velmi malým procentem populace. Pojďme si říct, jsou to nezávislé pokusy. Přesně toto zanedbání se dělá například u průzkumu veřejného mínění, kdy pokud se tisíce Čechů zeptáte na nějakou otázku, tak vzhledem k celkové populaci deseti milionů je těchto vybraných tisíc Čechů tak zanedbatelným procentem, že můžete říct ano, jsou to nezávislé pokusy. Na závěr je třeba zdůraznit ještě jednu věc. Z tohoto videa by se mohlo zdát, že menší vzorky jsou lepší než velké vzorky. To tak ale v žádném případě není. Toto pravidlo hovoří jenom o tom, že když máme malý vzorek relativně k velikosti populace, tak můžeme zanedbat podmínku nezávislosti. Jinými slovy, lépe se nám s ním bude počítat. Ale větší vzorky dávají lepší statistické výsledky.