Bez zařazení

Článků v rubrice: 342

Křivé zrcadlo statistiky aneb pozor na správný výklad čísel (2)

Čísla si hrají s naším podvědomím, ovlivňují náš úsudek a podílejí se na vytváření našeho názoru. „Pozor na jejich správnou interpretaci,“ říká RNDr. Simona Poláková. A dodává: „Naprosto nejlépe manipulovatelné číslo, které si dokážete představit, je průměr. Je to snad nejpoužívanější číslo, o kterém vůbec nepřemýšlíme. Obrazně řečeno, často zapomínáme, že i když je průměrná hloubka rybníka jen 60 centimetrů, pořád se můžeme utopit v dvoumetrové jámě.“

Fotogalerie (1)
Ilustrační foto

Představuje se průměr

Proč vlastně dobře polovina vašich známých nedostává plat, který se rovná průměrnému platu v ČR? Průměrná mzda v roce 2011 v ČR byla 26 133 Kč, mediánová mzda 22 239 Kč. Medián i průměr, oba udávají střední hodnoty. Nějakým způsobem popisují typové číslo („typickou hodnotu“). Problém je v tom, že medián udává číslo, pod kterým leží 50 % pozorování, kdežto průměr je střední hodnota, která je velmi citlivá na okrajové hodnoty. Tím, že někdo vydělává v manažerských pozicích enormní částky, k sobě stahuje hodnotu průměru, a zkresluje celý výsledek.

S průměrem i mediánem lze při jejich interpretaci poměrně dost manipulovat. Pokud budu realitním makléřem, a budu se vás snažit přesvědčit, abyste se přestěhovali do konkrétní čtvrti (protože tam přece žijí úspěšní boháči), řeknu, že průměrný příjem obyvatel té čtvrti je třeba 35 000. Pokud budu chtít demonstrovat, že sousedství, ve kterém žijete, je špatné (protože třeba chci, abyste svůj byt či parcelu prodali), povím vám, že průměrná mzda je tam jen 18 tisíc. V obou případech jsem vycházel ze stejných čísel, sáhnul jsem ale po jiné střední hodnotě. Jedná se o naprosto běžnou a často využívanou (zneužívanou) záměnu.

Střední hodnotu můžeme popsat třemi způsoby – kromě zmíněného mediánu a aritmetického průměru existuje ještě modus. Ten znamená nejčastější pozorování. Patrný je například tam, kde máme v rámci jednoho balíku dat, například o tělesné výšce mužů a žen dohromady, v grafu dva vrcholy. Dva mody, dvě nejčastější pozorování. Zajímavé u této dvouvrcholové křivky je to, že i medián a průměr nám budou udávat nepřesný, či spíše nereálný výsledek.

Průměr má prostě hezký vzoreček, který se učíme na základní škole,“ shrnuje Poláková. „A od té doby máme asi pocit, že je to to správné číslo. Otázkou je, kolik lidí dnes slyšelo o mediánu, a kolik jej vůbec dovede vypočítat.“

Praktické příklady špatného využití průměru

Jak velké stavět byty? Pokud budete vycházet z průměrné velikosti rodiny, skončíte jako stavitel asi špatně. Průměrně velkých rodin je totiž velmi málo. Ano, průměrně velká rodina jsou skutečně čtyři, ale máme tu i milion „singles“, a řadu lidí, kteří mají naopak čtyři či pět dětí.

Dalším oblíbeným trikem je průměrná mzda v podniku. Pokud chcete ukázat, že se firmě a jejím zaměstnancům daří, proplatíme majitelům-zaměstnancům a manažerům zisk v podobě prémií a budeme mít velké průměrné platy. A firma je hodná, že má vlastně nízký zisk, protože investuje všechno zpět do zaměstnanců. Jde to i opačně. Pokud jste v odborech a chcete dokázat, že všichni zaměstnanci třou bídu s nouzí, budete uvádět dohromady mzdu za plné i částečné úvazky. Zase to stáhne průměr krásně dolů.

Pozor také na variabilitu dat,“ podotýká Poláková. „K tomu, abyste rozjeli vlastní oděvní podnik, vám rozhodně nebude stačit údaj o průměrné velikosti obyvatelstva.“

Vzorky, příliš malé i příliš velké

To, že čtyři z pěti zubních lékařů doporučují nějakou zubní pastu, nemusí být nutně lež. Skutečně to může být výsledek nějakého sofistikovaného výzkumu. Otázkou je, jestli se ptali pěti tisíc nebo jen pěti zubních lékařů. Pro interpretaci je třeba mít i zdravý rozum.

Pokud máte vzorek dostatečně malý, neutratíte tolik peněz na sbírání dat, a jednou vám to určitě vyjde. Pokud takový výzkum zadáte řekněme pěti firmám, minimálně jednou se setkáte s takovým výsledkem, jaký skutečně chcete slyšet, a ten pak uvedete. Na druhou stranu, pokud máte příliš velký vzorek, vyjde vám… s prominutím každá blbost. I minimální závislost, která je slabá a v praxi nemá smysl. Proto by všude měly být uváděny dva údaje – průkaznost testu a počet pozorování. To je sice běžné v odborné literatuře a vědeckých pracích, ale do normálních výstupů pro veřejnost se tato čísla nedostanou.

Další opomíjenou věcí je také vzácnost sledovaného jevu a pravděpodobnost jeho odhalení. Za příklad, jak špatně naplánovat pokus, by mohly sloužit výsledky reálného výzkumu, který měl prokázat vliv očkování proti obrně na zdraví dětí. Ze 450 očkovaných dětí neonemocnělo žádné. Což je veskrze dobrá zpráva. Jenže z kontrolní skupiny 680 neočkovaných dětí také žádné neonemocnělo obrnou. Čili studie v zásadě vyšla špatně, očkování nepomáhá. Problém je v tom, že prevalence této nemoci (že nějaké dítě skutečně onemocní), je asi jen jedno promile. Takže aby tento test měl smysl, bylo by zapotřebí 15-20krát více dětí.

Statistická chyba by se měla přiznávat, je to normální chyba každé statistiky,“ připomíná Poláková. „Jenže je celkem pochopitelné, že napsat do novin: „obyvatelé schvalují kroky prezidenta, přičemž statistická chyba činí 70 %“, je věcí, která se velmi pravděpodobně prostě nestane.“

Nekup to! Procenta a slevy útočí

Jistě jste už také někde viděli: „Kupte teď a ušetříte 100 %“. Proč to tedy není vlastně zadarmo? Ve skutečnosti se jedná o padesátiprocentní slevu, protože zmíněných 100 % je počítáno z už zlevněné částky. I proto můžeme někdy narazit na kuriózní slevu 150 %.

S procenty se dá manipulovat i ve zprávách o hospodaření. Můžeme se dočíst, že díky recesi snížila firma platy o 20 %. Příští rok se jim ale dařilo lépe, a tak navýšila platy o 25 %. Opravdu tím vrátila zaměstnancům čtvrtinu platu? Pravda nebo lež? Pokud by se těch dvacet pět procent počítalo z nižšího platu, tak jim ve skutečnosti nevrátila čtvrtinu, ale pětinu.

To, že matematika dělá spoustě lidí problémy, demonstruje i „sčítání procent“. Pokud v loňském roce veškeré věci podražily o pět procent, a já nakoupil dvacet různých věcí, o kolik jsem zaplatil navíc? Mnoho lidí řekne, že o 100 %, což je děsivé. Životní náklady se za rok zřejmě zdvojnásobily!

Nesčítejte jablka s hruškami,“ říká Poláková, „A dávejte si prosím pozor na překrývající se věci. Z dílny podobných nápadů bychom mohli vylovit i matematický důkaz toho, že děti vůbec nechodí do školy: pokud z 365 dní do roka děti ve své podstatě 33 % času prospí (122 dní), 12 % projí (45 dní), 1/6 roku jsou letní prázdniny (62 dní), 30 dní připadá na prázdniny jarní, vánoční a svátky, a 2/7 roku připadá na soboty a neděle (106 dní), nemají ani den na to, aby se do školy vypravily.

Děti nosí čáp, máme důkaz

Kouřící studenti mají ve škole horší výsledky. A nemůže to být také naopak? Že by studenti, třeba nešťastní ze svých špatných výsledků, začali kouřit? Výsledný graf bude stejný, také statistický výsledek, ale co se skutečně děje? Je zapotřebí dát si pozor na kauzální závislost dějů.

Pozor také na třetí faktor! Opravdu počet rozvodů roste s cenou benzínu? Ano, prakticky cokoliv, co od padesátých let roste, může být pozitivně korelováno s cenou benzínu. Souvisí letecká neštěstí s množstvím prodaných ledniček? Zajisté. Jedná se o dva rostoucí jevy, které však spolu vzájemně nesouvisí, a roli tu sehrává onen neznámý, třetí faktor, nazvěme ho rostoucí využívání technologií. Pokud je však vyneseme proti sobě, získáme překrásný výsledek.

Velice názorný příklad tohoto jevu, velmi populární na hodinách biostatistiky prof. Lepše, je důkaz, že čáp nosí děti. Vychází z reálných dat z Norska. Pokud proti sobě vynesme počet párů hnízdících čápů v okrese, a počet narozených dětí, vidíme tu jasnou závislost. Čili – děti nosí čápi a bohužel do některých okresů zalétají méně. Jak je to možné? Více domů a lidí v sídlech znamená jednoznačně více dětí. A pochopitelně, kde je více domů a sídel, tam bude existovat i více komínů, míst ideálních pro hnízdění čápů. Navíc je celý výsledek ovlivněn i severo-jižním gradientem (a na severu se skutečně nerodí moc dětí, ani nehnízdí moc čápů), tu máme krásný příklad dvou nesouvisejících věcí, které se přitom tak krásně a názorně doplňují.

Častým problémem je také to, že se kauzální závislosti představují způsobem, jako kdyby uvedená závislost měla lineární charakter a grafy rostly či klesaly donekonečna,“ popisuje Poláková. „Například třeba při zavlažování a velikosti zemědělské produkce. Graf nám jasně říká, že čím více vody, tím lepší zemědělská produkce. Ale já bych s takovým grafem určitě nešla za zemědělcem, kterému povodeň vyplavila pole, stojí mu tam právě metr vody, a já bych měla gratulovat k záruce největší možné úrody. Je třeba uvažovat o každém vztahu, zachyceném na grafu, v jeho realistickém rozpětí.“


Cyklus přírodovědných přednášek ScienceZOOM se realizuje pod záštitou Jihočeské univerzity v Českých Budějovicích. Je financován z Evropského sociálního fondu Evropské unie. Hlavním cílem tohoto projektu je šířit poznatky vědy a výzkumu mezi širokou veřejností – od studentů základních škol až po vědeckovýzkumné pracovníky. Přímým nástrojem k dosažení tohoto cíle je především motivace cílové skupiny k aktivnímu zapojení cílové skupiny do jednotlivých aktivit projektu pomocí popularizačních workshopů, seminářů, roadshow, rozvoje talentů apod. Další vzdělávání vědeckých a výzkumných pracovníků vede k osvojení dovedností, které jsou nezbytné ke schopnosti zaujmout, motivovat a správně prezentovat poznatky vědy a výzkumu.

Radomír Dohnal
Poslat odkaz na článek

Opište prosím text z obrázku

Nejnovější články

Mangan z chvaletických odkališť

Ve světě roste poptávka po manganu - kovu důležitém pro výrobu baterií (zejména do rozvíjejících se elektromobilů) a pro chemický a ocelářský průmysl. A roste i jeho cena. Kanadská firma Euro Manganese již několik let dělá průzkumy na odkalištích, která ...

Fyziklání 2020

Dne 14. 2. 2020, tedy ještě před uzavřením škol kvůli koronavirové epidemii, se uskutečnila mezinárodní fyzikální soutěž pro týmy středoškoláků Fyziklání 2020, kterou pořádá skupina vysokoškolských studentů FYKOS (Fyzikální korespondenční seminář).

Krev od vyléčených pacientů se může stát lékem na Covid-19

Tento týden v New Yorku začíná test experimentální terapie současné pandemické nemoci Covid-19, způsobené novým koronavirem. Tento typ terapie je znám již více než 100 let, byl použit v roce 1918 při pandemii tzv. španělské chřipky. Tehdy nebyly k dispozici žádná antivirotika ani očkování.

www.rouskyvsem.cz.

Je období řádícího koronaviru způsobujícího nemoc Covid-19. Podpořme dobrou věc, nic nás to nestojí. V této vypjaté situaci lze na internetu najít spoustu informací. Některé jsou ověřené, jiné typické “fakenews”. A to je problém. Proto se tým stojící za webem rouskyvsem.

Sluncem poháněné vzducholodě

Byly doby, kdy byly vzducholodě považovány za budoucnost létání. Pak upadly v zapomnění, aby se nyní vrátily jako „zelenější“ způsob dopravy. Britská firma Varialift Airships plánuje stavět vzducholodě poháněné sluncem, které by se měly používat v mezinárodní přepravě nákladů.

Nejnovější video

Bez jaderné energie se ve vesmíru daleko nedostaneme

Krátké výstižné video z dílny Mezinárodní agentury pro atomovou energii ve Vídni ukazuje využití jaderné energie a jaderných technologií při výzkumu vesmíru. Ne každý ví, že jádro pohání vesmírné sondy už po desetiletí. Zopakujme si to. (Film je v angličtině.)

close
detail