Állítólag Churchill mondta, hogy “csak abban a statisztikában hiszek, amit én magam hamisítok” vagy hogy “van kis hazugság, nagy hazugság, meg a statisztika”. Mondjuk nagy valószínűséggel nem mondta egyiket sem, de sok helyen idézik, és jól hangzik.
 
De a lényeg benne van: nem a számok hazudnak, hanem az azokat felhasználó emberek.
Nem kell feltétlen azt mondani, hogy valaki csal vagy manipulálja az eredményt. Az előző bejegyzében említett példákból is jól látszik, hogy a megfelelő módszer (vagy pont a nem megfelelő módszer) megválasztásával más-más eredményt kaphatunk ugyanazokból az adatokból.
 
Lehet például játszani a kiválasztott minta torzításával vagy egyszerűbben: a nekem nem tetsző adatok kihagyásával. Egyszerű példa: kit kérdezünk meg a vállalkozók közül, ha azt kérdezzük, hogy mennyire elégedettek a kormány intézkedéseivel? A kisvállalkozókat, akinek a terhei és adminisztrációja évről-évre nő, vagy nyolc-tíz nagyvállalatot, akik ún. kormányközeliek? Más-más minta, és nagyon más-más lesz az eredmény, de ezt már a minta kiválasztásakor sejteni lehetett.
 
Nem annyira utolérhető, de mégis egyszerű: kérdezzük meg csak a kisvállalkozókat, de akik az online pénztárgépre panaszkodik, vagy az adminisztrációs terhekre, azoknak a válaszát nem vesszük figyelembe. Mert mondjuk cinikusan vagyunk, és a kérdésben ezt alapban kizártuk, vagy nem vagyunk cinikusak, csak azt kaptuk ukázba, hogy a kijött szám nem túl szép. Vagy a válaszok közül vegyük ki a kiskereskedőket, mert őket az utóbbi pár évben eleget csesztették. Vagy éppen a nagykereskedőket hagyjuk ki, akiknek az online pénztárgép nem is kötelező, mert számlát adnak minden esetben. Érthető, hogy az eredmény máris teljesen mást fog mutatni.
 
Aztán van az a lehetőség, amikor kicsit a kérdés már alapban manipulatív, vagy amikor a kérdés és a válasz nem áll összefüggésben a levont következtetéssel. Nagyszerű példa erre a nemzeti konzultáció. 
 
Melyik kérdésre ki hogyan válaszolna:
  1. Meg akarja Ön védeni Magyarország határait az illegális bevándorlókkal szemben?
  2. Rúgjunk fel minden nemzetközi megállapodást és építsünk fel egy új vasfüggönyt?
 
Nem egyszerű, ugye? Ha pedig a fenti két kérdés bármelyikére adott bármilyen válaszból azt vonjuk le, hogy a lakosok túlnyomó többsége támogatja, hogy a miniszterelnök bármilyen kontrol nélkül akárhova katonákat irányítson az országba, akárminek a leverésére, akkor értjük azt is, hogy az adatokból le lehet vonni olyan következtetést, aminek köze nincs az adatokhoz.
 
Lehet az is baj, hogy egy bizonyos adatsorból levont következtetést olyanokra is alkalmazzuk, akik nem is szerepeltek az eredeti mintában. Felmérjük, hogy a nőknek mi az általános hajhosszuk, sima számtani középpel, majd azt mondjuk, hogy ez az átlag hajhosszúság Magyarországon. Vagy csak a 18-49-es női-férfi korosztályt vizsgáljuk, de aztán szintén az egész országra mondjuk ki a végeredményt. 
 
Erről eszembe jutott az alma és körte esete, vagyis hogy kihozunk valamilyen eredményt, és azt nem az ugyanolyan kategóriásban levő eredményekhez hasonlítjuk. Erre nagyon jó példa a televíziós nézettségi adatok. Ezek a nézettségi adatok több sávra vannak osztva. A tévék szempontjából a legfontosabb a 18-49 vagy 18-59 korosztály, mert ők a fizetőképes kereslet, akik után fizetnek a reklámokért. Ez a standard ebben az iparágban. Ha egy műsor nézettségét mondjuk, akkor 99%, hogy a fenti két sáv valamelyikére (de inkább a 18-49-re) vonatkozik. De persze mondhatjuk azt is, hogy a mi adónkat ötmillió néző nézte, mert beleszámolunk mindenkit az egy napos csecsemőtől a 100+ éves nénikéig. Igazunk van? Igazunk van, ennyien nézték. Hasonlíthatjuk a többi adó adatához, akik csak a 18-49-et nézik? Ezt már nem, hiszen a két esetben teljesen más a minta.
 
Van még olyan, hogy konfidencia határ és hibahatár, amikkel ugyan nem lehet csalni, de ha elhallgatják, akkor azért egy olyan adat hiányzik a statisztika végeredmény mellé, amivel még inkább helyére tudnánk tenni azt az egy darab számot, amit az orrunk alá dörgölnek.
 
Leginkább persze úgy a legegyszerűbb valami nekünk tetsző adatot kihozni, ha a fentiekből egyszerre többet is, és elég kreatívan alkalmazzuk.
 
 
A minta megválasztása a legfontosabb a statisztikáknál. Mivel az értelemszerű, hogy nem lehet minden érintettet megkérdezni, vagy ha mégis, akkor meg úgysem fog mindenki válaszolni, ezért nem kérdeznek meg mindenkit.
 
Meg kell határozni egy célcsoportot, ami jól reprezentálja a vizsgálandó kérdést. Ki kell választani egy megfelelő sokaságot, amiben a vizsgálandó kérdéshez tartozóan mégis a lehető legkülönfélébb egyedek szerepelnek.
 
A minta jó vagy rossz kiválasztásával máris nagyon el tudjuk vinni valamerre a végeredményt. Ha mondjuk egy újszülött-osztályon kérdezzük meg, hogy elég-e az átlagnyugdíj (egy statisztikára épülve másik statisztikát készíteni már halmozottan ad lehetőséget a visszaélésre), akkor nem lesz az igazi az eredmény. Ugyanígy, ha csak vezetékes telefonon érdeklődünk, hogy kinek van tabletje, akkor a technikát jobban követő fiatalabb korosztály nagy részét simán kihagyjuk, mert ők már inkább csak mobilon vannak.
 
Látjátok? Nem kell feltétlenül csalni, megmásítani egy kapott eredményt. Elég az alapokat szabotálni, vagy a magyarázatot félrevinni, és ugyanabból az eredményből mást-mást tudunk kihozni.
 

A fenti dolgok persze nem ennyire egyszerűek vagy egyértelműek, nem matematikai igényességgel írtam, sok helyen sarkítottam, hogy érthetőbb legyen.

A fenti példák természetesen tökéletesen elrugaszkodtak a valóságtól, mindenféle áthallás, vagy egyből eszetekbe jutó példa csak a véletlen műve, mintden csupán a szemléltetés miatt van.