3  Uzorci i statističko zaključivanje

3.1 Populacija i uzorak

Započnimo naše putovanje kroz statistiku upoznavanjem dva osnovna pojma: populacije i uzorka. Pre svega, važno je razjasniti čestu zabludu - populacija u statistici nema veze s brojem stanovnika neke zemlje. Ovi pojmovi su direktno povezani sa specifičnim istraživačkim problemom koji proučavamo.

Populacija predstavlja skup svih entiteta koji su predmet našeg istraživanja. To mogu biti ljudi, ali i mnogo toga drugog. Evo nekoliko primera:

  1. Pri istraživanju stavova srednjoškolaca u Srbiji, populacija obuhvata sve srednjoškolce u zemlji.
  2. Kod proučavanja kriminalnih aktivnosti među penzionerima u Vojvodini, populacija je (nadamo se) manja grupa - svi penzioneri u Vojvodini koji se bave kriminalnim radnjama.
  3. Populacija se ne mora sastojati samo od ljudi. To mogu biti firme, institucije, Instagram profili, sajtovi, političke partije, pa čak i čitave države.

Suštinski je bitno shvatiti da populacija predstavlja celokupan skup entiteta na koje se odnosi naše istraživačko pitanje. Bez obzira na veličinu ili prirodu, populacija je uvek određena našim istraživačkim fokusom.

Drugim rečima, populacija je skup svih entiteta koji su u središtu našeg istraživačkog poduhvata. Zanimljivo je da je populacija gotovo uvek nedostupna za potpuno istraživanje. Bez obzira na to koliko je populacija velika ili mala, praktično je nemoguće istraživanjem obuhvatiti baš svakog njen element.

I upravo tu dolazimo do suštine statističkog zaključivanja: imamo u vidu određenu populaciju, ali pošto je ne možemo u potpunosti istražiti, usmeravamo se na uzorak - jedan mali deo populacije koji možemo detaljno proučiti. Zamislite sledeću situaciju: pokušavate da procenite ukus velikog lonca gulaša probajući samo jednu kašiku. Pri tome je veličina te „kašike“ često ograničena praktičnim uslovima, poput vremena i raspoloživog budžeta.

Kako dobijamo podatke u uzorku? To je oblast metodologije prikupljanja podataka i time se nećemo detaljno baviti. Za nas je ključan koncept prostog slučajnog uzorka - uzorka koji daje svakom članu populacije jednaku verovatnoću da bude izabran. Proces uzorkovanja funkcioniše kao lutrija, gde mi kao istraživači nemamo uticaj na to ko će biti „izvučen“. Iz perspektive statistike, uzorak posmatramo kao loto bubanj iz kojeg nasumično izvlačimo kuglice (jedinice uzorka).

U društvenim naukama često se koristi termin „reprezentativan“ uzorak. Značenje ovog termina je, međutim, nejasno i varira među istraživačima. Metodološki udžbenici sociologije nude drugačije objašnjenje ovog termina u poređenju sa udžbenicima psihologije ili statistike. U ovom udžbeniku taj pojam nećemo koristiti.

Uobičajeno shvatanje reprezentativnosti podrazumeva da distribucija različitih obeležja (pol, klasa, obrazovanje, starost, zarade) u uzorku mora odgovarati distribuciji tih obeležja u populaciji. Na primer, ako u Srbiji ima 21% visokoobrazovanih, 45% srednje obrazovanih i 34% osoba sa osnovnim obrazovanjem, očekivali bismo slične proporcije u našem uzorku. Mnogi metodološki priručnici tvrde da je ovako definisana reprezentativnost neophodan preduslov za dalje analize.

Međutim, uzorkovanje nije tema ovog udžbenika i nećemo se zadržavati na konceptima čije je značenje sporno. Umesto toga, usredsredićemo se na podatke dobijene prostim slučajnim uzorkom. U narednim poglavljima ćemo videti kako takve podatke možemo koristiti za odgovaranje na naša istraživačka pitanja.

Neki autori tvrde da je sam koncept reprezentativnosti logički paradoksalan i samim tim neupotrebljiv (Stuart, 1987). Razmislimo: da bismo utvrdili da li uzorak verno predstavlja populaciju, morali bismo imati detaljno znanje o samoj populaciji. Ali kada bismo zaista posedovali takvo znanje, uzorak nam ne bi ni bio potreban. Upravo u ovoj cirkularnosti leži suštinski problem koncepta reprezentativnosti.

Važnije je doći do ispravnog zaključka tako da distribucija ishoda u uzorku odgovara distribuciji ishoda u populaciji. Na primer, kada na osnovu podataka iz uzorka utvrdimo da muškarci u Srbiji imaju viša primanja u odnosu na žene, želimo biti sigurni da te razlike postoje i u populaciji. Ovo zapravo nije povezano s tim da li vaš uzorak sadrži 39%, 49% ili 59% muškaraca.

Po završetku istraživanja na uzorku, prikupljeni podaci se organizuju u skupove ili matrice podataka. To možete zamisliti kao veliku tabelu gde svaki red predstavlja jednu jedinicu uzorka (obično jednog ispitanika), dok svaka kolona predstavlja jednu varijablu. Varijable mogu sadržati različite vrste podataka - brojeve, kategorije ili tekst - koji pokazuju rezultate merenja na tom uzorku. Na primer, to mogu biti odgovori ispitanika iz ankete.

Kada imamo ovakav skup podataka, možemo ga analizirati koristeći alate deskriptivne statistike. Ovi alati nam omogućavaju da:

  1. Opišemo centralne tendencije varijabli (oko kojih vrednosti se grupišu podaci),
  2. Istražimo varijabilitet (koliko podaci odstupaju od centralnih vrednosti),
  3. Predstavimo podatke kroz grafikone,
  4. Standardizujemo varijable (što olakšava poređenja).

Ovi postupci nam pomažu da razumemo suštinske obrasce u našim podacima i daju nam prvi uvid u karakteristike uzorka koji proučavamo.

Šta se desi u uzorku, ostaje u uzorku.

Sve što otkrijemo na nivou uzorka ostaje vezano za taj uzorak. Bez obzira na njegov kvalitet, uzorak je samo mali prozor u populaciju - ništa više od toga. Ne možemo jednostavno preslikati opis uzorka na celu populaciju. Centralni problem statističkog zaključivanja jeste upravo ovo „premošćavanje“ između uzorka i populacije. Moramo ovo držati na umu: uzorak i populacija nisu isto. Uzorak predstavlja samo fragment celine i daje nam nepotpune informacije o populaciji. Ali nema razloga za brigu - kao što ćete uskoro videti, ljudi su prilično dobri u donošenju odluka na osnovu nepotpunih informacija, a statistika nam pomaže da to radimo na sistematičan i objektivan način.

U statistici koristimo dve vrste matematičke notacije:

  1. Latinična slova označavaju vrednosti kao što su aritmetička sredina (\(\overline{X}\)), varijansa (\(s^2\)), standardna devijacija (\(s\)) ili relativna frekvencija (\(p\)). Ove vrednosti nazivamo statistike uzorka jer ih možemo direktno izračunati iz podataka kojima raspolažemo.

  2. Mala grčka slova (\(\mu, \sigma^2, \sigma, \pi\)) predstavljaju parametre populacije. Ovi parametri su nam nedostupni - znamo da postoje, ali ih nikada ne možemo precizno izračunati. Možemo ih samo približno oceniti, što predstavlja jedan od temeljnih ciljeva statističke analize.

Razlika između ove dve kategorije mora biti jasna. Moramo razlikovati ono što znamo (uzorak) od onoga što želimo saznati (populacija).

Na primer, kada napišemo \(\overline{X} = 10\), to nam govori da je aritmetička sredina uzorka 10. Ovo je konkretna statistika koju smo izračunali iz podataka kojima raspolažemo.

Kada napišemo \(\mu = 10\), postavljamo pretpostavku o aritmetičkoj sredini populacije. Iako ne možemo biti potpuno sigurni u tačnost ove vrednosti, ovakve pretpostavke služe kao polazne tačke za dalju analizu. One nam daju okvir za razmišljanje o populaciji, uprkos tome što nemamo potpune informacije o njoj.

Ova dva načina zapisivanja (\(\overline{X}\) i \(\mu\)) imaju suštinski različita značenja. Pri interpretaciji statističkih izraza, precizna notacija je ključna za razumevanje šta tačno merimo ili pretpostavljamo.

3.2 Mali i veliki svetovi

Priča o Kolumbovom „otkriću“ Amerike i planu da stigne do Indije ploveći preko Atlantika savršeno ilustruje odnos između modela i stvarnosti. Kao i većina obrazovanih ljudi svog vremena, Kolumbo je bio svestan sferne prirode Zemlje. Međutim, njegova procena veličine planete značajno je odstupala od stvarnosti.

Razmotrite sledeće: Kolumbo je odbacio Aristotelov proračun prečnika Zemlje iz 2. veka pre nove ere (koji je, uzgred, bio izuzetno precizan). Umesto toga, priklonio se novijim, ali netačnim procenama koje su sugerisale da je Zemlja približno 3/4 stvarne veličine.

Ova greška u modelu dovela je do značajnog odstupanja u procenama. Prema Kolumbovim kalkulacijama, razdaljina između Kanarskih ostrva i Japana iznosila je oko 2400 nautičkih milja. Stvarna razdaljina je četiri puta veća. Ova razlika između modela i stvarnosti direktno je uticala na planiranje njegovog putovanja.

Svoj mali svet - skup pretpostavki o planeti Zemlji - Kolumbo je izgradio na temelju ograničenih podataka kojima je raspolagao. Na osnovu tih pretpostavki, kreirao je mape i planirao putovanje. U tom istorijskom trenutku, niko nije mogao imati preciznu predstavu o stvarnoj veličini i geometriji naše planete. Prema Kolumbovom modelu sveta, plovidba zapadno preko Atlantika trebalo je da relativno brzo dovede do obala Japana, a zatim i do Indije. Nakon duže plovidbe nego što je očekivao, kad je konačno ugledao kopno, Kolumbo je bio ubeđen da je ostrvo pred njim deo arhipelaga Istočne Indije. Drugim rečima, čvrsto je verovao u ispravnost svog modela i smatrao je da je, prateći svoje proračune, stigao na željeno odredište. Međutim, veliki svet - objektivna stvarnost - pokazao se fundamentalno drugačijim od njegovih pretpostavki.

Mali svet predstavlja ono čime mi, kao istraživači, raspolažemo - naše ideje, hipoteze i nepotpune informacije. Baš kao što je Kolumbo imao svoje pretpostavke, naš zadatak je da proverimo validnost tih ideja i hipoteza suočavajući ih sa stvarnošću (velikim svetom). Ovaj proces nije ni jednostavan ni očigledan. Uzmimo za primer Kolumba, koji veoma dugo nije prihvatio činjenicu da je otkrio novi kontinent umesto zapadnog puta do Indije. Njegova priča nam pokazuje koliko snažno možemo biti vezani za svoje pretpostavke, čak i kad se suočimo sa dokazima koji ih osporavaju.

Naše putovanje počinje formulisanjem malih svetova, odnosno statističkih modela. Ovi modeli, poput Kolumbovih mapa, predstavljaju pojednostavljenu sliku stvarnosti. Daju nam precizan opis malog sveta - društvenih fenomena koji su u središtu našeg istraživačkog problema. Razmotrimo primer istraživanja ekonomskih posledica rodnih nejednakosti u Srbiji. Možemo postaviti dva jednostavna modela koji opisuju dve različite verzije našeg društva.

Model 1: Zarada zaposlenih u Srbiji zavisi od njihovog pola/roda. Muškarci u Srbiji u proseku imaju više primanja od žena.

Model 2: Zarada zaposlenih u Srbiji ne zavisi od njihovog pola/roda. Muškarci i žene u Srbiji u imaju jednaka prosečna primanja.

Model se sastoji od pretpostavki koje predstavljaju uprošćavanje stvarnosti, odosno opis malog sveta. Uprošćavanje u ovom primeru podrazumeva i da ne razmatramo druge faktore za koje smo prilično sigurni da mogu uticati na zaradu: radno iskustvo, obrazovanje, itd. Ova dva modela nam, međutim, pričaju veoma različite priče. Prvi oslikava Srbiju kao društvo u kojem postoje značajne rodne razlike u ličnim primanjima, dok drugi predstavlja sliku egalitarnog društva bez rodnih nejednakosti u sferi zarada. Svaki od ovih modela nosi sa sobom različite implikacije za razumevanje društvene stvarnosti u Srbiji.

Jasno je da oba modela ne mogu istovremeno biti tačna. Centralni cilj ovog udžbenika je da savladate metode koje će vam pomoći da odredite koji od predloženih modela (bilo da ih je dva ili više) najtačnije opisuje stvarnost, odnosno koji najbolje aproksimira „veliki svet“. Ove metode će vam omogućiti da na sistematičan i objektivan način procenite koji model najvernije odgovara podacima i realnosti koju nastojimo da razumemo.

3.2.1 Statistički modeli

Sve što smo rekli o modelima primenjuje se na matematičke, biološke, medicinske i druge naučne modele koji se zasnivaju na povezanom skupu pretpostavki o istraživanom problemu. Statistički modeli se, međutim, izdvajaju posebnim načinom na koji predstavljaju i zapisuju ideje i pretpostavke. Neke elemente deskriptivne statistike već smo videli u opisu dva modela, na primer kroz koncept jednakih prosečnih primanja.

Šta tačno znači tvrdnja „muškarci i žene u Srbiji imaju jednaka prosečna primanja“? Pre svega, govorimo o dve populacije - populaciji muškaraca i populaciji žena u Srbiji. Kada bismo imali podatke o primanjima svakog muškarca u Srbiji, mogli bismo izračunati njihovu aritmetičku sredinu. Pošto je to praktično nemoguće, ta aritmetička sredina (prosečna primanja muškaraca) postaje parametar koji označavamo sa \(\mu_M\). Analogno tome, za populaciju žena imamo parametar \(\mu_{Ž}\). Model 2, koji pretpostavlja jednaka prosečna primanja, matematički zapisujemo kao \(\mu_M = \mu_Ž\).

Da bismo proverili istinitost ove pretpostavke, potrebni su nam podaci - konkretna merenja i zabeležene vrednosti na osnovu kojih ćemo utvrditi da li je pretpostavka tačna ili ne. Međutim, kao što smo već naglasili, ti podaci su nam dostupni samo na nivou uzorka. Iz njih možemo izračunati \(\overline{X}_M\) i \(\overline{X}_Ž\).

Suština je da ne pomešamo ono što znamo o uzorku s onim što želimo saznati o populaciji (setite se naših grčkih baba i latiničnih žaba). Potreban nam je pouzdan metod koji će nam omogućiti da na osnovu podataka iz uzorka donesemo zaključke o populaciji.

U narednim poglavljima upoznaćete se s dva ključna pristupa: statističkim testovima i statističkim ocenjivanjem. Obe grupe metoda počivaju na ideji koja nije odmah očigledna i često zbunjuje početnike. Centralni koncept je sledeći: statistički metodi upoređuju statistike uzorka s teorijskim vrednostima svih mogućih uzoraka koje bismo mogli očekivati prema pretpostavkama našeg statističkog modela. Zvuči složeno? Ne brinite - razložićemo ovaj proces na jednostavne korake.

3.3 Testiranje Kolumbovog modela

Slučaj Kolumbovog putovanja i otkrića Amerike savršeno ilustruje odnos između podataka i hipoteza. On je posmatrao novootkrivenu teritoriju isključivo kroz prizmu svoje pretpostavke - unutar svog malog sveta gde je navodno stigao do Indije. Svoja zapažanja je interpretirao u skladu s tim modelom.

Statističko zaključivanje se bazira na direktnom suočavanju podataka i modela. Cilj je utvrditi da li realnost (izmereni podaci) potvrđuje ili opovrgava naš model. Kolumbo nije bio spreman da prihvati grešku u svojoj pretpostavci, ali su kasnija istraživanja nedvosmisleno pokazala da podaci ne podržavaju njegovu teoriju - otkriven je novi kontinent, a ne zapadni put do Indije. Da bismo izbegli takvu subjektivnost u zaključivanju, statistički metodi nude precizna pravila koja nam govore kada treba odbaciti model i prihvatiti da podaci ne podržavaju naše pretpostavke.

Statistički testovi i statističko ocenjivanje predstavljaju moćne alate koji koriste podatke iz uzorka da bi doneli zaključke o populaciji. Podaci koje dobijamo iz uzorka nisu cilj sami po sebi - oni su početna tačka u procesu donošenja zaključaka. Koristimo ih da napravimo sledeći korak u nastojanju da odgovorimo na naša ključna pitanja. Najčešće postavljamo pitanja sa ciljem da neki fenomen predvidimo ili objasnimo.

Suština ovakvog pristupa leži u poređenju informacija dobijenih iz statistika s našim pretpostavkama i modelima o populaciji. Kada se naše pretpostavke dobro poklapaju s rezultatima iz uzorka, možemo formulisati odgovore na istraživačka pitanja u skladu s tim pretpostavkama. Međutim, ta sigurnost nikada nije apsolutna zbog prirode informacija dobijenih iz uzorka, odnosno zbog prisustva statističke greške. S druge strane, ako postoji značajno neslaganje između naših pretpostavki i informacija iz uzorka, odbacićemo te pretpostavke - ponovo, uz određeni stepen (ne)sigurnosti.

Zbog toga, ne polazimo od apsolutne sigurnosti ili neizvesnosti u procesu donošenja zaključaka. Naš zadatak je da se suočimo sa neizvesnošću, nepotpunim informacijama i rizikom pravljenja grešaka. U nauci, jedino statistika i statističko zaključivanje nude sistemski pristup rešavanju ovog izazova.

Suština ovog procesa zaključivanja leži u preciznom merenju koliko se naše pretpostavke (model, mali svet) poklapaju ili razilaze s onim što smo dobili iz uzorka. Za to koristimo statističke distribucije. Baš kao što smo ranije izračunali odstupanje zarade pojedinca od prosečne zarade u uzorku (Odeljak 2.3), možemo izmeriti i koliko naše pretpostavke „odstupaju“ od podataka. Primenom jasno definisanih pravila procenjujemo da li je to odstupanje malo (što ukazuje na slaganje pretpostavke s podacima) ili veliko (što sugeriše neslaganje). Ovaj pristup nam pruža objektivan metod za procenu koliko naše ideje odgovaraju stvarnosti koju istražujemo.

Ključni izazov u savladavanju statističkih metoda je razumevanje jezika i logike statističkih distribucija, što neizbežno uključuje i ovladavanje osnovnim principima verovatnoće. U narednom poglavlju započinjemo upravo s tim konceptima.

U statistici, odnos između pretpostavke i podataka uvek se izražava kroz verovatnoću. Često analiziramo i pojam rizika, posebno rizik donošenja pogrešne odluke.

Ove rizike procenjujemo svakodnevno. Zamislite situaciju: vaša aplikacija za vremensku prognozu pokazuje 90% verovatnoće za kišu sutra, baš kada treba da krenete na fakultet. Ako odlučite da ponesete kišobran, prihvatate 10% rizik da ćete ga nositi bez potrebe. Većina ljudi će prihvatiti ovaj rizik jer je kiša gotovo izvesna. Međutim, ako je verovatnoća kiše samo 5%, većina će ostaviti kišobran kod kuće - rizik od pokisnuća je minimalan.

Najzanimljiviji slučajevi su oni granični, na primer kada je verovatnoća kiše 40% ili 50%. U tim situacijama dolaze do izražaja individualne razlike u proceni rizika. Da bismo u statistici izbegli subjektivnost, fokusiramo se na ekstremne vrednosti ili „repove“ statističkih distribucija, analizirajući situacije gde se rizici kreću između 1% i 10%.

3.4 Zadaci

Zamislite da ste deo tima koji proučava vršnjačko nasilje u školama u Srbiji. Pred vama je ograničena evidencija broja prijavljenih slučajeva nasilja, a vaš tim polazi od pretpostavke da je u poslednjih 10 godina došlo do porasta nasilja u školama.

Razmotrite, šta u ovom slučaju predstavlja mali svet, a šta veliki svet sa kojim se suočavate?

Napišite dva modela koji bi bili adekvatni za istraživanje razlika u uspehu učenika gimnazija i stručnih škola na prijemnim ispitima.

Napišite tri modela koji bi mogli objasniti odnos između potrošačke korpe i minimalne zarade u Srbiji. Obavezno definišite svoje pretpostavke jasnim, nedvosmislenim jezikom.