1 Uvod
1.1 Kome je ovaj udžbenik namenjen?
Ovaj udžbenik je namenjen svima koji su tokom studija ili profesionalnog usavršavanja prepoznali potrebu za primenom statističkih metoda. Optimalno predznanje za praćenje ovog udžbenika obuhvata poznavanje osnovnih pojmova deskriptivne statistike. Međutim, to nije strogo neophodno - u narednom poglavlju (Odeljak 2.3) ćemo obnoviti ključne koncepte deskriptivne statistike (aritmetičku sredinu, standardnu devijaciju) dok se istovremeno upoznajemo sa programskim jezikom R. Ako ste ranije pohađali bilo kakav osnovni kurs statistike, bilo na fakultetu ili putem interneta, verovatno ste se već susreli sa opisivanjem i tumačenjem podataka. To je prvi korak ka kvantitativnom sagledavanju problema u vašoj disciplini. Ovaj udžbenik vas vodi dalje i uvodi u svet statističkog zaključivanja.
A šta je zapravo statističko zaključivanje? U osnovi, to je primena statističkih metoda za rešavanje konkretnih problema. Međutim, važno je napomenuti da retko dobijamo jednoznačne odgovore primenom samo jedne metode. Upravo zato je cilj ovog udžbenika da vas vodi kroz osnovne korake ovog procesa, koristeći praktičan pristup.
1.2 Šta je praktičan pristup?
Ako pohađate predmet Statistički metodi na Filozofskom fakultetu u Novom Sadu, naš praktični pristup će biti nešto drugačiji. Umesto R-a, koristićete JASP za rešavanje statističkih problema.
Ne brinite, sadržaj udžbenika vezan za R vam neće biti neophodan. Ipak, ako vas privlači ideja programiranja, ovaj materijal može biti odlična prva stepenica ka svetu statističkog programiranja. Kroz R ćete steći uvid u računarsko razmišljanje (eng. computational thinking) i naučiti osnovne principe programiranja i algoritamskog pristupa problemima.
Na vežbama ćete dobiti sve potrebne informacije o JASP-u i naučiti kako da primenite primere iz udžbenika u tom okruženju. Ukratko - imaćete sva potrebna znanja za praktičnu primenu statističkih metoda.
Praktičan pristup podrazumeva da se svi koraci zaključivanja prevode u računarski kod. Ovaj pristup se razlikuje od point and click principa koji je karakterističan za statističke programe poput SPSS-a ili JASP-a. U tim programima korisnik najčešće definiše osnovne parametre analize i odmah dobija rezultate, dok su međukoraci sakriveni od pogleda.
Koja je mana ovakvog pristupa? Zamislimo analogiju sa učenjem klavira. Kurs bi počeo solfeđom i učenjem notnog zapisa, nastavio bi se vežbama prstiju, i tu bi se zaustavio. Kada dođe trenutak za nastup, seli biste za sintisajzer, izabrali jednu od predefinisanih kompozicija i pritisnuli play. Verovatno biste razvili dobro poznavanje kompozicije i istančan sluh za prepoznavanje tonova i ritma, ali da li biste zaista savladali sviranje instrumenta? Odgovor je jasan - ne biste.
Tradicionalna nastava statistike često liči na ovaj scenario. Obično počinjemo od formalizma, savladavajući statističku notaciju (kao notni zapis), zatim prelazimo na teoriju verovatnoće (kao solfeđo), nakon toga na analitičke postupke sprovođenja statističkih metoda (kao vežbe prstiju) i tu zastajemo. Kada dođe trenutak za praktični rad, otvaramo SPSS (naš statistički „sintisajzer“), biramo analizu koju želimo da primenimo na određenom skupu podataka (našu „kompoziciju“), podešavamo parametre analize (kao „tempo“ i „tonalitet“) i brzo dobijamo rezultate.
Spoj teorije i prakse u takvom pristupu predstavlja značajan izazov. Studenti često usmeravaju pažnju na delove kursa koji su im neophodni za savladavanje neposrednih prepreka - kolokvijuma ili ispita. Razumevanje logike i principa statističkog zaključivanja u velikoj meri zavisi od sposobnosti nastavnika da kreira kurs koji efikasno povezuje teoriju i praksu, kako kroz nastavu, tako i kroz različite oblike provere znanja.
U ovom udžbeniku prevodićemo logičke korake statističkog zaključivanja u računarski kod koristeći programski jezik R. Fokusiraćemo se na suštinski kod, koristeći samo ono što je neophodno za dolazak do zaključka. Važna napomena - prethodno znanje R-a nije preduslov za praćenje ovog udžbenika, niti je cilj da kroz njega detaljno savladate R. Statističko zaključivanje i programiranje su dve odvojene veštine, svaka kompleksna na svoj način, a naš fokus je na prvoj.
Nećemo se upuštati u izradu složenih vizuelizacija, obradu i transformaciju podataka, optimizaciju koda ili napredne statističke modele. Naš glavni cilj je da kroz praktičnu primenu koda razvijemo intuiciju o statističkom zaključivanju i učinimo proces donošenja zaključaka jasnim i pristupačnim. Ako savladate materijal iz ovog udžbenika, nećete steći sve veštine potrebne za naprednu analizu podataka u R-u. Nećete upoznati nijedan od ključnih paketa u R-u koji se koriste za obradu, analizu i statističko modelovanje (poput tidyverse
ili easystats
). Naš cilj je konkretniji i jednostavniji: osnove statističkog zaključivanja u R-u, korak po korak, linija po linija koda, bez dodatnih paketa.
1.3 Zašto je sve ovo važno?
Ako ste studentkinja ili student društvenih nauka, tokom studija ćete primetiti da su ove discipline (izuzev humanističkih) dominantno kvantitativno orijentisane. To znači da je za praćenje aktuelnih istraživanja, razumevanje rezultata i interpretaciju zaključaka neophodno poznavanje statističkih metoda i osnovnih principa statističkog zaključivanja. Čak i ako nikada ne sprovedete sopstveno kvantitativno istraživanje, vrlo verovatno ćete koristiti rezultate tuđih istraživanja. Međutim, sami rezultati imaju malu vrednost ako ne razumete principe i logiku kojima se od sirovih podataka dolazi do zaključaka.
Prevođenje logičkih koraka u računarski kod pri rezonovanju i donošenju zaključaka predstavlja jednu od ključnih veština za profesionalni razvoj u 21. veku. Tržište rada sve više vrednuje sposobnost kvantitativnog razmišljanja i rada sa podacima.
Za studente koji pohađaju kurs Statistički metodi na Filozofskom fakultetu, ovo je tek početak. Kroz kurseve Multivarijantna analiza i Uvod u mrežnu analizu imaćete priliku da unapredite svoje znanje statistike i programskog jezika R. Ovi kursevi nude praktična znanja koja su direktno primenjiva u različitim profesionalnim okruženjima.
1.4 Zadaci i interaktivni kod
Na kraju svakog poglavlja nalazi se odeljak „Zadaci“ koji vam omogućava praktičnu primenu naučenog gradiva. Osnovni zadaci traže reprodukciju analiza iz poglavlja na novim skupovima podataka, uz pitanja koja će vas podstaći na dublje razumevanje sprovedenih koraka. Složeniji zadaci, označeni sa jednom (*) ili dve (**) zvezdice, zahtevaju modifikaciju postojećih analiza ili primenu naprednih metoda koje prevazilaze okvire poglavlja.
Pri prvom čitanju udžbenika, preporučujem da uradite samo prvi zadatak i nastavite dalje. Nakon što savladate celokupno gradivo, možete se vratiti zahtevnijim zadacima.
Ukoliko primetite grešku u nekom zadatku ili vam je potrebno pojašnjenje određenog problema, slobodno me kontaktirajte.
Za rešavanje zadataka na raspolaganju su vam dve opcije.
Koristite interaktivnu konzolu koja se nalazi na kraju svakog poglavlja. Konzola vam omogućava direktno izvršavanje R koda i trenutni prikaz rezultata. Eksperimentišite sa kodom, menjajte parametre i posmatrajte kako te izmene utiču na rezultate. Zapamtite - konzola ne pamti vaše promene nakon zatvaranja stranice, ali kod uvek možete sačuvati kao skriptu na vašem računaru.
Instalirajte R i RStudio na svom računaru. Detaljno uputstvo za instalaciju nalazi se na ovoj stranici. Ovaj pristup vam daje potpunu kontrolu nad svojim kodom i rezultatima, omogućavajući rad sa zadacima i podacima i van okvira ovog udžbenika.
1.5 Organizacija udžbenika
U drugom poglavlju upoznajemo se sa programskim jezikom R. Kroz obnavljanje osnovnih pojmova deskriptivne statistike, naučićemo kako da koristimo R u praksi.
Treće poglavlje nas vodi kroz srž statističkog zaključivanja - kako iz uzorka izvoditi validne zaključke o populaciji.
Četvrto poglavlje postavlja temelje teorije verovatnoće, dok istovremeno produbljujemo naše poznavanje R-a.
Peto poglavlje nam predstavlja normalnu distribuciju - statistički alat koji je ključan za razumevanje većine statističkih metoda.
U šestom poglavlju rešavamo konkretan istraživački problem od početka do kraja. Ovde se upoznajemo sa testiranjem hipoteza, intervalima poverenja i konceptom statističke značajnosti.
Sedmo poglavlje nas uvodi u t-test - osnovni statistički metod za poređenje aritmetičkih sredina dva nezavisna uzorka.
Osmo poglavlje predstavlja linearnu regresiju u svojoj najjednostavnijoj formi - moćan alat za modelovanje odnosa između varijabli.
U devetom poglavlju istražujemo korelaciju i linearnu zavisnost između kvantitativnih varijabli, nadovezujući se na koncepte iz prethodnog poglavlja.
Deseto poglavlje proširuje logiku t-testa i uvodi analizu varijanse (ANOVA). Ovaj metod nam omogućava poređenje više od dva nezavisna uzorka. Takođe, otkrivamo neočekivanu vezu između ANOVA-e i regresije.
U jedanaestom poglavlju dublje istražujemo ovu vezu i otkrivamo zašto naslov ovog udžbenika nije sasvim precizan.
1.6 Tehničke napomene
Za najbolje iskustvo učenja, preporučujemo korišćenje web verzije umesto PDF formata. Iako oba formata sadrže identičan sadržaj, HTML verzija nudi nekoliko ključnih prednosti - jednostavno kopiranje R koda, rad sa interaktivnom konzolom i efikasno pretraživanje sadržaja. PDF verzija služi kao praktična alternativa za čitanje bez pristupa internetu ili za štampanje materijala. Imajte na umu da je internet veza neophodna za preuzimanje podataka i rad sa interaktivnim konzolama.
Ovaj udžbenik je razvijen pomoću Quarto (Allaire i ostali, 2022) sistema koji omogućava integraciju teksta i koda u jedinstven dokument. Za implementaciju interaktivnog koda korišćen je webR
(Stagg i ostali, 2023) sistem.
Svaka statistička analiza u udžbeniku praćena je odgovarajućim računarskim kodom koji možete direktno primeniti u vašem R okruženju. Izuzetak čine složeniji grafikoni čiji bi duži kod narušio čitljivost teksta. Kompletan izvorni kod za sve grafikone dostupan je u javnom repozitorijumu udžbenika.
Radi doslednosti između rezultata u tekstu i onih koje ćete dobiti u R konzoli, koristimo decimalni separator .
umesto uobičajenog ,
. Moguća su i druga manja odstupanja od jezičkih konvencija zbog usklađivanja sa standardnom statističkom i tehničkom notacijom u R-u. Ovaj udžbenik je tehnički dokument koji je prvenstveno namenjen učenju i primeni statističkih metoda u R-u. Sve greške i propusti su isključivo odgovornost autora.