Statistika je jednostavna!

Original: https://cs.nyu.edu/cs/faculty/shasha/papers/StatisticsIsEasyExcerpt.html

Statistika je aktivnost zaključivanja rezultata o populaciji koja je dobila uzorak. Istorijski gledano, knjige o statistici pretpostavljaju osnovnu distribuciju podataka (obično, normalna distribucija) i izvode rezultate pod tom pretpostavkom. Nažalost, u stvarnom životu ne možemo normalno biti sigurni u osnovnu distribuciju. Iz tog razloga, ova knjiga predstavlja pristup statistici neovisan o distribuciji zasnovan na jednostavnoj ideji računanja računanja koja se zove resampling.

Ova knjiga objašnjava osnovne koncepte resamplinga, zatim sistematski predstavlja standardne statističke mjere zajedno sa programima (u jeziku Python) kako bi ih izračunali koristeći resampling, i na kraju ilustrira upotrebu mjera i programa u studiji slučaja. U tekstu se koristi algebra srednjih škola i mnogi primjeri koji objašnjavaju koncepte. Idealni čitalac je savladao barem elementarnu matematiku, voli da razmišlja proceduralno, i udoban je sa kompjuterima.

Osnovna ideja

Pretpostavimo da želite znati da li neki novčić je fer¹. Bacio si ga 17 puta i pojavio se glava, ali samo 2 puta. Kako biste mogli utvrditi da li je razumno vjerovati da je novčić pravedan? (Pravi novčić bi trebalo da dođe do glave sa verovatnoćom 1/2 i repovima sa verovatnoćom 1/2.) Možete tražiti da se izračuna procenat puta za koji biste dobili ovaj rezultat ako je pretpostavka pravednosti bila istinita. Teorija verovatnoće predlaže korišćenje binomne distribucije. Ali možda ste zaboravili formulu ili derivaciju. Tako da ga možete pogledati ili barem zapamtiti ime kako biste dobili softver za to. Neto efekat je da ne biste mnogo razumeli, osim ako niste bili na svojoj teoriji verovatnoće.

Alternativa je da se uradi eksperiment 10.000 puta, gde se eksperiment sastoji od bacanja novčića za koji se zna da je fer 17 puta i pita se koji procenat puta dobijate glave 15 puta ili više. Kada smo vodili ovaj program, procenat je bio dosledno ispod 5 (to jest, ispod 5%, rezultat koji se često koristi za označavanje “neverovatno”), tako da je malo vjerovatno da je novac u stvari fer. Vaša ruka može da vas boli od toga, ali vaš PC će to uraditi za manje od sekunde.

Evo primjera izvođenja ovog koda:

9 out of 10000 times we got at least 15 heads in 17 tosses.
Probability that chance alone gave us at least 15 heads in 17 tosses is 0.0009 .

(9 od 10000 puta dobili smo najmanje 15 glava u 17 bacanja.
Verovatnoća da nam je šansa dala najmanje 15 glava u 17 bacanja je 0,0009.)

Evo i drugog primjera.

Zamislite da smo nekim ljudima dali placebo, a drugi lek. Mjerenje poboljšanja (što je pozitivnije, to bolje)

Placebo: 54 51 58 44 55 52 42 47 58 46

Prijatelj: 54 73 53 70 73 68 52 65 65

Kao što možete vidjeti, lijek izgleda u prosjeku djelotvorniji (prosječno izmjereno poboljšanje je 63,7 za lijek i 50,7 za placebo). Ali da li je ta razlika u proseku stvarna? Statistike zasnovane na formuli bi koristile t-test koji podrazumijeva određene pretpostavke o normalnosti i varijansi, ali mi ćemo pogledati same uzorke i miješati oznake.

Šta to znači može se ilustrovati na sljedeći način. Stavili smo sve ljude u tabelu koja ima dve kolone i oznaku (P za placebo i D za lek).

vrijednost	etiketa
54	P
51	P
58	P
44	P
55	P
52	P
42	P
47	P
58	P
46	P
54	D
73	D
53	D
70	D
73	D
68	D
52	D
65	D
65	D

Miješanje oznaka znači da ćemo uzeti P i D i nasumično ih raspodijeliti među pacijentima. (Tehnički, radimo uniformnu, slučajnu permutaciju kolone oznake.)

Ovo može dati:

vrijednost	etiketa
54	P
51	P
58	D
44	P
55	P
52	D
42	D
47	D
58	D
46	D
54	P
73	P
53	P
70	D
73	P
68	P
52	D
65	P
65	D

Tada možemo pogledati razliku u prosečnoj vrednosti P u odnosu na prosečnu vrednost D ovde. Dobijamo u proseku 59.0 za P i 54.4 za D. Ponavljamo ovu proceduru 10.000 puta i pitamo koji deo vremena dobijamo razliku između leka i placeba većeg ili jednakog izmerenoj razlici od 63.7 – 50.7. = 13. Odgovor u ovom slučaju je ispod 0,001. To je manje od 0,1%. Stoga zaključujemo da je razlika između prosjeka uzoraka stvarna. To je ono što statističari nazivaju značajnim.

Hajde da se vratimo na trenutak. Koje je opravdanje za prebacivanje etiketa? Ideja je jednostavno sljedeća: ako lijek nije imao stvarni učinak, onda bi placebo često davao više poboljšanja nego lijek. Miješanjem etiketa, mi simuliramo situaciju u kojoj neka placebo mjerenja zamjenjuju mjerenja nekih lijekova. Ako bi se uočila prosečna razlika od 13 bi se poklopila ili čak premašila u mnogim od ovih premeštanja, onda lek ne bi mogao da ima efekat izvan placeba. To jest, uočena razlika se mogla desiti slučajno.

Statistika je jednostavna!

Trending Articles

Practice Sheet of Right form of verbs for HSC Students

Download: FK ft Shenky – Nakuyewa ”Prod by: Shenky”

How to win at Markstrat (Markstrat Tips and Tricks) – Vodites

Ominde Commission Report and Recommendations – Ominde Report of 1964

Bureau of Internal Revenue: Regional Offices (Directory)

GO 53 on Enhancement of Ex-gratia upto 5 Lakhs Toddy Tappers in Telangana

Cakewalk CA-2A Leveling Amplifier v2.0.1.97 WiN, v2.0.1.96 OSX Incl Keygen

Mp3 Download: Mdu - Kunjenjenjena

How the kill the job , when DTP request running for long hours.

Microsoft Intune から展開しているアプリのアップデートについて

18-year-old girl was beaten for half an hour by two Northampton men in 'an...

Car crash in Dunton Bassett leaves driver in critical condition

Macky 2, Two Others In Road Accident

Application log 00000000000000089514: Could not convert queue DLVST90CLNT

Detroit mafia: D’Anna Brothers agree to plea deal

Delivery block field greyed out using VA02

Muloraki Au

【個人撮影】スマホのプライベート映像♪「中に出さないで///」カラオケ屋での生ハメ撮りが流出ｗ【リベンジポルノ】＠PornHub

BREAKING NEWS: Diamond Platnumz Is Reported Dead After Ghastly Car Accident

FIAT 500 B0111 B0112