Ako se pronađe koeficijent korelacije. Koeficijent korelacije. Pojam korelacijske analize
Koeficijent korelacije je vrijednost koja može varirati od +1 do –1. U slučaju potpune pozitivne korelacije taj je koeficijent jednak plus 1 (kažu da kad raste vrijednost jedne varijable, raste i vrijednost druge varijable), a u slučaju potpuno negativne korelacije iznosi minus 1. (što ukazuje na povratnu vezu, tj. kada se vrijednosti jedne varijable povećavaju, vrijednosti druge se smanjuju).
Primjer 1:
Grafikon odnosa između sramežljivosti i depresije. Kao što vidite, točke (subjekti) nisu smještene kaotično, već se nižu oko jedne crte, a gledajući ovu crtu, možemo reći da što je veća sramežljivost osobe, to je veća depresija, tj. ti su fenomeni međusobno povezani.
Primjer 2: Tablica za sramežljivost i društvenost. Vidimo da kako se stidljivost povećava, društvenost se smanjuje. Njihov koeficijent korelacije je -0,43. Dakle, koeficijent korelacije veći od 0 do 1 označava izravno proporcionalni odnos (što više... to više...), a koeficijent od -1 do 0 označava obrnuto proporcionalan odnos (što više... to manje. ..)
Ako je koeficijent korelacije 0, obje varijable su potpuno neovisne jedna o drugoj.
Poveznica- ovo je odnos gdje se utjecaj pojedinih čimbenika pojavljuje samo kao trend (u prosjeku) tijekom masovnog promatranja stvarnih podataka. Primjeri korelacijskih ovisnosti mogu biti ovisnosti između veličine aktive banke i visine dobiti banke, rasta produktivnosti rada i radnog staža zaposlenika.
Za klasifikaciju korelacija prema njihovoj snazi koriste se dva sustava: opći i specifični.
Opća klasifikacija korelacija: 1) jaka, ili bliska s koeficijentom korelacije r>0,70 2) prosječna s 0,500,70, a ne samo korelacija visoke razine značajnosti;Sljedeća tablica prikazuje nazive korelacijskih koeficijenata za različite vrste ljestvica.
Dihotomna ljestvica (1/0) | Rang (ordinalna) ljestvica | ||
Dihotomna ljestvica (1/0) | Pearsonov koeficijent asocijacije, Pearsonov četveroćelijski koeficijent kontingencije. | Biserijska korelacija | |
Rang (ordinalna) ljestvica | Rang-biserijska korelacija. | Spearmanov ili Kendallov rang koeficijent korelacije. | |
Intervalna i apsolutna ljestvica | Biserijska korelacija | Vrijednosti intervalne ljestvice pretvaraju se u rangove i koristi se koeficijent ranga | Pearsonov koeficijent korelacije (linearni koeficijent korelacije) |
Na r=0 Ne postoji linearna korelacija. U ovom slučaju, grupne sredine varijabli podudaraju se s njihovim ukupnim sredinama, a regresijske linije su paralelne s koordinatnim osima.
Jednakost r=0 govori samo o nepostojanju linearne korelacijske ovisnosti (nekorelirane varijable), ali ne općenito o nepostojanju korelacijske, a još više statističke ovisnosti.
Ponekad je nalaz nepostojanja korelacije važniji od prisutnosti jake korelacije. Nulta korelacija između dvije varijable može značiti da nema utjecaja jedne varijable na drugu, pod uvjetom da vjerujemo rezultatima mjerenja.
U SPSS-u: 11.3.2 Koeficijenti korelacije
Do sada smo samo razjasnili činjenicu postojanja statističke veze između dvije karakteristike. Zatim ćemo pokušati saznati koji se zaključci mogu izvući o snazi ili slabosti te ovisnosti, kao io njezinoj vrsti i smjeru. Kriteriji za kvantificiranje odnosa između varijabli nazivaju se koeficijenti korelacije ili mjere povezanosti. Dvije varijable su u pozitivnoj korelaciji ako između njih postoji izravan, jednosmjeran odnos. U jednosmjernom odnosu, male vrijednosti jedne varijable odgovaraju malim vrijednostima druge varijable, a velike vrijednosti odgovaraju velikim vrijednostima. Dvije varijable negativno koreliraju jedna s drugom ako između njih postoji inverzna, višesmjerna veza. S višesmjernim odnosom, male vrijednosti jedne varijable odgovaraju velikim vrijednostima druge varijable i obrnuto. Vrijednosti korelacijskih koeficijenata uvijek leže u rasponu od -1 do +1.
Spearmanov koeficijent koristi se kao korelacijski koeficijent između varijabli koje pripadaju ordinalnoj ljestvici, a Pearsonov koeficijent korelacije (moment proizvoda) koristi se za varijable koje pripadaju intervalnoj ljestvici. Treba uzeti u obzir da se svaka dihotomna varijabla, odnosno varijabla koja pripada nominalnoj ljestvici i ima dvije kategorije, može smatrati ordinalnom.
Prvo ćemo provjeriti postoji li korelacija između varijabli spola i psihe iz datoteke studium.sav. Pritom ćemo uzeti u obzir da se dihotomna varijabla spol može smatrati ordinalnom. Prati ove korake:
· Odaberite iz izbornika naredbi Analiziraj unakrsne tabele deskriptivne statistike...
· Premjestite varijablu spol na popis redaka, a varijablu psiha na popis stupaca.
· Kliknite na gumb Statistika.... U dijaloškom okviru Crosstabs: Statistics odaberite potvrdni okvir Correlations. Potvrdite svoj odabir tipkom Nastavi.
· U dijaloškom okviru Crosstabs onemogućite prikaz tablica označavanjem potvrdnog okvira Supress tables. Pritisnite OK.
Izračunat će se Spearmanov i Pearsonov koeficijent korelacije i testirati njihova značajnost:
/ SPSS 10
Zadatak br. 10 Korelacijska analiza
Pojam korelacije
Korelacija ili koeficijent korelacije je statistički pokazatelj vjerojatnosni odnosi između dvije varijable mjereni na kvantitativnim skalama. Za razliku od funkcionalnog odnosa, u kojem svaka vrijednost jedne varijable odgovara strogo definiran vrijednost druge varijable, vjerojatnosna veza karakterizira činjenica da svaka vrijednost jedne varijable odgovara višestruka značenja Još jedna varijabla Primjer vjerojatnostnog odnosa je odnos između visine i težine ljudi. Jasno je da ljudi različite težine mogu imati istu visinu i obrnuto.
Korelacija je vrijednost u rasponu od -1 do +1 i označava se slovom r. Štoviše, ako je vrijednost bliža 1, to znači da postoji jaka veza, a ako je bliža 0, onda je slaba. Vrijednost korelacije manja od 0,2 smatra se slabom korelacijom, a vrijednost veća od 0,5 smatra se visokom korelacijom. Ako je korelacijski koeficijent negativan, to znači da postoji povratna veza: što je veća vrijednost jedne varijable, to je manja vrijednost druge.
Ovisno o prihvaćenim vrijednostima koeficijenta r, mogu se razlikovati različite vrste korelacije:
Stroga pozitivna korelacija određena vrijednošću r=1. Pojam "strogi" znači da je vrijednost jedne varijable jedinstveno određena vrijednostima druge varijable, a pojam " pozitivno" - da kako se povećavaju vrijednosti jedne varijable, tako rastu i vrijednosti druge varijable.
Stroga korelacija je matematička apstrakcija i praktički se nikada ne pojavljuje u stvarnom istraživanju.
Pozitivna korelacija odgovara vrijednostima 0
Nema korelacije određena vrijednošću r=0. Nulti koeficijent korelacije označava da vrijednosti varijabli ni na koji način nisu međusobno povezane.
Nema korelacije H o : 0 r xy =0 formuliran kao odraz ništavan hipoteze u korelacijskoj analizi.
Negativna korelacija: -1
Stroga negativna korelacija određena vrijednošću r= -1. Ona je, kao i stroga pozitivna korelacija, apstrakcija i ne dolazi do izražaja u praktičnom istraživanju.
stol 1
Vrste korelacija i njihove definicije
Metoda izračuna koeficijenta korelacije ovisi o vrsti ljestvice na kojoj se mjere varijable.
Koeficijent korelacije rPearson je bazična i može se koristiti za varijable s nominalnim i djelomično uređenim intervalnim ljestvicama, raspodjela vrijednosti na kojima odgovara normalnoj (korelacija produkta momenta). Pearsonov koeficijent korelacije također daje prilično točne rezultate u slučajevima abnormalnih distribucija.
Za distribucije koje nisu normalne, poželjno je koristiti koeficijente korelacije ranga Spearman i Kendall. Oni su rangirani jer program unaprijed rangira korelirane varijable.
Program SPSS izračunava r-Spearmanovu korelaciju na sljedeći način: prvo se varijable pretvaraju u rangove, a zatim se Pearsonova formula primjenjuje na rangove.
Osnova korelacije koju je predložio M. Kendall je ideja da se smjer veze može prosuditi usporedbom subjekata u parovima. Ako se za par subjekata promjena u X podudara u smjeru s promjenom u Y, tada to ukazuje na pozitivnu vezu. Ako se ne podudara, onda postoji negativna veza. Ovaj koeficijent prvenstveno koriste psiholozi koji rade s malim uzorcima. Budući da sociolozi rade s velikom količinom podataka, nabrajanje parova i utvrđivanje razlika u relativnim učestalostima i inverzijama svih parova subjekata u uzorku je teško. Najčešći je koeficijent. Pearson.
Budući da je Pearsonov koeficijent korelacije r osnovni i da se može koristiti (uz određenu pogrešku ovisno o vrsti ljestvice i razini abnormalnosti u distribuciji) za sve varijable mjerene na kvantitativnim ljestvicama, razmotrit ćemo primjere njegove uporabe i usporediti rezultate dobivenih s rezultatima mjerenja pomoću drugih koeficijenata korelacije.
Formula za izračunavanje koeficijenta r- Pearson:
r xy = ∑ (Xi-Xavg)∙(Yi-Yavg) / (N-1)∙σ x ∙σ y ∙
Gdje su: Xi, Yi - vrijednosti dviju varijabli;
Xavg, Yavg - prosječne vrijednosti dviju varijabli;
σ x, σ y – standardna odstupanja,
N je broj opažanja.
Parne korelacije
Na primjer, željeli bismo saznati u kakvoj su korelaciji odgovori između različitih vrsta tradicionalnih vrijednosti u idejama učenika o idealnom mjestu za rad (varijable: a9.1, a9.3, a9.5, a9.7) , a zatim o korelaciji liberalnih vrijednosti (a9.2, a9.4, a9.6, a9.8) . Ove varijable mjere se na skali od 5 čestica.
Koristimo postupke: “Analiza”, “Korelacije”, “Upareni”. Zadani koeficijent Pearson je postavljen u dijaloškom okviru. Koristimo koeficijent. Pearson
Testirane varijable se prenose u prozor za odabir: a9.1, a9.3, a9.5, a9.7
Klikom na OK dobivamo izračun:
Korelacije
a9.1.t. Koliko je važno imati dovoljno vremena za obitelj i osobni život? |
Pearsonova korelacija |
||||
Vrijednost (2 strane) |
|||||
a9.3.t. Koliko je važno ne bojati se gubitka posla? |
Pearsonova korelacija |
||||
Vrijednost (2 strane) |
|||||
a9.5.t. Koliko je važno imati šefa koji će se s vama savjetovati kada donosite ovu ili onu odluku? |
Pearsonova korelacija |
||||
Vrijednost (2 strane) |
|||||
a9.7.t. Koliko je važno raditi u dobro uigranom timu i osjećati se kao dio njega? |
Pearsonova korelacija |
||||
Vrijednost (2 strane) |
|||||
** Korelacija je značajna na razini 0,01 (dvostrana).
Tablica kvantitativnih vrijednosti konstruirane korelacijske matrice
Djelomične korelacije:
Prvo, izgradimo korelaciju u paru između ove dvije varijable:
Korelacije |
|||
s8. Osjećaj bliskost s onima koji žive pored tebe, susjedima |
Pearsonova korelacija |
||
Vrijednost (2 strane) |
|||
s12. Osjećati se blisko njihovoj obitelji |
Pearsonova korelacija |
||
Vrijednost (2 strane) |
|||
**. Korelacija je značajna na razini 0,01 (dvostrana). |
Zatim koristimo postupak za konstruiranje djelomične korelacije: “Analiza”, “Korelacije”, “Djelomična”.
Pretpostavimo da se vrijednost “Važno je samostalno odrediti i promijeniti redoslijed svog rada” u odnosu na navedene varijable pokazuje kao odlučujući čimbenik pod čijim će utjecajem prethodno identificirani odnos nestati ili se pokazati neznatan.
Korelacije |
||||
Isključene varijable |
s8. Osjećaj bliskost s onima koji žive pored tebe, susjedima |
s12. Osjećati se blisko njihovoj obitelji |
||
p16. Osjećajte se blisko s ljudima koji imaju isti prihod kao i vi |
s8. Osjećaj bliskost s onima koji žive pored tebe, susjedima |
Poveznica |
||
Značaj (dvostrano) |
||||
s12. Osjećati se blisko njihovoj obitelji |
Poveznica |
|||
Značaj (dvostrano) |
||||
Kao što je vidljivo iz tablice, pod utjecajem kontrolne varijable odnos se neznatno smanjio: s 0,120 na 0,102. Međutim, ovo blago smanjenje ne dopušta nam da ustvrdimo da je prethodno utvrđeni odnos odraz lažne korelacije, tj. jer ostaje prilično visok i omogućuje nam da odbacimo nultu hipotezu s nultom pogreškom.
Koeficijent korelacije
Najtočniji način za određivanje bliskosti i prirode korelacije je pronalaženje koeficijenta korelacije. Koeficijent korelacije je broj određen formulom:
gdje je r xy koeficijent korelacije;
x i - vrijednosti prve karakteristike;
y i su vrijednosti drugog atributa;
Aritmetička sredina vrijednosti prve karakteristike
Aritmetička sredina vrijednosti druge karakteristike
Da bismo koristili formulu (32), napravit ćemo tablicu koja će osigurati potrebnu dosljednost u pripremi brojeva za pronalaženje brojnika i nazivnika koeficijenta korelacije.
Kao što se može vidjeti iz formule (32), redoslijed radnji je sljedeći: nalazimo aritmetičke prosjeke obje karakteristike x i y, nalazimo razliku između vrijednosti atributa i njegovog prosjeka (x i - ) i y i - ), tada nalazimo njihov umnožak (x i - ) ( y i - ) – zbroj potonjeg daje brojnik koeficijenta korelacije. Da bi se dobio njegov nazivnik, razlike (x i - ) i (y i - ) moraju se kvadrirati, moraju se pronaći njihovi zbrojevi i mora se izvući kvadratni korijen njihovog umnoška.
Tako na primjer 31, pronalaženje koeficijenta korelacije u skladu s formulom (32) može se predstaviti na sljedeći način (tablica 50).
Dobiveni broj koeficijenta korelacije omogućuje utvrđivanje prisutnosti, bliskosti i prirode veze.
1. Ako je korelacijski koeficijent jednak nuli, nema povezanosti između karakteristika.
2. Ako je koeficijent korelacije jednak jedinici, povezanost između obilježja je tolika da prelazi u funkcionalnu.
3. Apsolutna vrijednost koeficijenta korelacije ne prelazi interval od nula do jedan:
To omogućuje fokusiranje na bliskost veze: što je koeficijent bliži nuli, to je veza slabija, a što je bliži jedinici, to je veza bliža.
4. Predznak “plus” koeficijenta korelacije označava izravnu korelaciju, predznak “minus” znači inverznu korelaciju.
Stol 50
x i | y i | (x i - ) | (u i - ) | (x i - )(y i - ) | (x i - )2 | (u i - )2 |
14,00 | 12,10 | -1,70 | -2,30 | +3,91 | 2,89 | 5,29 |
14,20 | 13,80 | -1,50 | -0,60 | +0,90 | 2,25 | 0,36 |
14,90 | 14,20 | -0,80 | -0,20 | +0,16 | 0,64 | 0,04 |
15,40 | 13,00 | -0,30 | -1,40 | +0,42 | 0,09 | 1,96 |
16,00 | 14,60 | +0,30 | +0,20 | +0,06 | 0,09 | 0,04 |
17,20 | 15,90 | +1,50 | +2,25 | 2,25 | ||
18,10 | 17,40 | +2,40 | +2,00 | +4,80 | 5,76 | 4,00 |
109,80 | 101,00 | 12,50 | 13,97 | 13,94 |
Dakle, koeficijent korelacije izračunat u primjeru 31 je r xy = +0,9. omogućuje nam da izvučemo sljedeće zaključke: postoji korelacija između veličine mišićne snage desne i lijeve ruke u ispitivanih školaraca (koeficijent r xy =+0,9 različit je od nule), odnos je vrlo blizak (koeficijent r xy =+0,9 je blizak jedinici) , korelacija je izravna (koeficijent r xy = +0,9 je pozitivan), tj. s povećanjem mišićne snage jedne ruke raste i snaga druge ruke.
Pri izračunavanju koeficijenta korelacije i korištenju njegovih svojstava treba voditi računa da zaključci daju ispravne rezultate kada su karakteristike normalno raspoređene i kada se razmatra odnos između velikog broja vrijednosti obje karakteristike.
U razmatranom primjeru 31 analizirano je samo 7 vrijednosti obje karakteristike, što, naravno, nije dovoljno za takva istraživanja. Ovdje vas još jednom podsjećamo da su primjeri u ovoj knjizi općenito, a posebno u ovom poglavlju, po prirodi ilustrirajući metode, a ne detaljan prikaz bilo kakvih znanstvenih eksperimenata. Kao rezultat toga, uzet je u obzir mali broj vrijednosti značajki, mjerenja su zaokružena - sve je to učinjeno tako da glomazni izračuni nisu zamaglili ideju metode.
Posebnu pozornost treba posvetiti suštini odnosa koji se razmatra. Koeficijent korelacije ne može dovesti do točnih rezultata istraživanja ako se odnos između karakteristika analizira formalno. Vratimo se još jednom na primjer 31. Oba razmatrana znaka bile su vrijednosti mišićne snage desne i lijeve ruke. Zamislimo da predznakom x i u primjeru 31 (14,0; 14,2; 14,9... ...18,1) mislimo na duljinu slučajno ulovljene ribe u centimetrima, a predznakom y i (12,1 ; 13,8; 14,2... ... 17.4) - težina instrumenata u laboratoriju u kilogramima. Nakon što smo formalno upotrijebili uređaj za izračun kako bismo pronašli koeficijent korelacije iu ovom slučaju također dobili r xy =+0>9, morali smo zaključiti da postoji bliska izravna veza između duljine ribe i težine instrumenata. Očita je besmislenost takvog zaključka.
Da bi se izbjegao formalni pristup korištenju koeficijenta korelacije, treba koristiti bilo koju drugu metodu - matematičku, logičku, eksperimentalnu, teoretsku - za utvrđivanje mogućnosti postojanja korelacije među karakteristikama, odnosno za otkrivanje organskog jedinstva karakteristika. Tek nakon toga može se početi koristiti korelacijsku analizu i utvrditi veličinu i prirodu odnosa.
U matematičkoj statistici također postoji pojam višestruka korelacija- odnosi između tri ili više karakteristika. U tim se slučajevima koristi koeficijent višestruke korelacije koji se sastoji od gore opisanih uparenih koeficijenata korelacije.
Na primjer, koeficijent korelacije tri karakteristike - x i, y i, z i - je:
gdje je R xyz koeficijent višestruke korelacije, koji izražava kako značajka x i ovisi o značajkama y i i z i;
r xy - koeficijent korelacije između karakteristika x i i y i;
r xz - koeficijent korelacije između karakteristika Xi i Zi;
r yz - koeficijent korelacije između obilježja y i , z i
Korelacijska analiza je:
Korelacijska analizaPoveznica- statistički odnos između dvije ili više slučajnih varijabli (ili varijabli koje se takvima mogu smatrati s nekim prihvatljivim stupnjem točnosti). Štoviše, promjene jedne ili više ovih veličina dovode do sustavne promjene druge ili drugih veličina. Matematička mjera korelacije između dviju slučajnih varijabli je koeficijent korelacije.
Korelacija može biti pozitivna i negativna (moguće je i da ne postoji statistički odnos – npr. za nezavisne slučajne varijable). Negativna korelacija - korelacija, u kojoj je porast jedne varijable povezan sa smanjenjem druge varijable, a koeficijent korelacije je negativan. Pozitivna korelacija - korelacija, u kojoj je povećanje jedne varijable povezano s povećanjem druge varijable, a koeficijent korelacije je pozitivan.
Autokorelacija - statistički odnos između slučajnih varijabli iz istog niza, ali uzetih s pomakom, npr. za slučajni proces - s vremenskim pomakom.
Metoda obrade statističkih podataka, koja se sastoji u proučavanju koeficijenata (korelacije) između varijabli, naziva se korelacijska analiza.
Koeficijent korelacije
Koeficijent korelacije ili parni koeficijent korelacije u teoriji vjerojatnosti i statistici, to je pokazatelj prirode promjene dviju slučajnih varijabli. Koeficijent korelacije označava se latiničnim slovom R i može imati vrijednosti između -1 i +1. Ako je apsolutna vrijednost bliža 1, to znači postojanje jake veze (ako je koeficijent korelacije jednak jedan, govorimo o funkcionalnoj povezanosti), a ako je bliža 0, onda je slaba.
Pearsonov koeficijent korelacije
Za metričke veličine koristi se Pearsonov koeficijent korelacije čiju je točnu formulu uveo Francis Galton:
Neka x,Y- dvije slučajne varijable definirane na istom prostoru vjerojatnosti. Tada se njihov koeficijent korelacije daje formulom:
,gdje cov označava kovarijancu, a D je varijanca, ili ekvivalentno,
,gdje simbol označava matematičko očekivanje.
Da biste grafički prikazali takav odnos, možete koristiti pravokutni koordinatni sustav s osima koje odgovaraju objema varijablama. Svaki par vrijednosti označen je određenim simbolom. Ovaj se grafikon naziva "plota raspršenosti".
Način izračuna koeficijenta korelacije ovisi o vrsti ljestvice kojoj varijable pripadaju. Dakle, za mjerenje varijabli intervalnim i kvantitativnim skalama potrebno je koristiti Pearsonov koeficijent korelacije (korelacija momenta proizvoda). Ako je barem jedna od dvije varijable na ordinalnoj ljestvici ili nije normalno raspoređena, mora se koristiti Spearmanova korelacija ranga ili Kendalov τ (tau). U slučaju da je jedna od dviju varijabli dihotomna, koristi se točkasto-biserijska korelacija, a ako su obje varijable dihotomna: četveropoljska korelacija. Izračunavanje koeficijenta korelacije između dvije nedihotomne varijable ima smisla samo kada je odnos između njih linearan (jednosmjeran).
Kendellov koeficijent korelacije
Koristi se za mjerenje međusobnog poremećaja.
Spearmanov koeficijent korelacije
Svojstva koeficijenta korelacije
- Cauchy-Bunyakovsky nejednakost:
Korelacijska analiza
Korelacijska analiza- metoda obrade statističkih podataka, koja se sastoji u proučavanju koeficijenata ( korelacije) između varijabli. U ovom slučaju, korelacijski koeficijenti između jednog para ili više parova karakteristika uspoređuju se kako bi se utvrdili statistički odnosi među njima.
Cilj korelacijska analiza- pružiti neke informacije o jednoj varijabli koristeći drugu varijablu. U slučajevima kada je moguće postići cilj, kaže se da su varijable korelirati. U svom najopćenitijem obliku, prihvaćanje hipoteze o korelaciji znači da će se promjena vrijednosti varijable A dogoditi istovremeno s proporcionalnom promjenom vrijednosti B: ako obje varijable rastu, tada korelacija je pozitivna, ako se jedna varijabla povećava, a druga smanjuje, korelacija je negativna.
Korelacija odražava samo linearnu ovisnost vrijednosti, ali ne odražava njihovu funkcionalnu povezanost. Na primjer, ako izračunate koeficijent korelacije između veličina A = sjan(x) I B = cos(x), tada će biti blizu nule, tj. nema ovisnosti između veličina. U međuvremenu, količine A i B očito su funkcionalno povezane prema zakonu sjan 2(x) + cos 2(x) = 1.
Ograničenja korelacijske analize
Grafovi distribucija parova (x,y) s pripadajućim koeficijentima korelacije x i y za svaki od njih. Imajte na umu da koeficijent korelacije odražava linearan odnos (gornja crta), ali ne opisuje krivulju odnosa (srednja crta) i uopće nije prikladan za opisivanje složenih, nelinearnih odnosa (donja crta).
- Primjena je moguća ako postoji dovoljan broj slučajeva za proučavanje: za određenu vrstu koeficijent korelacije kreće se od 25 do 100 parova opažanja.
- Drugo ograničenje proizlazi iz hipoteze korelacijske analize, koja uključuje linearna ovisnost varijabli. U mnogim slučajevima, kada se pouzdano zna da odnos postoji, korelacijska analiza možda neće dati rezultate samo zato što je odnos nelinearan (izražen, na primjer, kao parabola).
- Sama činjenica korelacije ne daje temelja za tvrdnju koja od varijabli prethodi ili uzrokuje promjene, ili da su varijable općenito uzročno povezane jedna s drugom, na primjer, zbog djelovanja trećeg čimbenika.
Područje primjene
Ova metoda obrade statističkih podataka vrlo je popularna u ekonomiji i društvenim znanostima (osobito u psihologiji i sociologiji), iako je područje primjene korelacijskih koeficijenata opsežno: kontrola kvalitete industrijskih proizvoda, metalurgija, agrokemija, hidrobiologija, biometrija i drugo.
Popularnost metode posljedica je dvaju čimbenika: koeficijente korelacije relativno je lako izračunati, a njihova uporaba ne zahtijeva posebnu matematičku obuku. U kombinaciji s lakoćom tumačenja, jednostavnost primjene koeficijenta dovela je do njegove široke upotrebe u području statističke analize podataka.
Lažna korelacija
Često, primamljiva jednostavnost istraživanja korelacije potiče istraživača na lažne intuitivne zaključke o prisutnosti uzročno-posljedične veze između parova karakteristika, dok koeficijenti korelacije uspostavljaju samo statističke odnose.
Suvremena kvantitativna metodologija društvenih znanosti zapravo je odustala od pokušaja utvrđivanja uzročno-posljedičnih odnosa između promatranih varijabli empirijskim metodama. Stoga, kada istraživači u društvenim znanostima govore o uspostavljanju odnosa između varijabli koje se proučavaju, implicira se ili opća teorijska pretpostavka ili statistička ovisnost.
vidi također
- Autokorelacijska funkcija
- Funkcija uzajamne korelacije
- Kovarijanca
- Koeficijent determinacije
- Regresijska analiza
Zaklada Wikimedia. 2010.
Koeficijent korelacije je stupanj povezanosti između dvije varijable. Njegov izračun daje ideju o tome postoji li odnos između dva skupa podataka. Za razliku od regresije, korelacija ne predviđa vrijednosti količina. Međutim, izračun koeficijenta važan je korak u preliminarnoj statističkoj analizi. Na primjer, utvrdili smo da je korelacijski koeficijent između razine izravnih stranih ulaganja i stope rasta BDP-a visok. To nam daje ideju da je za osiguranje prosperiteta potrebno stvoriti povoljnu klimu upravo za strane poduzetnike. Na prvi pogled nije tako očit zaključak!
Korelacija i uzročnost
Možda ne postoji niti jedno područje statistike koje je postalo tako čvrsto utemeljeno u našim životima. Koeficijent korelacije koristi se u svim područjima društvenog znanja. Njegova glavna opasnost je što se o njegovim visokim vrijednostima često špekulira kako bi se ljudi uvjerili i natjerali da vjeruju u neke zaključke. Međutim, zapravo, jaka korelacija uopće ne ukazuje na uzročno-posljedičnu vezu između količina.
Koeficijent korelacije: Pearsonova i Spearmanova formula
Postoji nekoliko osnovnih pokazatelja koji karakteriziraju odnos između dviju varijabli. Povijesno gledano, prvi je Pearsonov koeficijent linearne korelacije. To se uči u školi. Razvili su ga K. Pearson i J. Yule na temelju djela Fr. Galton. Ovaj koeficijent vam omogućuje da vidite odnos između racionalnih brojeva koji se racionalno mijenjaju. Uvijek je veći od -1 i manji od 1. Negativan broj označava obrnuto proporcionalni odnos. Ako je koeficijent nula, tada nema veze između varijabli. Jednak pozitivnom broju - postoji izravno proporcionalan odnos između količina koje se proučavaju. Spearmanov koeficijent korelacije ranga omogućuje vam da pojednostavite izračune izgradnjom hijerarhije vrijednosti varijabli.
Odnosi između varijabli
Korelacija pomaže odgovoriti na dva pitanja. Prvo, je li odnos između varijabli pozitivan ili negativan. Drugo, koliko je jaka ovisnost. Korelacijska analiza moćan je alat koji može pružiti ove važne informacije. Lako je vidjeti da obiteljski prihodi i rashodi proporcionalno padaju i rastu. Ovaj odnos se smatra pozitivnim. Naprotiv, kada cijena nekog proizvoda raste, potražnja za njim pada. Taj se odnos naziva negativnim. Vrijednosti koeficijenta korelacije kreću se između -1 i 1. Nula znači da ne postoji odnos između vrijednosti koje se proučavaju. Što je dobiveni pokazatelj bliži ekstremnim vrijednostima, odnos je jači (negativan ili pozitivan). Odsutnost ovisnosti označava se koeficijentom od -0,1 do 0,1. Morate razumjeti da takva vrijednost samo ukazuje na odsutnost linearnog odnosa.
Značajke primjene
Korištenje obaju pokazatelja uključuje određene pretpostavke. Prvo, prisutnost jake veze ne određuje činjenicu da jedna količina određuje drugu. Moguće je da postoji treća veličina koja definira svaku od njih. Drugo, visok Pearsonov koeficijent korelacije ne ukazuje na uzročno-posljedičnu vezu između proučavanih varijabli. Treće, pokazuje isključivo linearan odnos. Korelacija se može koristiti za procjenu značajnih kvantitativnih podataka (npr. barometarski tlak, temperatura zraka) umjesto kategorija kao što su spol ili omiljena boja.
Koeficijent višestruke korelacije
Pearson i Spearman ispitivali su odnos između dviju varijabli. Ali što učiniti ako ih je troje ili čak više. Tu u pomoć dolazi višestruki koeficijent korelacije. Na primjer, na bruto nacionalni proizvod utječu ne samo izravna strana ulaganja, već i monetarna i fiskalna politika vlade, kao i razina izvoza. Stopa rasta i obujam BDP-a rezultat su međudjelovanja niza čimbenika. Međutim, mora se razumjeti da se model višestruke korelacije temelji na nizu pojednostavljenja i pretpostavki. Prvo, multikolinearnost između vrijednosti je isključena. Drugo, odnos između ovisne i varijabli koje utječu na nju smatra se linearnom.
Područja primjene korelacijske i regresijske analize
Ova metoda pronalaženja odnosa između veličina široko se koristi u statistici. Najčešće se pribjegava u tri glavna slučaja:
- Za testiranje uzročno-posljedičnih odnosa između vrijednosti dviju varijabli. Kao rezultat toga, istraživač se nada otkriti linearni odnos i izvesti formulu koja opisuje te odnose između količina. Njihove mjerne jedinice mogu biti različite.
- Za provjeru odnosa između količina. U ovom slučaju nitko ne određuje koja je varijabla zavisna varijabla. Može se pokazati da neki drugi faktor određuje vrijednost obiju veličina.
- Za izvođenje jednadžbe U ovom slučaju možete jednostavno zamijeniti brojeve u njega i saznati vrijednosti nepoznate varijable.
Čovjek u potrazi za uzročno-posljedičnom vezom
Svijest je dizajnirana na takav način da svakako trebamo objasniti događaje koji se događaju oko nas. Čovjek uvijek traži vezu između slike svijeta u kojem živi i informacija koje prima. Mozak često stvara red iz kaosa. On lako vidi uzročno-posljedičnu vezu tamo gdje je nema. Znanstvenici moraju posebno naučiti prevladati ovu tendenciju. Sposobnost objektivne procjene odnosa između podataka ključna je u akademskoj karijeri.
Medijska pristranost
Razmotrimo kako se prisutnost korelacije može pogrešno protumačiti. Skupinu britanskih učenika s lošim ponašanjem upitali su puše li im roditelji. Zatim je test objavljen u novinama. Rezultati su pokazali jaku korelaciju između pušenja roditelja i delinkvencije njihove djece. Profesor koji je proveo ovu studiju čak je predložio da se na kutije cigareta stavi upozorenje o tome. Međutim, postoji niz problema s ovim zaključkom. Prvo, korelacija ne pokazuje koja je od veličina nezavisna. Stoga je sasvim moguće pretpostaviti da je štetna navika roditelja uzrokovana neposlušnošću djece. Drugo, ne može se sa sigurnošću reći da oba problema nisu nastala zbog nekog trećeg faktora. Na primjer, obitelji s niskim primanjima. Vrijedno je istaknuti emocionalni aspekt prvih nalaza profesora koji je proveo istraživanje. Bio je gorljivi protivnik pušenja. Stoga ne čudi što je rezultate svojih istraživanja tumačio na ovaj način.
zaključke
Pogrešno tumačenje korelacije kao uzročno-posljedične veze između dviju varijabli može uzrokovati sramotne pogreške u istraživanju. Problem je u tome što leži u samoj osnovi ljudske svijesti. Mnogi marketinški trikovi temelje se na ovoj značajci. Razumijevanje razlike između uzroka i posljedice te korelacije omogućuje vam racionalnu analizu informacija kako u svakodnevnom životu tako iu profesionalnoj karijeri.
» Statistika
Statistika i obrada podataka u psihologiji
(nastavak)
Korelacijska analiza
Prilikom studiranja korelacije pokušava utvrditi postoji li odnos između dva pokazatelja u istom uzorku (na primjer, između visine i težine djece ili između razine kvocijent inteligencije i školski uspjeh) ili između dva različita uzorka (primjerice, kada se uspoređuju parovi blizanaca), te ako taj odnos postoji, prati li povećanje jednog pokazatelja povećanje (pozitivna korelacija) ili smanjenje (negativna korelacija) drugi.
Drugim riječima, korelacijska analiza pomaže utvrditi je li moguće predvidjeti moguće vrijednosti jednog pokazatelja, znajući vrijednost drugog.
Do sada, kada smo analizirali rezultate našeg iskustva u proučavanju učinaka marihuane, namjerno smo ignorirali takav pokazatelj kao što je vrijeme reakcije. U međuvremenu, bilo bi zanimljivo provjeriti postoji li veza između učinkovitosti reakcija i njihove brzine. To bi omogućilo, na primjer, tvrdnju da što je osoba sporija, to će njegove akcije biti točnije i učinkovitije i obrnuto.
U tu svrhu mogu se koristiti dvije različite metode: parametarska metoda izračuna Bravais-Pearson koeficijenta (r) i izračun Spearmanovog rang koeficijenta korelacije (r s), koji se primjenjuje na ordinalne podatke, tj. je neparametarski. Međutim, prvo shvatimo što je korelacijski koeficijent.
Koeficijent korelacije
Koeficijent korelacije je vrijednost koja može varirati od +1 do -1. U slučaju potpune pozitivne korelacije taj je koeficijent jednak plus 1, a u slučaju potpuno negativne korelacije minus 1. Na grafikonu to odgovara ravnoj liniji koja prolazi kroz točke sjecišta vrijednosti od svakog para podataka:
Ako se te točke ne poredaju u ravnu liniju, već tvore "oblak", koeficijent korelacije u apsolutnoj vrijednosti postaje manji od jedan i, kako se ovaj oblak zaokružuje, približava se nuli:
Ako je koeficijent korelacije 0, obje varijable su potpuno neovisne jedna o drugoj.
U humanističkim znanostima, korelacija se smatra jakom ako je njen koeficijent veći od 0,60; ako prelazi 0,90, tada se korelacija smatra vrlo jakom. No, da bi se mogli zaključivati o odnosima između varijabli, veličina uzorka je od velike važnosti: što je uzorak veći, to je vrijednost dobivenog koeficijenta korelacije pouzdanija. Postoje tablice s kritičnim vrijednostima Bravais-Pearsonovog i Spearmanovog koeficijenta korelacije za različite brojeve stupnjeva slobode (jednak je broju parova minus 2, tj. n- 2). Samo ako su korelacijski koeficijenti veći od ovih kritičnih vrijednosti, mogu se smatrati pouzdanima. Dakle, da bi korelacijski koeficijent od 0,70 bio pouzdan potrebno je u analizu uzeti najmanje 8 parova podataka ( h =n-2=6) pri izračunavanju r (vidi tablicu 4 u dodatku) i 7 parova podataka (h = n-2= 5) pri izračunu r s (Tablica 5 u Dodatku).
Još jednom želim naglasiti da je bit ova dva koeficijenta nešto drugačija. Negativan koeficijent r pokazuje da je izvedba veća što je vrijeme reakcije kraće, dok je za izračun koeficijenta r s potrebno provjeriti reagiraju li brži subjekti uvijek točnije, a sporiji manje točnije.
Bravais-Pearsonov koeficijent korelacije (r) - Ovo je parametarski pokazatelj za čiji se izračun uspoređuju prosječne i standardne devijacije rezultata dvaju mjerenja. U ovom slučaju koriste formulu (može izgledati drugačije za različite autore):
gdje je Σ XY- zbroj umnožaka podataka iz svakog para;
n-broj parova;
X - prosjek za zadanu varijablu X;
Y -
prosjek za datu varijablu Y
S x - standardna devijacija za distribuciju X;
S y - standardna devijacija za distribuciju na
Spearmanov koeficijent korelacije ranga ( r s ) - ovo je neparametarski pokazatelj, uz pomoć kojeg se pokušava identificirati odnos između redova odgovarajućih veličina u dvije serije mjerenja.
Ovaj koeficijent je lakše izračunati, ali su rezultati manje točni od korištenja r. To je zbog činjenice da se pri izračunu Spearmanova koeficijenta koristi redoslijed podataka, a ne njihove kvantitativne karakteristike i intervali između razreda.
Činjenica je da kada se koristi Spearmanov koeficijent korelacije ranga (r s), oni samo provjeravaju hoće li rang podataka za bilo koji uzorak biti isti kao u nizu drugih podataka za ovaj uzorak, upareno povezanih s prvima (za na primjer, hoće li biti isti "rangirani" studenti kada polažu i psihologiju i matematiku, ili čak kod dva različita nastavnika psihologije?). Ako je koeficijent blizu +1, to znači da su obje serije praktički identične, a ako je koeficijent blizu -1, možemo govoriti o potpunoj inverznoj vezi.
Koeficijent r s izračunati po formuli
Gdje d- razlika između redova konjugiranih vrijednosti obilježja (bez obzira na njegov znak), i - broj parova.
Obično se ovaj neparametarski test koristi u slučajevima kada je potrebno izvući neke zaključke ne toliko o intervali između podataka, koliko o njima činovi, a također i kada su krivulje distribucije previše nagnute da dopuste korištenje parametarskih kriterija kao što je koeficijent r (u tim slučajevima može biti potrebno pretvoriti kvantitativne podatke u redne podatke).
Sažetak
Dakle, pogledali smo različite parametarske i neparametarske statističke metode koje se koriste u psihologiji. Naš osvrt je bio vrlo površan, a glavni zadatak mu je bio dati čitatelju do znanja da statistika nije tako strašna kao što se čini i da zahtijeva uglavnom zdrav razum. Podsjećamo vas da su podaci o “iskustvima” kojima smo se ovdje bavili izmišljeni i ne mogu poslužiti kao temelj za bilo kakve zaključke. Međutim, takav bi se eksperiment doista isplatio provesti. Budući da je za ovaj eksperiment odabrana čisto klasična tehnika, ista se statistička analiza može koristiti u mnogim različitim eksperimentima. U svakom slučaju, čini nam se da smo zacrtali neke glavne smjernice koje bi mogle biti od koristi onima koji ne znaju odakle krenuti sa statističkom analizom dobivenih rezultata.
Književnost
- Godefroy J.Što je psihologija. - M., 1992.
- Chatillon G., 1977. Statistique en Sciences humaines, Trois-Rivieres, Ed. SMG.
- Gilbert N.. 1978. Statistiques, Montreal, Ed. HRW.
- Moroney M. J., 1970. Comprendre la statistique, Verviers, Gerard et Cie.
- Siegel S., 1956. Neparametarska statistika, New York, MacGraw-Hill Book Co.
Aplikacija za stolove
Bilješke 1) Za velike uzorke ili razine značajnosti manje od 0,05, trebali biste pogledati tablice u udžbenicima statistike.
2) Tablice vrijednosti za druge neparametarske kriterije mogu se pronaći u posebnim priručnicima (vidi bibliografiju).
Tablica 1. Vrijednosti kriterija t Studentski test | |
h | 0,05 |
1 | 6,31 |
2 | 2,92 |
3 | 2,35 |
4 | 2,13 |
5 | 2,02 |
6 | 1,94 |
7 | 1,90 |
8 | 1,86 |
9 | 1,83 |
10 | 1,81 |
11 | 1,80 |
12 | 1,78 |
13 | 1,77 |
14 | 1,76 |
15 | 1,75 |
16 | 1,75 |
17 | 1,74 |
18 | 1,73 |
19 | 1,73 |
20 | 1,73 |
21 | 1,72 |
22 | 1,72 |
23 | 1,71 |
24 | 1,71 |
25 | 1,71 |
26 | 1,71 |
27 | 1,70 |
28 | 1,70 |
29 | 1,70 |
30 | 1,70 |
40 | 1,68 |
¥ | 1,65 |
Tablica 2. Vrijednosti kriterija χ 2 | |
h | 0,05 |
1 | 3,84 |
2 | 5,99 |
3 | 7,81 |
4 | 9,49 |
5 | 11,1 |
6 | 12,6 |
7 | 14,1 |
8 | 15,5 |
9 | 16,9 |
10 | 18,3 |
Tablica 3. Značajne Z vrijednosti | |
R | Z |
0,05 | 1,64 |
0,01 | 2,33 |
Tablica 4. Pouzdane (kritične) r vrijednosti | ||
h = (N-2) | p= 0,05 (5%) | |
3 | 0,88 | |
4 | 0,81 | |
5 | 0,75 | |
6 | 0,71 | |
7 | 0,67 | |
8 | 0,63 | |
9 | 0,60 | |
10 | 0,58 | |
11 | 0.55 | |
12 | 0,53 | |
13 | 0,51 | |
14 | 0,50 | |
15 | 0,48 | |
16 | 0,47 | |
17 | 0,46 | |
18 | 0,44 | |
19 | 0,43 | |
20 | 0,42 |
Tablica 5. Pouzdane (kritične) vrijednosti r s | |
h = (N-2) | p = 0,05 |
2 | 1,000 |
3 | 0,900 |
4 | 0,829 |
5 | 0,714 |
6 | 0,643 |
7 | 0,600 |
8 | 0,564 |
10 | 0,506 |
12 | 0,456 |
14 | 0,425 |
16 | 0,399 |
18 | 0,377 |
20 | 0,359 |
22 | 0,343 |
24 | 0,329 |
26 | 0,317 |
28 | 0,306 |
Prijepis
1 Itkina A.Ya. Koeficijenti korelacije i specifičnosti njihove primjene Glavna svrha korelacijske analize je identificirati odnos između dviju ili više varijabli koje se proučavaju. Najčešće se analizira zajednička koordinirana promjena dvaju proučavanih pokazatelja koji su slučajne varijable. Ova varijabilnost ima tri glavne karakteristike: oblik, smjer i snagu. Oblik korelacijskog odnosa može biti linearan i nelinearan. U smjeru pozitivnog ili negativnog. Po snazi blizu, slaba ili odsutna. Korelacijska analiza moguća je kako na temelju grafičkog prikaza izvornih podataka, tako i izračunavanjem koeficijenta korelacije i provjerom njegove statističke značajnosti. Tipično, jedna studija nadopunjuje drugu. Trenutno je razvijeno mnogo različitih koeficijenata korelacije. Najčešće korišteni su r-Pearson, r-Spearman i τ-Kendall. Ovisno o problemu koji se rješava i vrsti ulaznih podataka, vrijedi dati prednost jednom od ovih koeficijenata. Zajedničko im je to što se svi navedeni koeficijenti koriste za proučavanje odnosa dviju varijabli mjerenih na istom uzorku. Variraju u rasponu od -1 do +1, a njihov predznak pokazuje smjer veze. Pokušajmo sada razumjeti njihove razlike. Pearsonov koeficijent korelacije (Karl Pearson, engleski matematičar, statističar, biolog i filozof) primjenjiv je ako se obje varijable mjere na metričkoj (intervalnoj ili apsolutnoj) skali. Ograničenje pri korištenju Pearsonovog koeficijenta korelacije je da je distribucija barem jedne od varijabli različita od normalne. Pearsonov r posebno snažno reagira na prisutnost outliera. Za onaj prikazan na Sl. 1 oblak oblaka r-Pearson jednak je ,98 ako se uzmu u obzir samo plave točke i ,27 ako se računa preko svih točaka, tj. zajedno s izbacivanjem ružičaste točke. Budući da je r-Pearsonov koeficijent mjera 1
2 Koeficijenti korelacije i specifičnosti njihove primjene na linearne odnose, nije primjenjiv na analizu nelinearnih odnosa. R-Pearsonova jednakost znači da ne postoji linearni odnos između varijabli r xy Sl. 1. Oblak točaka 1. Vrijednost uzorka (x x)(y y) (x x) (y y) 2 2 r-Pearson može se izračunati po formuli:. Pearsonova r-jednakost 1 ukazuje na funkcionalni linearni odnos između varijabli koje se proučavaju. Važno svojstvo Pearsonovog r je njegova neosjetljivost na linearne transformacije varijabli. znači Neka je kx b, tada r y n n n n (kx b) kx b k x n b k x b, i n n n (kx b (k x b))(y y) (k(x x))(y y) (kx b (k x b)) (y y) (k (x x) ) (y y) k (x x)(y y) k (x x)(y y) k r k (x x) (y y) k (x x) (y y) k pozitivni k koeficijenti korelacije će se podudarati, a za negativne ry xy, tj. na r. xy Pearsonova r-značajnost, tj. njegovu razliku od, može se provjeriti korištenjem Student statistike t r n r 2
3 Itkina A.Ya. Hipoteza H:, rxy alternativa H: 1 rxy. Prema tome, ako t t n nulta hipoteza se odbacuje u korist alternative. Točka (crit 2; 2) testiranja nulte hipoteze, pod uvjetom da su dostupni uzorci reprezentativni, jest provjeriti pretpostavku da je korelacija između varijabli slučajna, tj. o neovisnosti slučajnih varijabli (ako je odnos linearan). Teorija i praksa Dodati 1 barel nafte i 1 km cjevovoda je besmisleno, ali tehnički moguće (1+1=2). Izračunavanje Pearsonovog koeficijenta korelacije za ordinalne varijable, za varijable koje imaju slučajnu distribuciju, pa čak i za nominativne varijable tehnički je moguće i čak ima smisla. Dakle, koeficijent korelacije izračunat formulom je ogledna procjena teorijske korelacije dviju slučajnih varijabli r xy cov(xy ;) D(x) D(y). Za slučajnu varijablu koja ima bivarijantnu normalnu distribuciju, koeficijent korelacije uzorka, pod uvjetom da je teorijski jednak, ima Studentovu t distribuciju s (n 2) stupnjeva slobode. Na toj se činjenici temelji provjera hipoteze o jednakosti koeficijenta korelacije. Izračun Pearsonovog koeficijenta korelacije u slučajevima kršenja uvjeta za njegovu upotrebu pokušaj je utvrđivanja prisutnosti ili odsutnosti odnosa između količina. Nažalost, u tim slučajevima r-Pearsonova distribucija nije poznata. Stoga zaključci na temelju takve analize nisu pouzdani. Rang opažanja je broj koji će to opažanje dobiti u ukupnosti dostupnih podataka, poredanih po nekom kriteriju. Na primjer, za uzorak od 3, 9, 26, -4, 11, 5, rangiran uzlaznim redoslijedom, rangovi će biti brojevi od 1 do 7: 3, 5, 7, 1, 6, 2, 4. Poteškoće u dodjeljivanju rangova nastaju ako među elementima postoje podudarni uzorci. Skup identičnih opažanja naziva se snop, a broj opažanja u jednom snopu je njegova veličina. Povezani ili prosječni rang je broj jednak aritmetičkoj sredini rangova koje bi 3 imao
4 Koeficijenti korelacije i specifičnosti njihove upotrebe brojeva u konjunkciji, ako su različiti. Na primjer, za uzorak od 6, 15, 12, 6, 1, 15, 9, 15, odgovarajući rangovi će biti 1 1 2, 7, 5, 1 1 2, 4, 7, 3, 7. Spearmanova korelacija koeficijent (Charles Edward Spearman, engleski psiholog, statističar) primjenjiv je ako se obje varijable mjere na kvantitativnoj (metričkoj ili ordinalnoj) ljestvici. Nepostojanje ograničenja na vrstu distribucije početnih podataka (varijabli) je zbog činjenice da je to koeficijent korelacije ranga. Spearmanov n 6 (k t) 1 r 1 3 n n 2 Spearmanov koeficijent korelacije je inferioran u odnosu na r-Pearson samo time što je manje osjetljiv na povezanost u slučajevima beznačajnog odstupanja distribucije varijabli od normale. Ideja Spearmanovog r je da su obje varijable rangirane (nazovimo rangove k i t). I izračunavaju se razlike između rangova za isto opažanje. Ako su za sva promatranja razlike blizu, tada je povećanje jedne varijable gotovo uvijek popraćeno povećanjem druge. Formula pokazuje da će u ovom slučaju Spearmanov r- biti blizu 1. Za ručni izračun prikladna je r- formula, koja se može koristiti u nedostatku povezanih rangova ili malih (<1% наблюдений) их количестве. Ту же самую величину r-спирмена, более того без ограничения на связанные ранги, можно получить применив формулу r-пирсона к ранжированным переменным. Значимость коэффициента корреляции Спирмена проверяется по тем же формулам, что и значимость r-пирсона для n 3. Для выборок небольшого размера лучше пользоваться таблицами критических значений. Коэффициент корреляции Кендалла (Maurce George Kendall, английский статистик) применим, если обе переменные измерены в количественной 4
5 Itkina A.Ya. (metrička ili ordinalna) ljestvica. On je, kao i Spearmanov koeficijent korelacije, koeficijent ranga. Glavna ideja iza Kendallove τ je proučavanje smjera odnosa između varijabli kroz međusobne usporedbe opažanja u paru. Situacija u kojoj je promjena u X za dva opažanja suusmjerena s promjenom Y za ista opažanja naziva se slučajnošću. A višesmjernu promjenu nazivamo inverzijom. Na primjer, ako su rangovi u X 2, 1, 3, 4, a u Y - 3, 1, 2, 4, tada je promjena u redovima pri pomicanju od 1. opažanja do drugog ko-smjerna (opadajuća) , a kada se kreće od 1 - od trećeg do trećeg u različitim smjerovima (u X je povećanje, au Y smanjenje). Postoji N(N 1) takvih parnih usporedbi koje je potrebno izvesti, što je vrlo 2 radno intenzivno. Stoga je za ručnu eta τ-Kendall uobičajeno poredati opažanja prema jednoj od varijabli, na primjer, prema X. τ-Kendall je razlika u relativnim učestalostima koincidencija i inverzija za sva opažanja: P Q, u transformiranom obliku N(N 1) / 2 4Q 4P 1 1, N (N 1) N (N 1) gdje je P broj podudaranja, Q je broj inverzija, P Q N (N 1) / 2. Tablica 1 prikazuje primjer brojanja podudarnosti i inverzija. Stupci od 6 do 9 dani su radi boljeg razumijevanja da smjer sortiranja ne utječe na vrijednost Kendallova τ-. Svaki rang u stupcu 3 uspoređujemo s vrijednostima ispod njega. Budući da je stupac 2 poredan uzlaznim redoslijedom, podudaranja će biti svi slučajevi u kojima je opažanje s nižim rangom više u stupcu od opažanja s višim rangom. Prilikom popunjavanja stupca 8, podudaranje će imati vrijednost ranga veću (stupac 7) od opažanja niže u stupcu. Na primjer, rang 4 je veći od 2, 3 i 1, tj. samo 3 utakmice. 5
6 Koeficijenti korelacije i specifičnosti njihove primjene Tablica 1. Opažanja Rangovi Slučajnosti Inverzije Rangovi Slučajnosti Inverzije X Y P Q X Y P Q (6 1) / 2 15 Σ = 11 Σ = 4 Σ = 11 Σ = 4 To znači da postoji gotovo 47 posto podudaranja više često nego inverzije. Drugim riječima, vjerojatnost slučajnosti i inverzija značajnosti Kendallova korelacijskog koeficijenta provjerava se prema tablici standardne normalne distribucije, za koju je statistika PQ 1 N (N 1) (2N 5) /18 izračunava se i njegova se vrijednost uspoređuje s tabličnom vrijednošću. Ili se pronađe odgovarajuća vrijednost vjerojatnosti i uspoređuje se s razinom značajnosti. Treba imati na umu da nulta hipoteza o nepostojanju korelacije odgovara dvostranoj alternativi o njezinoj prisutnosti. Za gore predstavljeni primjer (6 1) (2 6 5) / .13, tablica (.25) 1.96, tj. na razini značajnosti od 3 17 /18 28,3 α=.5 nije pronađena korelacija između varijabli X i Y. Ili kroz vjerojatnost p () 2, budući da je alternativa dvostrana).,129*2 =.258 >.5, dobivamo isti izlaz (pomnožimo sa 6
7 Itkina A.Ya. Osnovna ideja koeficijenata korelacije ranga je da je mogući broj permutacija n brojeva ranga n! a svaka je permutacija jednako vjerojatna. Stoga je vjerojatnost slučajne podudarnosti rangova u dva uzorka zanemariva. Ako je H istinit, distribucija r-Spearmanovih i τ-Kendallovih koeficijenata je simetrična i koncentrirana oko nule. Za male uzorke postoje tablice kritičnih vrijednosti Spearmanove i Kendallove statistike, a kako n raste, njihova se distribucija približava standardnoj normali. Ako je H netočan, tada niz rangova k na neki način "utječe" na niz t. Na primjer, ako se rangovi potpuno podudaraju, to znači da je rast jedne varijable jedinstveno povezan s rastom druge varijable. Zato je značajka koeficijenata ranga identifikacija ne samo linearnog odnosa između varijabli, već i bilo koje vrste monotonog odnosa. Za onaj prikazan na Sl. 2 r-Spearman/τ-Kendall oblaci točaka jednaki su 1 ako se uzmu u obzir samo plave točke i .75/.76 ako se računaju preko svih točaka, tj. zajedno s izbacivanjem ružičaste točke. Vraćajući se na sl. 1, vidimo da je outlier doveo do smanjenja r-Pearson za,98-,27=,71; Spearmanov r-by.99-.53=.46; τ-kendall na,95-,64=,31. Oni. Prednost koeficijenata korelacije ranga je u tome što su manje osjetljivi na outliere od r-Pearsonove slike. 2. Oblak točaka 2. Budući da r-Spearmanov i τ-Kendallov koeficijent pokazuju mjeru monotone veze, nisu primjenjivi za analizu veza koje mijenjaju svoj smjer. Jednakost Spearmanova r ili Kendallova τ znači da ne postoji monoton odnos između varijabli. 7
8 Koeficijenti korelacije i specifičnosti njihove primjene Primjer 1. Eksperti su procijenili rizike razvoja područja N ležišta M. Rizici su poredani u silaznom redoslijedu (od 1 maksimalno do 8 najmanje). Jesu li procjene stručnjaka dosljedne? Rizici Stručne procjene 1 Stručne procjene 2 P (koincidencije) Tablica 2. Q (inverzije) Geološki Tehnološki Tehnički Kreditni Špekulativni Politički 6 7 Pad potražnje 7 7 Prirodna viša sila 8 7 Σ = 2 Σ = Izračun koincidencija i inverzija dan je u tablici 2, Izračunajmo faktore korekcije: K x 3 (31) 3 (31) 3 (3 1) N(N 1) 3; Ky 6; 28; Tada je Kendallov koeficijent korelacije Spearmanov koeficijent korelacije za stručne procjene jednak 923, τ-Kendall 853. Unatoč nepostojanju inverzija, koeficijenti korelacije manji su od 1, budući da prisutnost konektiva smanjuje varijabilnost podataka, a time i mogućnost procjene korelacijskog odnosa. Gore je prikazano kako bi se provjerila značajnost τ-Kendalla, međutim, statistika samo asimptotski ima normalnu distribuciju (n 3), a za mali uzorak (n = 8) ispravnije je koristiti tablicu kritičnih točaka. H: nema korelacije. Alternativno: korelacija je pozitivna, kritične vrijednosti Spearmanovog r su 643; τ-kendall,571. Oni. na razini od 5% oba su koeficijenta pozitivna. Alternativno: korelacija 8
9 Itkina A.Ya. različite od nule, kritične vrijednosti Spearmanovog r, 738; τ-kendall,643. Oni. na razini od 5% oba koeficijenta su različita od nule. Testiranje hipoteza o razlikama u korelacijama 1. Razmotrimo dva primjera u kojima će se testirati hipoteza H o jednakosti koeficijenata korelacije u općim populacijama. Primjer 2. Proučavano je pitanje utjecaja antikorozivnog premaza S na učestalost nesreća na cjevovodima. Tijekom šest mjeseci zabilježen je broj havarija i debljina stijenke cijevi na mjestu nesreće na 5 linearnih dionica cjevovoda bez obloge i na 36 dionica s oblogom. Pearsonova korelacija za prvi uzorak bila je r1,59, za drugi uzorak r2,42. Možemo li pretpostaviti da odnos između debljine stijenke i broja nesreća nestaje kada se koristi antikorozivni premaz? U ovom primjeru, dva analizirana koeficijenta korelacije izračunata su iz neovisnih uzoraka. Postupak ispitivanja H za neovisne uzorke sastoji se od sljedećih koraka. 1. Fisherova Z-transformacija izvornih korelacijskih koeficijenata (FISHER() funkcija u Excelu): i r ln 2 1 r, za koeficijente dane u primjeru 1 1,59 1 ln.68 2 1,59 1 1,42 ln.42 2 Izračun kriterijska statistika pomoću formule:,68, N 3 N,1. 3. Usporedba s krit. Koristeći tablicu standardnih normalnih vjerojatnosti, nalazimo kritičnost od 1,96 za razinu značajnosti od 5% i dobivamo kritičnost. 1 Metode i ideje ovog dijela posuđene su iz udžbenika: Nasledov A.D. Matematičke metode psiholoških istraživanja. Sankt Peterburg: Reč, 212. S
10 Koeficijenti korelacije i specifičnosti njihove primjene 4. Zaključak: koeficijenti korelacije nisu statistički razlučivi, stoga antikorozivni premaz nije utjecao na odnos havarija i debljine stijenke cijevi. Primjer 3. U Njemačkoj je proučavan odnos između broja sunčanih sati tjedno (x), proizvodnje električne energije iz fotonaponskih ćelija (y) i proizvodnje električne energije iz vjetroturbina (). Istraživanje je provedeno tijekom dnevnog svjetla. Bilo je važno razumjeti podudaraju li se često porast i pad proizvodnje električne energije iz nekoliko obnovljivih izvora energije, kao i proučiti stupanj predvidljivosti proizvodnje vjetra, jer meteorološke stanice bolje predviđaju sunčane dane nego snagu vjetra. Prikupljeno je 39 tjedana informacija i izračunati su koeficijenti korelacije u paru od r.71; r, 4; r,29. xy x y Postupak provjere hipoteze o koincidenciji korelacije između ovisnih uzoraka, a to su u ovom slučaju broj sunčanih sati i proizvodnja električne energije iz dva različita izvora u istim satima, sastoji se od eta Z-kriterija i zaključak na temelju usporedbe s krit. Korištenje algoritma za testiranje takvih hipoteza za neovisne uzorke može dovesti do pogrešaka zbog manje snage takvog testiranja. Formula za (r r) N xy x (1 rxy) (1 rx) 2 ry (2 ry rxy rx)(1 rxy rx ry). Za dostupne podatke pokazalo se da je 2,13, što je više od 1,96. Sukladno tome, zaključujemo da na razini kritične značajnosti od 5% hipotezu treba odbaciti. Štoviše, kad bismo odabrali razinu značajnosti od 1%, ne bi bilo razloga odbaciti hipotezu. Zaključak Nažalost, u slučaju kada izvorni podaci ne dopuštaju donošenje pouzdanog zaključka, ispada da su nestabilni na male promjene u izvornim podacima. Pri provjeri je odbijeno da povećanje smanjenja r x za samo četiri stotinke dovodi do 1,9. Oni. Samo uz primjetno odstupanje od kritičnosti može se pouzdano zaključiti o podudarnosti/nepodudarnosti koeficijenata korelacije u općoj populaciji podataka. 1
11 Itkina A.Ya. Parcijalni koeficijent korelacije Budući da koeficijent korelacije samo matematički odražava prisutnost/odsutnost odnosa između varijabli, postavlja se pitanje prave i lažne korelacije. Oni. je li odnos između varijabli uistinu značajan ili je to jednostavno posljedica utjecaja outliera ili treće varijable. U prvom slučaju, pogrešni zaključci o koeficijentu korelacije mogu se izbjeći razmatranjem oblaka točaka za varijable. Drugi slučaj je teži jer zahtijeva nagađanje što bi moglo uzrokovati lažnu korelaciju. Kako bismo ilustrirali ovaj problem, razmotrimo podatke o odnosu potrošnje energije po stanovniku, kWh po osobi/godini (x) u nekoliko zemalja s veličinom teritorija tih zemalja, kvadratnih. km (y). Za uzorak od 44 zemlje izračunat je Pearsonov koeficijent korelacije koji se pokazao jednakim 79. Na sl. 3 vidljivo je da se oblak raspada na zasebne dijelove, što dovodi u pitanje ispravnost primjene koeficijenta korelacije. Nakon pažljivog proučavanja popisa zemalja uključenih u uzorak, napravljena je pretpostavka da ih je potrebno podijeliti s BDP-om po glavi stanovnika, US$ () Sl. 3. Oblak točaka: x-os je površina zemalja; prema potrošnji energije. Parcijalni koeficijent korelacije pokazuje kakav bi bio odnos između dviju varijabli kada bi se isključio utjecaj druge varijable. Parcijalni koeficijenti mogu biti različitog reda. Redoslijed koeficijenta određen je brojem faktora čiji je utjecaj isključen. Evo nas 11
12 Koeficijenti korelacije i specifičnosti njihove primjene Razmatramo samo parcijalni koeficijent korelacije prvog reda. Nakon uvođenja dodatne varijable dobiveni su rx.93 i ry.76. r xy/ rxy rx ry,79.93.76, (1 rx)(1 ry) (1.93)(1.76) Provjerimo statističku značajnost parcijalnog koeficijenta korelacije. Broj stupnjeva slobode smanjio se na n 3. t rxy / n3.39. 1r 1, xy/ Budući da je t t (,25;41) 2.2, mora se odbaciti hipoteza o nepostojanju korelacije između potrošnje električne energije i površine zemlje na razini značajnosti od 5%. No, ta veza nije toliko značajna kako se na prvi pogled činilo. 12
13 Itkina A.Ya. DODATAK 1 Tablica kritičnih vrijednosti Spearmanova koeficijenta korelacije ranga 2 (za testiranje jednostranih alternativa; n veličina uzorka; α razina značajnosti) 2 S web stranice Sveučilišta York (UK) 13
14 Koeficijenti korelacije i specifičnosti njihove primjene DODATAK 2. Tablica kritičnih vrijednosti koeficijenta Kendallove rang korelacije 3 (za testiranje jednostranih alternativa; n veličina uzorka; α razina značajnosti) 3 Sa web stranice Sveučilišta York (UK) 14
KONTROLA TESTOVA ZA MODUL 2 1. Pretpostavka testirana znanstvenim metodama a) znanstvena hipoteza; b) statistička hipoteza; c) hipoteza istraživanja; d) problem istraživanja. 2. Provjerljivo
Gdje da idem odavde? Gdje želiš ići? Ali nije me briga, sve dok negdje stignem. Tada je svejedno kamo ići. Sigurno ćeš negdje završiti. Lewis Carroll Odabir statističkog testa
KORELACIJSKA ANALIZA Linearna korelacija Kao što je gore prikazano, oblak točaka može se opisati dvjema regresijskim linijama, regresijom X na Y i Y na X. Što je kut između ovih linija manji, odnos je jači
3 Metode statističke obrade podataka 3. Analiza tablica kontingencije. Za proučavanje odnosa između para kvalitativnih karakteristika koristi se analiza tablica kontingencije. Tablica nepredviđenih situacija
Predavanje 0.3. Koeficijent korelacije U ekonometrijskim istraživanjima pitanje prisutnosti ili odsutnosti ovisnosti između analiziranih varijabli rješava se metodama korelacijske analize. Samo
7. KORELACIJSKO-REGRESIJSKA ANALIZA Linearna regresija Metoda najmanjih kvadrata () Linearna korelacija () () 1 Praktična nastava 7 KORELACIJSKO-REGRESIJSKA ANALIZA Rješavanje praktičnih zadataka
MINISTARSTVO OBRAZOVANJA I ZNANOSTI RUSKE FEDERACIJE SAVEZNA AGENCIJA ZA OBRAZOVANJE DRŽAVNA OBRAZOVNA USTANOVA VISOKOG STRUČNOG OBRAZOVANJA DRŽAVA NOVOSIBIRSK
Ekonometrijsko modeliranje Laboratorijski rad Korelacijska analiza Sadržaj Pojam korelacijske i regresijske analize... 3 Uparene korelacijske analize. Koeficijent korelacije... 4 Zadatak
Korelacijski materijal iz Wikipedije, besplatne enciklopedije Korelacija je statistički odnos između dvije ili više slučajnih varijabli (ili vrijednosti koje mogu biti s nekim prihvatljivim stupnjem točnosti
Savezna agencija za obrazovanje Državna obrazovna ustanova visokog stručnog obrazovanja "MATI" Rusko državno tehnološko sveučilište nazvano po. K.E. Ciolkovski
Predavanje 8. Neparametrijski testovi neovisnosti. Korelacijska analiza Grauer L.V., Arkhipova O.A. CS Center St. Petersburg, 2014. Grauer L.V., Arkhipova O.A. (CSC) Neparametrijski kriteriji... St. Petersburg,
Predavanje Korelacijska analiza. Opisne statistike. Koeficijent korelacije određen je pomoću: xy Analiza korelacije M mx Y m Koeficijent pokazuje mjeru linearnog odnosa između x i y, gdje su x i y korijen srednje kvadratne vrijednosti.
UDK...0 KORELACIJSKA ANALIZA MJERENJA PARAMETARA REŽIMA U PROBLEMU UPRAVLJANJA ELEKTRIČNIM SUSTAVOM Pavlyukov V.S., Pavlyukov S.V. Južnouralsko državno sveučilište, Čeljabinsk, Rusija Osnove
STATISTIČKO ZAKLJUČIVANJE 1. Uvod u problematiku statističkog zaključivanja 2. Statističke hipoteze 3. Statistički kriterij 4. Statistička značajnost 5. Klasifikacija statističkih kriterija 6. Sadržaj
Smjernice Korelacija Regresija Y na X ili uvjetno matematičko očekivanje slučajne varijable Y u odnosu na slučajnu varijablu X je funkcija oblika M (Y/ x) = f (x). Regresija X na Y
Predavanje 6. Metode mjerenja čvrstoće parnih korelacija Znakovi se mogu prikazati u kvantitativnoj, ordinalnoj i nominalnoj ljestvici. Ovisno o mjerilu na kojem su znakovi prikazani,
Predavanje 7. Neparametrijski testovi neovisnosti. Grauer L.V., Arkhipova O.A. CS centar St. Petersburg, 2015. Grauer L.V., Arkhipova O.A. (CSC) Kriteriji neovisnosti St. Petersburg, 2015. 1 / 31 Sadržaj
Upute za izvođenje laboratorijskih radova Na temelju korelacijske tablice pronaći primjer jednadžbe linearne regresije Y na X. Metodičke upute Regresija Y na X ili uvjetna matematička
Provjera statističkih hipoteza 1. Osnovni pojmovi. Nulta hipoteza (H 0) izjava o parametrima populacije ili distribuciji koja je potrebna
Predavanje 8. Neparametrijski kriteriji homogenosti i neovisnosti Bure V.M., Grauer L.V. ShAD St. Petersburg, 2013. Bure V.M., Grauer L.V. (SHAD) Neparametrijski kriteriji... St. Petersburg, 2013 1 / 39
7 Korelacijska i regresijska analiza. Korelacijska analiza statističkih podataka. Statistički odnosi između varijabli mogu se proučavati pomoću metoda disperzije,
Predavanje 7 TESTIRANJE STATISTIČKIH HIPOTEZA SVRHA PREDAVANJA: definirati pojam statističkih hipoteza i pravila za njihovo testiranje; testirati hipoteze o jednakosti srednjih vrijednosti i varijanci normalno raspodijeljenih
Volga State Technological University Department of RTiMBS Metodološke upute za izvođenje laboratorijskog rada 4 u disciplini "Automatizacija eksperimentalne obrade podataka" Analiza sličnosti
MATEMATIČKE METODE U UPRAVLJANJU ZEMLJIŠTEM Karpičenko Aleksandar Aleksandrovič Izvanredni profesor Odsjeka za znanost o tlu i zemljišne informacijske sustave Literatura elib.bsu.by Matematičke metode u upravljanju zemljištem [Elektronički
11 Testovi iz matematičke statistike Test 1 P 1 Za bilo koji x vrijedi relacija F x desna strana. Zadani uzorak (3,1,3,1,4, 5) Napravite niz varijacija 3 Koji x i uzorak. procjena
Predavanje 7 EKONOMETRIJA 7 Analiza kvalitete empirijske višestruke linearne regresijske jednadžbe Izrada empirijske regresijske jednadžbe početni je stupanj konstruirane ekonometrijske analize.
MINISTARSTVO OBRAZOVANJA I ZNANOSTI RUSKE SAVEZNE DRŽAVNE PRORAČUNSKE OBRAZOVNE USTANOVE VISOKOG OBRAZOVANJA "VOLGOGRADSKO DRŽAVNO TEHNIČKO SVEUČILIŠTE" TEHNOLOŠKI INSTITUT KAMYSHIN (PODRUŽNICA)
Testiranje statističke hipoteze o matematičkom očekivanju normalne distribucije s poznatom varijancom. Neka postoji normalno distribuirana slučajna varijabla N definirana na skupu objekata
3.4. STATISTIČKE KARAKTERISTIKE UZORAKA VRIJEDNOSTI PROGNOZNIH MODELA Do sada smo razmatrali metode za izradu prognostičkih modela stacionarnih procesa bez uzimanja u obzir jedne vrlo važne karakteristike.
Teorija vjerojatnosti i medicinska statistika ANALIZA OVISNOSTI Predavanje 7 Katedra za medicinsku informatiku RUDN Sadržaj predavanja 1. Mjerne skale 2. Pregled statističkih metoda analize 3. Korelacija
Itkina A.Ya. Ekonometrija u praksi Uvod. Istraživanje u bilo kojem području znanja uključuje dobivanje rezultata, obično u obliku brojeva. Međutim, samo prikupljanje podataka nije dovoljno. Čak objektivno i korektno
Predavanje 10. Metode mjerenja čvrstoće parnih korelacija. 1. dio Znakovi se mogu prikazati u kvantitativnoj, ordinalnoj i nominalnoj ljestvici. Ovisno o mjerilu u kojem su prikazani
Sadržaj zadatka: Proučiti utjecaj gotovinskih prihoda stanovništva na promet trgovine na malo - Novčani prihodi stanovništva (prosječno po stanovniku mjesečno), rub. y - Promet trgovine na malo, mlrd.
Predavanje 5 EKONOMETRIJA 5 Provjera kvalitete regresijske jednadžbe Preduvjeti metode najmanjih kvadrata Razmotrimo upareni linearni regresijski model X 5 Neka se procjena temelji na uzorku od n promatranja
MVDubatovskaya Teorija vjerojatnosti i matematička statistika Predavanje 4 Regresijska analiza Funkcionalne statističke i korelacijske ovisnosti U mnogim primijenjenim (uključujući ekonomske) probleme
ST. PETERBURG DRŽAVNI INSTITUT ZA PSIHOLOGIJU I SOCIJALNI RAD Fakultet primijenjene psihologije Izvanredni i izvanredni predmeti SAMOSTALNI RAD U disciplini: “MATEMATIČKE METODE U PSIHOLOGIJI”
Medicinska statistika Specijalnost "Opća medicina" Testiranje statističkih hipoteza Kriteriji prikladnosti Definicija statističke hipoteze Statistička hipoteza je pretpostavka o vrsti distribucije ili
Provjera statističkih hipoteza 1. Statističke hipoteze; 2. Kriteriji za provjeru hipoteza; 3. Testiranje parametarskih hipoteza; 4. Pearsonov kriterij. Dovršiti emisiju Statističke hipoteze. Statistički
Informacijske tehnologije u tjelesnoj kulturi i športu Procesi transformacije informacija povezani su s informacijskim tehnologijama. Tehnologija je u prijevodu s grčkog umjetnost, vještina, ali ovo nije ništa
MINISTARSTVO OBRAZOVANJA I ZNANOSTI RUSKE FEDERACIJE Savezna državna proračunska obrazovna ustanova za visoko obrazovanje "NACIONALNO ISTRAŽIVANJE MOSKVSKA DRŽAVNA IZGRADNJA
Domaća zadaća. Obrada rezultata opažanja dvodimenzionalnog slučajnog vektora.1. Sadržaj i postupak izvođenja rada Zadan je upareni uzorak (x i ; y i) volumena 50 iz dvodimenzionalne normalno raspodijeljene
Tema 4. Analiza korelacijske matrice i njezino mjesto u regresijskoj analizi 4.1. Koeficijent korelacije Koeficijent korelacije u paru (Pearson) pokazuje mjeru linearnog odnosa između varijabli;
Korelacijska i regresijska analiza. Plan. 1. Pojam korelacije. Funkcionalna i korelacijska ovisnost. Raspršeni dijagrami. 2. Koeficijent korelacije i njegova svojstva. Koeficijent determinacije. 3.
65 4 ANALIZA VARIJANCE Analizu varijance za poljoprivredna i biološka istraživanja razvio je R.A. Fisher na temelju zakona distribucije koji je otkrio za omjer srednjih kvadrata (varijanci)
Lukyanova E.A. Medicinska statistika Specijalnost "Opća medicina" 3 Testiranje statističkih hipoteza Kriteriji prilagodbe Studentov t-test za povezane uzorke Studentov t-test za nepovezane uzorke
PROUČAVANJE STATISTIČKIH ZAKONITOSTI RADIOAKTIVNOG RASPADA Laboratorijski rad 8 Svrha rada: 1. Potvrda slučajne, statističke prirode procesa radioaktivnog raspada jezgri. Uvod
55 3 REGRESIJSKA ANALIZA 3. Postavka problematike regresijske analize Ekonomski pokazatelji funkcioniranja poduzeća (privrednog sektora) obično se prikazuju u tablicama statističkih podataka:
REGRESIJSKA ANALIZA Neka imamo niz vrijednosti dva parametra. Pretpostavlja se da se za isti objekt mjere dva parametra. Moramo otkriti postoji li značajan odnos između ovih parametara.
MULTIKOLINEARNOST VIŠESTRUKOG REGRESIJSKOG MODELA Ozbiljan problem kod konstruiranja višestrukih regresijskih modela temeljenih na metodi najmanjih kvadrata (OLS) je multikolinearnost Multikolinearnost
Savezna agencija za zračni promet Savezna državna obrazovna ustanova visokog stručnog obrazovanja MOSKOVSKO DRŽAVNO TEHNIČKO SVEUČILIŠTE CIVILNOG ZRAKOPLOVSTVA
Problem: Dostupni su sljedeći podaci: Opcija 8 Broj obitelji 3 4 5 6 7 8 9 0 Broj članova obitelji koji žive zajedno, 3 3 4 4 4 5 6 7 7 osoba. Godišnja potrošnja električne energije, tisuća kW-sat 5 8 0 4 6 9 3 8.
Praktični rad Obrada i analiza rezultata skupnih odluka Cilj rada je utvrditi skupnu ocjenu objekata (faktora i sl.) sa stajališta njihovog utjecaja na neki cilj ili pokazatelj.
Kvantili Kvantil uzorka x p reda p (0< p < 1) определяется как элемент вариационного ряда выборки x (1), x () с номером [p]+1, где [a] целая часть числа а В статистической практике используется
TEST KONTROLA ZA MODUL 1 1. Skup objekata u odnosu na koje se postavlja hipoteza istraživanja: a) slučajno uzorkovanje; b) opća populacija; c) zavisni uzorak; d) nezavisna
3 TESTIRANJE STATISTIČKIH HIPOTEZA 3 Osnovni pojmovi statističke provjere hipoteza Statistička provjera hipoteza usko je povezana s teorijom procjene parametara distribucije U ekonomiji, tehnologiji, prirodnim znanostima,
Predavanje 11. Metode mjerenja bliskosti parnih korelacija. Značajke dijela mogu se prikazati u kvantitativnoj, ordinalnoj i nominalnoj ljestvici. Ovisno o mjerilu u kojem su prikazani
MINISTARSTVO OBRAZOVANJA I ZNANOSTI RUSKE FEDERACIJE SAVEZNI DRŽAVNI PRORAČUN OBRAZOVNA USTANOVA VISOKOG OBRAZOVANJA "DRŽAVNO INDUSTRIJSKO SVEUČILIŠTE U ST. PETERSBURGU
NASTAVNI RAD
Tema: Korelacijska analiza
Uvod
1. Korelacijska analiza
1.1 Pojam korelacije
1.2 Opća klasifikacija korelacija
1.3 Korelacijska polja i svrha njihove konstrukcije
1.4 Faze korelacijske analize
1.5 Koeficijenti korelacije
1.6 Normalizirani Bravais-Pearsonov koeficijent korelacije
1.7 Spearmanov rang koeficijent korelacije
1.8 Osnovna svojstva korelacijskih koeficijenata
1.9 Provjera značajnosti koeficijenata korelacije
1.10 Kritične vrijednosti koeficijenta korelacije para
2. Planiranje multifaktorijalnog eksperimenta
2.1 Stanje problema
2.2 Određivanje središta plana (osnovne razine) i razine varijacije faktora
2.3 Izrada matrice planiranja
2.4 Provjera homogenosti disperzije i ekvivalencije mjerenja u različitim serijama
2.5 Koeficijenti regresijske jednadžbe
2.6 Varijanca obnovljivosti
2.7 Provjera značajnosti koeficijenata regresijske jednadžbe
2.8 Provjera adekvatnosti regresijske jednadžbe
Zaključak
Bibliografija
UVOD
Planiranje eksperimenta je matematičko-statistička disciplina koja proučava metode za racionalnu organizaciju eksperimentalnog istraživanja - od optimalnog izbora proučavanih čimbenika i određivanja stvarnog plana eksperimenta u skladu s njegovom svrhom do metoda za analizu rezultata. Planiranje pokusa započelo je radovima engleskog statističara R. Fishera (1935.), koji je istaknuo da racionalno planiranje pokusa ne daje manje značajne dobitke u točnosti procjena od optimalne obrade rezultata mjerenja. U 60-im godinama 20. stoljeća pojavila se moderna teorija eksperimentalnog planiranja. Njezine su metode usko povezane s teorijom aproksimacije funkcija i matematičkim programiranjem. Konstruirani su optimalni planovi i proučavana su njihova svojstva za široku klasu modela.
Eksperimentalno planiranje je izbor eksperimentalnog plana koji zadovoljava određene zahtjeve, skup radnji usmjerenih na razvoj eksperimentalne strategije (od dobivanja apriornih informacija do dobivanja funkcionalnog matematičkog modela ili određivanja optimalnih uvjeta). To je svrhovito upravljanje eksperimentom, koje se provodi u uvjetima nepotpunog poznavanja mehanizma pojave koja se proučava.
U procesu mjerenja, naknadne obrade podataka, kao i formalizacije rezultata u obliku matematičkog modela, dolazi do pogrešaka i gubitka nekih informacija sadržanih u izvornim podacima. Korištenje metoda eksperimentalnog planiranja omogućuje određivanje pogreške matematičkog modela i prosuđivanje njegove primjerenosti. Ako se točnost modela pokaže nedostatnom, tada korištenje metoda eksperimentalnog planiranja omogućuje modernizaciju matematičkog modela dodatnim eksperimentima bez gubitka prethodnih informacija i uz minimalne troškove.
Svrha planiranja pokusa je pronaći takve uvjete i pravila za izvođenje pokusa pod kojima je moguće dobiti pouzdane i pouzdane informacije o objektu s najmanje rada, kao i prikazati te podatke u kompaktnom i praktičnom obliku. s kvantitativnom ocjenom točnosti.
Među glavnim metodama planiranja koje se koriste u različitim fazama studije su:
Planiranje eksperimenta probira, čije je glavno značenje odabir iz cjelokupnog skupa čimbenika grupe značajnih čimbenika koji su predmet daljnjeg detaljnog proučavanja;
Eksperimentalni dizajn za ANOVA, tj. izrada planova za objekte s kvalitativnim faktorima;
Planiranje regresijskog eksperimenta koji vam omogućuje dobivanje regresijskih modela (polinomnih i drugih);
Planiranje ekstremnog eksperimenta u kojem je glavni zadatak eksperimentalna optimizacija objekta istraživanja;
Planiranje pri proučavanju dinamičkih procesa itd.
Svrha izučavanja discipline je osposobiti studente za proizvodno-tehničke poslove u svojoj specijalnosti koristeći metode teorije planiranja i suvremenih informacijskih tehnologija.
Ciljevi discipline: proučavanje suvremenih metoda planiranja, organiziranja i optimiziranja znanstvenih i industrijskih eksperimenata, izvođenja eksperimenata i obrade dobivenih rezultata.
1. KORELACIJSKA ANALIZA
1.1 Pojam korelacije
Istraživača često zanima kako su dvije ili više varijabli povezane jedna s drugom u jednom ili više uzoraka koji se proučavaju. Na primjer, može li visina utjecati na težinu osobe ili krvni tlak može utjecati na kvalitetu proizvoda?
Ova vrsta ovisnosti između varijabli naziva se korelacija ili korelacija. Korelacija je dosljedna promjena u dva obilježja, koja odražava činjenicu da je varijabilnost jednog obilježja u skladu s varijabilnošću drugog.
Poznato je, primjerice, da u prosjeku postoji pozitivan odnos između visine ljudi i njihove težine, i to takav da što je visina veća, to je veća i težina osobe. Međutim, postoje iznimke od ovog pravila, kada relativno niske osobe imaju prekomjernu tjelesnu težinu, i, obrnuto, astenične osobe visokog stasa imaju nisku težinu. Razlog za takve iznimke je taj što je svaki biološki, fiziološki ili psihološki znak određen utjecajem mnogih čimbenika: okolišnih, genetskih, društvenih, okolišnih itd.
Korelacijske veze su vjerojatnosne promjene koje se mogu proučavati samo na reprezentativnim uzorcima metodama matematičke statistike. Oba pojma - korelacijska veza i korelacijska ovisnost - često se koriste kao sinonimi. Ovisnost podrazumijeva utjecaj, povezanost - bilo kakve koordinirane promjene koje se mogu objasniti stotinama razloga. Korelacijske veze ne mogu se smatrati dokazom uzročno-posljedične veze; one samo ukazuju na to da su promjene u jednoj karakteristici obično popraćene određenim promjenama u drugoj.
Korelacijska ovisnost - To su promjene koje unose vrijednosti jednog obilježja u vjerojatnost pojave različitih vrijednosti drugog obilježja.
Zadatak korelacijske analize svodi se na utvrđivanje smjera (pozitivan ili negativan) i oblika (linearan, nelinearan) odnosa između varirajućih karakteristika, mjerenje njegove bliskosti i, na kraju, provjeru razine značajnosti dobivenih koeficijenata korelacije.
Korelacijske veze razlikuju se po obliku, smjeru i stupnju (jačini) .
Oblik korelacijskog odnosa može biti linearan ili krivolinijski. Na primjer, odnos između broja treninga na simulatoru i broja točno riješenih problema u kontrolnom dijelu može biti jednostavan. Na primjer, odnos između razine motivacije i učinkovitosti zadatka može biti krivuljast (Slika 1). S povećanjem motivacije najprije raste učinkovitost izvršenja zadatka, zatim se postiže optimalna razina motivacije koja odgovara maksimalnoj učinkovitosti izvršenja zadatka; Daljnji porast motivacije prati smanjenje učinkovitosti.
Slika 1 - Odnos između učinkovitosti rješavanja problema i snage motivacijskih tendencija
Po smjeru, korelacijski odnos može biti pozitivan (“izravan”) i negativan (“obrnut”). Uz pozitivnu linearnu korelaciju, više vrijednosti jedne karakteristike odgovaraju višim vrijednostima druge, a niže vrijednosti jedne karakteristike odgovaraju nižim vrijednostima druge (slika 2). Uz negativnu korelaciju, odnosi su inverzni (Slika 3). Kod pozitivne korelacije koeficijent korelacije ima pozitivan predznak, a kod negativne korelacije negativan predznak.
Slika 2 – Izravna korelacija
Slika 3 – Inverzna korelacija
Slika 4 – Nema korelacije
Stupanj, jakost ili bliskost korelacije određuje vrijednost koeficijenta korelacije. Snaga veze ne ovisi o njenom smjeru i određena je apsolutnom vrijednošću koeficijenta korelacije.
1.2 Opća klasifikacija korelacija
Ovisno o koeficijentu korelacije, razlikuju se sljedeće korelacije:
Jaka, ili bliska s koeficijentom korelacije r>0,70;
Prosjek (na 0,50 Umjereno (u 0.30 Slabo (na 0,20 Vrlo slabo (na r<0,19). 1.3 Korelacijska polja i svrha njihove konstrukcije Korelacija se proučava na temelju eksperimentalnih podataka, a to su izmjerene vrijednosti (x i, y i) dviju karakteristika. Ako postoji malo eksperimentalnih podataka, tada se dvodimenzionalna empirijska distribucija prikazuje kao dvostruki niz vrijednosti x i i y i. Istodobno, korelacijska ovisnost između karakteristika može se opisati na različite načine. Korespondencija između argumenta i funkcije može se dati tablicom, formulom, grafikonom itd. Korelacijska analiza, kao i druge statističke metode, temelji se na korištenju probabilističkih modela koji opisuju ponašanje proučavanih karakteristika u određenoj općoj populaciji iz koje se dobivaju eksperimentalne vrijednosti xi i y i. Pri proučavanju korelacije između kvantitativnih karakteristika, čije se vrijednosti mogu točno izmjeriti u jedinicama metričkih ljestvica (metri, sekunde, kilogrami itd.), vrlo se često usvaja dvodimenzionalni model normalno raspodijeljene populacije. Takav model prikazuje odnos između varijabli x i i y i grafički u obliku geometrijskog položaja točaka u sustavu pravokutnih koordinata. Ovaj grafički odnos naziva se i dijagram raspršenosti ili korelacijsko polje.
Ovaj model dvodimenzionalne normalne distribucije (korelacijsko polje) omogućuje nam da damo jasnu grafičku interpretaciju koeficijenta korelacije, jer distribucija ukupna ovisi o pet parametara: μ x, μ y – prosječne vrijednosti (matematička očekivanja); σ x ,σ y – standardne devijacije slučajnih varijabli X i Y i p – koeficijent korelacije, koji je mjera odnosa između slučajnih varijabli X i Y.
Ako je p = 0, tada se vrijednosti x i , y i dobivene iz dvodimenzionalne normalne populacije nalaze na grafikonu u koordinatama x, y unutar područja ograničenog krugom (Slika 5, a). U tom slučaju ne postoji korelacija između slučajnih varijabli X i Y i one se nazivaju nekoreliranima. Za dvodimenzionalnu normalnu distribuciju, nekorelacija istovremeno znači neovisnost slučajnih varijabli X i Y.