Main » bedriftsledere » Chi Square (χ2) statistisk definisjon

Chi Square (χ2) statistisk definisjon

bedriftsledere : Chi Square (χ2) statistisk definisjon
Hva er en Chi Square-statistikk?

En chi-firkant ( χ 2 ) statistikk er en test som måler hvordan forventningene sammenligner med faktiske observerte data (eller modellresultater). Dataene som brukes til å beregne en chi-kvadratstatistikk, må være tilfeldige, rå, gjensidig eksklusive, hentet fra uavhengige variabler og tegnet fra et stort nok utvalg. For eksempel oppfyller resultatene av å kaste en mynt 100 ganger disse kriteriene.

Chi-kvadrat-tester blir ofte brukt i hypotetesting.

Formelen for Chi Square er

χc2 = ∑ (Oi − Ei) 2Ever hvor: c = frihetsgraderO = observert verdi (er) E = forventet verdi (er) \ begynn {justert} & \ chi ^ 2_c = \ sum \ frac {(O_i - E_i) ^ 2} {E_i} \\ & \ textbf {hvor:} \\ & c = \ tekst {frihetsgrader} \\ & O = \ tekst {observert verdi (er)} \\ & E ​​= \ tekst {forventet verdi (er) )} \\ \ end {alignet} χc2 = ∑Ei (Oi −Ei) 2 hvor: c = frihetsgraderO = observert verdi (er) E = forventet verdi (er)

Hva forteller en Chi Square-statistikk?

Det er to hovedtyper av chi-kvadrat-tester: uavhengighetstesten, som stiller et spørsmål om forhold, for eksempel: "Er det et forhold mellom kjønn og SAT-poengsummer?"; og godhet-av-fit-testen, som spør noe som "Hvis en mynt blir kastet 100 ganger, vil den komme opp hodene 50 ganger og haler 50 ganger?"

For disse testene brukes grader av frihet for å bestemme om en viss nullhypotese kan avvises basert på det totale antall variabler og prøver i eksperimentet.

Når du for eksempel vurderer studenter og emnevalg, er en prøvestørrelse på 30 eller 40 studenter sannsynligvis ikke stor nok til å generere betydelige data. Å få de samme eller lignende resultatene fra en studie med en prøvestørrelse på 400 eller 500 studenter er mer gyldig.

I et annet eksempel kan du vurdere å kaste en mynt 100 ganger. Det forventede resultatet av å kaste en rettferdig mynt 100 ganger er at hodene vil komme opp 50 ganger og halene vil komme opp 50 ganger. Det faktiske resultatet kan være at hodene kommer opp 45 ganger og halene kommer opp 55 ganger. Chi square-statistikken viser eventuelle avvik mellom de forventede resultatene og de faktiske resultatene.

Viktige takeaways

  • En chi-firkant (χ 2 ) statistikk er en test som måler hvordan forventningene sammenligner med faktiske observerte data.
  • Det er to hovedtyper av chi square-tester: testen av uavhengighet for data og tester av godhet for en modell.
  • Disse testene kan brukes til å bestemme om en viss nullhypotese kan avvises i hypotesetesting.

Eksempel på en Chi Squared Test

Se for deg at en tilfeldig meningsmåling ble tatt over 2000 forskjellige velgere, både mannlige og kvinnelige. Menneskene som svarte var klassifisert etter kjønn og om de var republikanske, demokratiske eller uavhengige. Se for deg et rutenett med kolonnene merket republikansk, demokrat og uavhengig, og to rader merket mann og kvinne. Anta at dataene fra de 2000 respondentene er som følger:

RepublicandemokratUavhengigTotal
mann400300100800
Hunn5006001001200
Total9009002002000

Det første trinnet for å beregne chi-kvadratstatistikken er å finne de forventede frekvensene. Disse beregnes for hver "celle" i rutenettet. Siden det er to kategorier av kjønn og tre kategorier av politisk syn, er det seks forventede frekvenser. Formelen for forventet frekvens er:

E (r, c) = n (r) × c (r) nwhere: r = rad i spørsmålc = kolonne i spørsmåln = tilsvarende total \ begynne {justert} & E (r, c) = \ frac {n (r) \ ganger c (r)} {n} \\ & \ textbf {hvor:} \\ & r = \ text {rad i spørsmålet} \\ & c = \ text {spalte i spørsmålet} \\ & n = \ text {tilsvarende total } \\ \ end {alignet} E (r, c) = nn (r) × c (r) hvor: r = rad i spørsmålc = kolonne i spørsmåln = tilsvarende total

I dette eksemplet er de forventede frekvensene:

  • E (1, 1) = (900 x 800) / 2000 = 360
  • E (1, 2) = (900 x 800) / 2000 = 360
  • E (1, 3) = (200 x 800) / 2000 = 80
  • E (2, 1) = (900 x 1200) / 2000 = 540
  • E (2, 2) = (900 x 1200) / 2000 = 540
  • E (2, 3) = (200 x 1200) / 2000 = 120

Deretter brukes disse verdiene for å beregne chi-kvadratstatistikken ved å bruke følgende formel:

Chi-kvadrat = ∑ [O (r, c) −E (r, c)] 2E (r, c) hvor: O (r, c) = observerte data for den gitte raden og kolonnen \ begynne {justert} & \ text {Chi-squared} = \ sum \ frac {[O (r, c) - E (r, c)] ^ 2} {E (r, c)} \\ & \ textbf {hvor:} \\ & O (r, c) = \ tekst {observerte data for den gitte raden og kolonnen} \\ \ end {justert} Chi-kvadrat = ∑E (r, c) [O (r, c) −E (r, c)] 2 hvor: O (r, c) = observerte data for den gitte raden og kolonnen

I dette eksemplet er uttrykket for hver observerte verdi:

  • O (1, 1) = (400 - 360) 2/360 = 4, 44
  • O (1, 2) = (300 - 360) 2/360 = 10
  • O (1, 3) = (100 - 80) 2/80 = 5
  • O (2, 1) = (500 - 540) 2/540 = 2, 96
  • O (2, 2) = (600 - 540) 2/540 = 6, 67
  • O (2, 3) = (100 - 120) 2/120 = 3, 33

Chi-kvadratstatistikken tilsvarer da summen av disse verdien, eller 32, 41. Vi kan deretter se på et chi-kvadratisk statistikkbord for å se, gitt graden av frihet i oppsettet vårt, om resultatet er statistisk signifikant eller ikke.

Sammenlign Navn på leverandør av investeringskontoer Beskrivelse Annonsørens avsløring × Tilbudene som vises i denne tabellen er fra partnerskap som Investopedia mottar kompensasjon fra.

Relaterte vilkår

Degrees of Freedom Definition Degrees of Freedom refererer til det maksimale antallet logisk uavhengige verdier, som er verdier som har frihet til å variere, i datautvalget. mer T-Test Definisjon En t-test er en type inferensiell statistikk som brukes for å bestemme om det er en betydelig forskjell mellom midlene til to grupper, som kan være relatert til visse funksjoner. mer Hva omvendt korrelasjon forteller oss En omvendt korrelasjon, også kjent som negativ korrelasjon, er et motsatt forhold mellom to variabler slik at de beveger seg i motsatte retninger. mer Hvordan gjenværende standardavvik fungerer Den gjenværende standardavviket er et statistisk begrep som brukes for å beskrive forskjellen i standardavvik for observerte verdier kontra forutsagte verdier som vist ved punkter i en regresjonsanalyse. mer Hvordan Analyse av variasjon (ANOVA) fungerer Analyse av varians (ANOVA) er et statistisk analyseverktøy som skiller den totale variabiliteten som finnes i et datasett i to komponenter: tilfeldige og systematiske faktorer. mer Korrelasjon Korrelasjon er et statistisk mål på hvordan to verdipapirer beveger seg i forhold til hverandre. mer Partnerkoblinger
Anbefalt
Legg Igjen Din Kommentar