Main » algoritmisk handel » kvartil

kvartil

algoritmisk handel : kvartil
Hva er en kvartil?

En kvartil er et statistisk begrep som beskriver en inndeling av observasjoner i fire definerte intervaller basert på dataene og hvordan de sammenligner med hele settet av observasjoner.

Forstå kvartiler

For å forstå kvartilen er det viktig å forstå medianen som et mål på sentral tendens. Median i statistikk er middelverdien til et sett med tall. Det er punktet der nøyaktig halvparten av dataene ligger under og over den sentrale verdien.

Så gitt et sett med 13 tall, ville medianen være det syvende tallet. De seks tallene som går foran denne verdien, er de laveste tallene i dataene, og de seks tallene etter medianen er de høyeste tallene i datasettet som er gitt. Fordi medianen ikke blir påvirket av ekstreme verdier eller utliggere i fordelingen, er det noen ganger å foretrekke fremfor middelet.

Medianen er en robust estimator for beliggenhet, men sier ingenting om hvordan dataene på hver side av verdien er spredt eller spredt. Det er her kvartilen trer inn. Kvartilen måler spredningen av verdier over og under gjennomsnittet ved å dele fordelingen i fire grupper.

Viktige takeaways

  • Kvartilen måler spredningen av verdier over og under gjennomsnittet ved å dele fordelingen i fire grupper.
  • En kvartil deler data inn i tre punkter - en nedre kvartil, median og øvre kvartil - for å danne fire grupper av datasettet.
  • Kvartiler brukes til å beregne interkvartilområdet, som er et mål på variabilitet rundt medianen.

Slik fungerer kvartiler

Akkurat som median deler opp dataene i halvparten slik at 50% av målingen ligger under medianen og 50% ligger over den, deler kvartilen opp dataene i kvartaler slik at 25% av målingen er mindre enn den nedre kvartilen, 50 % er mindre enn gjennomsnittet, og 75% er mindre enn den øvre kvartilen.

En kvartil deler data inn i tre punkter - en nedre kvartil, median og øvre kvartil - for å danne fire grupper av datasettet. Den nedre kvartilen eller den første kvartilen er betegnet som Q1 og er det midtre tallet som faller mellom den minste verdien av datasettet og medianen. Den andre kvartilen, Q2, er også median. Den øvre eller tredje kvartil, betegnet som Q3, er det sentrale punktet som ligger mellom medianen og det høyeste antallet av fordelingen.

Nå kan vi kartlegge de fire gruppene som er dannet fra kvartilene. Den første gruppen av verdier inneholder det minste antallet opp til Q1; den andre gruppen inkluderer Q1 til median; det tredje settet er median til Q3; den fjerde kategorien omfatter Q3 til det høyeste datapunktet for hele settet.

Hver kvartil inneholder 25% av de totale observasjonene. Generelt sett er dataene arrangert fra minste til største:

  1. Første kvartil: de laveste 25% av antall
  2. Andre kvartil: mellom 25, 1% og 50% (opp til median)
  3. Tredje kvartil: 51% til 75% (over medianen)
  4. Fjerde kvartil: det høyeste 25% av antall

Kvartileksempel

La oss jobbe med et eksempel. Anta at fordelingen av mattepoeng i en klasse på 19 elever i stigende rekkefølge er:

59, 60, 65, 65, 68, 69, 70, 72, 75, 75, 76, 77, 81, 82, 84, 87, 90, 95, 98

Først markerer du median Q2, som i dette tilfellet er den tiende verdien: 75.

Q1 er det sentrale punktet mellom den minste poengsummen og medianen. I dette tilfellet faller Q1 mellom første og femte poengsum: 68. [Merk at medianen også kan inkluderes når du beregner Q1 eller Q3 for et merkelig sett med verdier. Hvis vi skulle inkludere medianen på hver side av midtpunktet, vil Q1 være mellomverdien mellom første og tiende poengsum, som er gjennomsnittet av den femte og sjette poengsum - (femte + sjette) / 2 = (68 + 69) / 2 = 68, 5].

Q3 er mellomverdien mellom Q2 og den høyeste poengsummen: 84. [Eller hvis du inkluderer medianen, Q3 = (82 + 84) / 2 = 83].

Nå som vi har kvartilene våre, la oss tolke antallet. En poengsum på 68 (Q1) representerer den første kvartilen og er den 25. persentilen. 68 er medianen til den nedre halvparten av poengsummen som er satt i tilgjengelige data, dvs. median for scorene fra 59 til 75.

Q1 forteller oss at 25% av poengsummene er mindre enn 68 og 75% av klassescore er større. Q2 (medianen) er den 50. persentilen og viser at 50% av resultatene er mindre enn 75, og 50% av resultatene er over 75. Til slutt avslører Q3, den 75. prosentilen, at 25% av resultatene er større og 75% er mindre enn 84.

Spesielle hensyn

Hvis datapunktet for Q1 er lenger borte fra median enn Q3 er fra median, kan vi si at det er en større spredning blant de mindre verdiene i datasettet enn blant de større verdiene. Den samme logikken gjelder hvis Q3 er lenger borte fra Q2 enn Q1 er fra median.

Alternativt, hvis det er et jevnt antall datapunkter, vil median være gjennomsnittet av de to midterste tallene. I vårt eksempel ovenfor, hvis vi hadde 20 elever i stedet for 19, vil medianen av resultatene deres være det aritmetiske gjennomsnittet av det tiende og det ellevte tallet.

Kvartiler brukes til å beregne interkvartilområdet, som er et mål på variabilitet rundt medianen. Interkvartilområdet beregnes ganske enkelt som forskjellen mellom første og tredje kvartil: Q3 - Q1. I virkeligheten er det området for den midtre halvdelen av dataene som viser hvor spredt dataene er.

For store datasett har Microsoft Excel en QUARTILE-funksjon for å beregne kvartiler.

Sammenlign Navn på leverandør av investeringskontoer Beskrivelse Annonsørens avsløring × Tilbudene som vises i denne tabellen er fra partnerskap som Investopedia mottar kompensasjon fra.

Relaterte vilkår

Slik fungerer den decile kvantitative metoden En decile er en kvantitativ metode for å dele opp et sett rangert data i 10 like store deler. Denne typen datarangering utføres som en del av mange akademiske og statistiske studier innen økonomi og økonomi. mer Beskrivende statistikk Beskrivende statistikk er et sett med korte beskrivende koeffisienter som oppsummerer et gitt datasett som er representativt for en hel eller utvalgspopulasjon. mer Quintiles Definisjon En kvintil er en statistisk verdi av et datasett som representerer 20% av en gitt populasjon. mer Hvordan bruke Winsorized Mean Winsorized mean er en metode for gjennomsnitt, som først erstatter de minste og største verdiene med observasjonene nærmest dem. Dette gjøres for å begrense effekten av unormale ekstreme verdier, eller outliers, på beregningen. mer Tre-Sigma-grenser: Det du trenger å vite Tre-Sigma-grenser er en statistisk beregning som refererer til data innen tre standardavvik fra et middel. mer Definisjon av standardavvik Standardavviket er en statistikk som måler spredningen av et datasett i forhold til dets gjennomsnitt og beregnes som kvadratroten til variansen. Det beregnes som kvadratroten av variansen ved å bestemme variasjonen mellom hvert datapunkt i forhold til gjennomsnittet. mer Partnerkoblinger
Anbefalt
Legg Igjen Din Kommentar