Main » algoritmisk handel » Hypotetesting i finans: konsept og eksempler

Hypotetesting i finans: konsept og eksempler

algoritmisk handel : Hypotetesting i finans: konsept og eksempler

Investeringsrådgiveren din foreslår en månedlig inntektsinvesteringsplan som lover en variabel avkastning hver måned. Du vil investere i det bare hvis du er trygg på en gjennomsnittlig inntekt på $ 180 per måned. Rådgiveren din forteller deg også at de siste 300 månedene hadde ordningen investeringsavkastning med en gjennomsnittsverdi på $ 190 og et standardavvik på $ 75. Bør du investere i denne ordningen? Hypotetesting er til hjelp for slik beslutningstaking.

Denne artikkelen forutsetter at leserne er kjent med konsepter om en normal distribusjonstabell, formel, p-verdi og relaterte grunnleggende statistikker.

Hva er hypotesetesting?

Hypotese eller signifikansetesting er en matematisk modell for å teste en påstand, ide eller hypotese om en parameter av interesse i et gitt populasjonssett, ved bruk av data målt i et prøvesett. Beregninger utføres på utvalgte prøver for å samle mer avgjørende informasjon om kjennetegnene til hele populasjonen, noe som gjør det mulig for en systematisk måte å teste påstander eller ideer om hele datasettet.

Her er et enkelt eksempel: En skoledirektør rapporterer at elever på skolen hennes i gjennomsnitt scorer 7 av 10 i eksamener. For å teste denne "hypotesen" registrerer vi merker på si 30 elever (utvalg) fra hele elevpopulasjonen på skolen (si 300) og beregner gjennomsnittet av det utvalget. Vi kan da sammenligne (beregnet) utvalgsmiddel med (rapportert) populasjonsmiddelmiddel og forsøke å bekrefte hypotesen.

For å ta et annet eksempel, er den årlige avkastningen til et bestemt aksjefond 8%. Anta at aksjefond har eksistert i 20 år. Vi tar et tilfeldig utvalg av årlig avkastning av aksjefondet i for eksempel fem år (utvalg) og beregner middelverdien. Vi sammenligner da (beregnet) utvalgsmiddel med (påstått) populasjonsmiddelverdi for å verifisere hypotesen.

Beslutningskriteriene må være basert på visse parametere for datasett.

Ulike metodologier finnes for hypotesetesting, men de samme fire grunnleggende trinnene er involvert:

Trinn 1: Definer hypotesen

Vanligvis blir den rapporterte verdien (eller kravstatistikken) oppgitt som hypotesen og antatt å være sann. For eksemplene ovenfor vil hypotesen være:

  • Eksempel A: Studenter på skolen scorer i gjennomsnitt 7 av 10 i eksamener.
  • Eksempel B: Årlig avkastning av aksjefondet er 8% per år.

Denne uttalte beskrivelsen utgjør " Null Hypotesen (H 0 ) " og antas å være sann - måten en tiltalte i en juryprøving antas uskyldig inntil beviset er lagt fram i retten. Tilsvarende starter hypotesetesting med å angi og anta en "nullhypotese", og deretter bestemmer prosessen om antakelsen sannsynligvis vil være sann eller usann.

Det viktige poenget å merke seg er at vi tester nullhypotesen fordi det er et element av tvil om dens gyldighet. Uansett informasjon som er i strid med den oppgitte nullhypotesen, fanges opp i den alternative hypotesen (H 1 ). For eksemplene ovenfor vil den alternative hypotesen være:

  • Studentene scorer et gjennomsnitt som ikke er lik 7.
  • Verdipapirfondets årlige avkastning er ikke lik 8% per år.

Med andre ord, den alternative hypotesen er en direkte motsetning av nullhypotesen.

Som i en rettssak antar juryen tiltaltes uskyld (nullhypotese). Aktor må bevise noe annet (alternativ hypotese). Tilsvarende må forskeren bevise at nullhypotesen enten er sann eller usann. Hvis aktor ikke klarer å bevise den alternative hypotesen, må juryen la den tiltalte gå (basere avgjørelsen på nullhypotesen). Tilsvarende, hvis forskeren ikke klarer å bevise en alternativ hypotese (eller ganske enkelt ikke gjør noe), antas nullhypotesen å være sann.

Trinn 2: Angi kriteriene

Beslutningskriteriene må være basert på visse parametere for datasett, og det er her forbindelsen til normal distribusjon kommer inn i bildet.

I henhold til standardstatistikk-postulatet om prøvetakingsfordeling, "For en hvilken som helst prøvestørrelse n, er prøvetakingsfordelingen av X̅ normal hvis populasjonen X som prøven er hentet fra, normalt er distribuert." Derfor betyr sannsynligheten for alle andre mulige utvalg at man kan velge er normalt distribuert.

For eksempel bestemme om den gjennomsnittlige daglige avkastningen, for en aksje notert på XYZ-aksjemarkedet, rundt nyttårsdag er større enn 2%.

H 0 : Null hypotese: middel = 2%

H 1 : Alternativ hypotese: gjennomsnitt> 2% (dette er hva vi vil bevise)

Ta prøven (si 50 aksjer av totalt 500) og beregn gjennomsnittet av prøven.

For en normalfordeling ligger 95% av verdiene innenfor to standardavvik fra befolkningsgjennomsnittet. Dermed tillater denne normalfordelingen og sentralgrense-antagelsen for prøvedatasettet oss å etablere 5% som et signifikansnivå. Det er fornuftig da det under denne forutsetningen er mindre enn 5% sannsynlighet (100-95) for å få outliers som er utenfor to standardavvik fra befolkningsgjennomsnittet. Avhengig av datasettens art, kan andre betydningsnivåer tas på 1%, 5% eller 10%. For økonomiske beregninger (inkludert atferdsfinansiering) er 5% den allment aksepterte grensen. Hvis vi finner noen beregninger som går utover de vanlige to standardavvikene, har vi et sterkt tilfelle av outliers for å avvise nullhypotesen.

Grafisk er det representert som følger:

I eksemplet ovenfor, hvis gjennomsnittet av prøven er mye større enn 2% (si 3, 5%), avviser vi nullhypotesen. Den alternative hypotesen (gjennomsnitt> 2%) aksepteres, noe som bekrefter at den gjennomsnittlige daglige avkastningen for aksjene faktisk er over 2%.

Imidlertid, hvis gjennomsnittet av prøven ikke sannsynligvis vil være betydelig større enn 2% (og forblir på, for eksempel, rundt 2, 2%), kan vi IKKE avvise nullhypotesen. Utfordringen kommer på hvordan man skal ta stilling til slike nær rekkevidde. For å gjøre en konklusjon fra utvalgte prøver og resultater, må det bestemmes et nivå av betydning som gjør det mulig å konkludere om nullhypotesen. Den alternative hypotesen gjør det mulig å fastslå nivået av betydning eller "kritisk verdi" -konseptet for å bestemme i slike nær rekkefølge.

I henhold til standardbokdefinisjonen i læreboka, “En kritisk verdi er en avskjæringsverdi som definerer grensene utover som mindre enn 5% av eksempelmidlene kan oppnås hvis nullhypotesen er sann. Eksempel middel oppnådd utover en kritisk verdi vil resultere i en beslutning om å avvise nullhypotesen. "I eksemplet ovenfor, hvis vi har definert den kritiske verdien som 2, 1%, og det beregnede gjennomsnittet kommer til 2, 2%, så avviser vi nullhypotesen En kritisk verdi etablerer en klar avgrensning om aksept eller avvisning.

Trinn 3: Beregn statistikken

Dette trinnet innebærer å beregne de (n) nødvendige figur (er), kjent som teststatistikk (som middel, z-poengsum, p-verdi, etc.), for den valgte prøven. (Vi kommer til disse i et senere avsnitt.)

Trinn 4: Få en konklusjon

Med den eller de beregnede verdien (e) bestemmer du nullhypotesen. Hvis sannsynligheten for å få et eksempelmiddel er mindre enn 5%, er konklusjonen å avvise nullhypotesen. Ellers godta og beholde nullhypotesen.

Typer feil

Det kan være fire mulige utfall i prøvebasert beslutningstaking, med hensyn til riktig anvendbarhet for hele befolkningen:

Beslutning om å beholde


Avgjørelse om å avvise


Gjelder for hele befolkningen


Riktig


stemmer ikke

(TYPE 1 Feil - a)


Gjelder ikke for hele befolkningen


stemmer ikke

(TYPE 2 Feil - b)


Riktig


De "riktige" sakene er de der beslutningene som tas for prøvene virkelig gjelder for hele befolkningen. Tilfeller av feil oppstår når man bestemmer seg for å beholde (eller avvise) nullhypotesen basert på utvalgsberegningene, men den avgjørelsen gjelder egentlig ikke for hele befolkningen. Disse tilfellene utgjør Type 1 (alfa) og Type 2 (beta) feil, som indikert i tabellen ovenfor.

Hvis du velger riktig kritisk verdi, kan du eliminere alfafeil av type 1 eller begrense dem til et akseptabelt område.

Alfa betegner feilen på nivået av betydning og bestemmes av forskeren. For å opprettholde standard 5% signifikans eller konfidensnivå for sannsynlighetsberegninger, beholdes dette på 5%.

I samsvar med gjeldende standarder og definisjoner for beslutningstaking:

  • “Dette (alfa) -kriteriet er vanligvis satt til 0, 05 (a = 0, 05), og vi sammenligner alfa-nivået med p-verdien. Når sannsynligheten for en type I-feil er mindre enn 5% (p <0, 05), bestemmer vi oss for å avvise nullhypotesen; Ellers beholder vi nullhypotesen. ”
  • Den tekniske betegnelsen som brukes for denne sannsynligheten er p-verdi . Det er definert som “sannsynligheten for å oppnå et prøveutfall, gitt at verdien som er angitt i nullhypotesen er sann. P-verdien for å oppnå et prøveutfall sammenlignes med signifikansnivået. "
  • En type II-feil, eller betafeil, er definert som "sannsynligheten for å beholde nullhypotesen feil, når den faktisk ikke er relevant for hele befolkningen."

Noen få eksempler vil demonstrere denne og andre beregninger.

Eksempel 1

Det eksisterer en månedlig inntektsinvesteringsordning som lover variabel månedlig avkastning. En investor vil investere i den bare hvis han er sikret en gjennomsnittlig $ 180 månedlig inntekt. Han har et utvalg på 300 måneders avkastning som har et gjennomsnitt på $ 190 og et standardavvik på $ 75. Bør vedkommende investere i denne ordningen ">

La oss sette opp problemet. Investoren vil investere i ordningen hvis han eller hun er sikret den ønskede gjennomsnittlige avkastningen på $ 180.

H 0 : Null hypotese: middel = 180

H 1 : Alternativ hypotese: middel> 180

Metode 1: Tilnærming til kritisk verdi

Identifiser en kritisk verdi X L for eksempelmidlet, som er stor nok til å avvise nullhypotesen - dvs. avvis nullhypotesen hvis eksempeldelen> = kritisk verdi X L

P (identifiser en alfafeil av type I) = P (avvis H 0 gitt at H 0 er sant),

Dette vil bli oppnådd når utvalgsmidlet overskrider de kritiske grensene.

= P (gitt at H 0 er sant) = alfa

Grafisk ser det ut som følger:

Ta alfa = 0, 05 (dvs. 5% signifikansnivå), Z 0, 05 = 1, 645 (fra Z-tabellen eller normalfordelingstabellen)

=> X L = 180 + 1.645 * (75 / sqrt (300)) = 187.12

Siden eksempelmidlet (190) er større enn den kritiske verdien (187, 12), blir nullhypotesen avvist, og konklusjonen er at gjennomsnittlig månedlig avkastning faktisk er større enn $ 180, slik at investoren kan vurdere å investere i denne ordningen.

Metode 2: Bruke standardisert teststatistikk

Man kan også bruke standardisert verdi z.

Teststatistikk, Z = (utvalgsmengde - populasjonsmiddel) / (std-dev / sqrt (antall prøver)).

Deretter blir avvisningsområdet følgende:

Z = (190 - 180) / (75 / sqrt (300)) = 2, 309

Vårt avvisningsområde på 5% signifikansnivå er Z> Z 0, 05 = 1, 645.

Siden Z = 2.309 er større enn 1.645, kan nullhypotesen avvises med en lignende konklusjon nevnt ovenfor.

Metode 3: Beregning av P-verdi

Vi tar sikte på å identifisere P (prøveverdi> = 190, når gjennomsnitt = 180).

= P (Z> = (190-180) / (75 / kvm (300))

= P (Z> = 2, 309) = 0, 0084 = 0, 84%

Følgende tabell for å utlede beregninger av p-verdi konkluderer med at det er bekreftet bevis på at gjennomsnittlig månedlig avkastning er høyere enn 180:

p-verdien


slutning


mindre enn 1%


Bekreftede bevis som støtter alternativ hypotese


mellom 1% og 5%


Sterke bevis som støtter alternativ hypotese


mellom 5% og 10%


Svake bevis som støtter alternativ hypotese


større enn 10%


Ingen bevis som støtter alternativ hypotese


Eksempel 2

En ny aksjemegler (XYZ) hevder at meglerhonorarene hans er lavere enn for din nåværende aksjemegler (ABC). Data tilgjengelig fra et uavhengig forskningsfirma indikerer at gjennomsnittet og std-dev for alle ABC-meglerklienter er henholdsvis $ 18 og $ 6.

Det blir tatt et utvalg på 100 kunder av ABC, og meglerom beregnes med de nye prisene til XYZ megler. Hvis gjennomsnittet av utvalget er $ 18, 75 og std-dev er det samme ($ 6), kan det gjøres noen slutninger om forskjellen i den gjennomsnittlige meglerregningen mellom ABC og XYZ megler ">

H 0 : Null hypotese: middel = 18

H 1 : Alternativ hypotese: middel 18 (Dette er hva vi vil bevise.)

Avvisningsregion: Z <= - Z 2, 5 og Z> = Z 2, 5 (forutsatt 5% signifikansnivå, del 2, 5 hver på hver side).

Z = (utvalgsmiddel - middelverdi) / (std-dev / sqrt (antall prøver))

= (18, 75 - 18) / (6 / (kvadrat (100)) = 1, 25

Denne beregnede Z-verdien faller mellom de to grensene definert av:

- Z 2, 5 = -1, 96 og Z 2, 5 = 1, 96.

Dette konkluderer med at det ikke er tilstrekkelig bevis for å utlede at det er noen forskjell mellom prisene til din eksisterende megler og den nye megleren.

Alternativt, p-verdien = P (Z1, 25)

= 2 * 0, 1056 = 0, 2112 = 21, 12% som er større enn 0, 05 eller 5%, noe som fører til samme konklusjon.

Grafisk er det representert av følgende:

Kritikkpoeng for den hypotetiske testmetoden:

  • En statistisk metode basert på forutsetninger
  • Feilutsatt som detaljert med tanke på alfa- og betafeil
  • Tolkning av p-verdi kan være tvetydig, noe som kan føre til forvirrende resultater

Bunnlinjen

Hypotetesting gjør at en matematisk modell kan validere en påstand eller idé med et visst konfidensnivå. I likhet med de fleste statistiske verktøy og modeller er det imidlertid bundet av noen få begrensninger. Bruken av denne modellen for å ta økonomiske beslutninger bør vurderes med et kritisk øye, og ha alle avhengigheter i tankene. Alternative metoder som Bayesian Inferens er også verdt å utforske for lignende analyser.

Sammenlign Navn på leverandør av investeringskontoer Beskrivelse Annonsørens avsløring × Tilbudene som vises i denne tabellen er fra partnerskap som Investopedia mottar kompensasjon fra.
Anbefalt
Legg Igjen Din Kommentar