Tilfeldige Porteføljer For Evaluering Trading Strategier


Denne siden er delt inn i følgende seksjoner: Tilfeldige porteføljer har mulighet til å revolusjonere fondstyring. Du tror kanskje det betyr at de må være esoteriske og komplekse. Du ville ha feil 8212 ideen er veldig enkel. For å ha tilfeldige porteføljer trenger du et univers av eiendeler og et sett av begrensninger for å pålegge porteføljene. Et sett av tilfeldige porteføljer er et utvalg fra porteføljepopulasjonen som overholder alle begrensningene. Figur 1 viser prøveområdet (i vekter) for et leketøyproblem med tre eiendeler. Begrensningene er: langvarig, ingen vekt større enn 45, maksimal volatilitet. Volatilitetsbegrensninger er ikke-lineære, og dermed er grensen tilsvarende den begrensningen ikke-lineær. Av apekatter og menn, og dart Den mest kjente formen for tilfeldige porteføljer er aksjemarkedet dartbordspill. Mennesker eller aper kaster dart for å velge en eller noen få eiendeler. Valget via dart blir da sammenlignet med noe profesjonelt utvalg. Dette er morsomt, og nesten en flott tilnærming, men har to feil. Den første feilen er at vi bare får se om profesjonelle overgår et tilfeldig utvalg. Vi får ikke se hvilken brøkdel av tilfeldige valg den profesjonelle overpresterer. For å være virkelig informert må vi se på rekkefølgen på hundre eller flere tilfeldige valg. Den andre sviktet er at dartene ikke adlyder noen begrensninger. Dette er rettferdig i en avisskonkurranse hvor ekspertene heller ikke har begrensninger. Men virkelige midler har begrensninger. Sammenligning av et fond med begrensninger til tilfeldige porteføljer uten begrensninger setter fondet i ulempe. Ytelsesmåling Det er to måter å bruke tilfeldige porteføljer for å oppnå ytelsesmåling: den statiske metoden og skyggemetoden. Vi vil se hvorfor ytelsesmåling via referanser er dårligere. Den statiske metoden I den statiske metoden genererer vi et sett av tilfeldige porteføljer som overholder begrensningene i begynnelsen av tidsperioden, holder disse porteføljene gjennom hele tidsperioden, og finner avkastningen for perioden. Fondets prosentil er prosentandelen av tilfeldige porteføljer med større avkastning. (Konvensjonen i ytelsesmåling er for god til å ligge nær den nittende prosentilen og dårlig å være nær det 100. prosentil.) Figur 2 er et eksempel. Det viser fordelingen av retur av de tilfeldige porteføljene i blått. og fondets avkastning i gull. I dette tilfellet fungerte fondet ikke veldig godt. Dette er veldig som prestasjonsmåling med peer-grupper. I begge tilfeller bruker vi en enkelt tidsperiode, og i begge tilfeller sammenligner vi vårt fond med et sett med alternative muligheter. Det er noen betydelige forskjeller om 8212 vi markerer to. I peer-grupper er alternativene andre midler som er 8220liknende8221 til fondet av interesse. Ideelt sett vil bare midler med de samme begrensningene bli brukt. På den annen side ønsker vi å ha mange jevnaldrende for å få mer presisjon. Så det er motsatte krefter for små peergrupper versus store peergrupper. Det er ingen slik spenning med tilfeldige porteføljer 8212 vi kan generere så mange tilfeldige porteføljer som vi liker. Et mer alvorlig problem med peer-grupper er at vi ikke vet hva resultatene betyr. Vi er ment å tro at hvis vårt fond av interesse gjorde det bedre enn alt annet enn 10 av sine jevnaldrende, så er vår fund8217s ferdighet omtrent den 10. prosentilen blant sine jevnaldrende. Dette forutsetter at forskjeller i ferdighet dominerer forskjeller i flaks. En slik antagelse er usannsynlig å være berettiget. Spesielt hvis det ikke er noe fondsbevis (eller alle fondene har like dyktighet), så er vårt fond på 10. prosentilgang av flaks 8212, tiltaket inneholder ingen informasjon i det hele tatt. Burns (2007a) utvides på dette argumentet. Surz (2006, 2009) diskuterer flere problemer med peer-grupper. The Shadowing Method Den statiske metoden for tilfeldige porteføljer er mer informativ enn peer-grupper. Men det er fortsatt ganske generisk informasjon. Ytelsen er 8212 ved rot 8212 om beslutninger. Tanken med skyggemetoden er å bruke tilfeldige handler for å etterligne de beslutninger som fondet tar. Dette kan gi oss et mye klarere bilde av verdien av beslutningsprosessen. Et eksempel er diskutert i resultatmålsøknadssiden. Referanser En fond vurderes mot et referanseindeks ved å sammenligne en rekke avkastninger fra fondet med tilsvarende avkastning for referanseindeksen. Denne metoden har noen problemer. Den største er tiden det tar å bestemme seg for at et godt fond virkelig er bedre enn referansen 8212, det vil nok ta tiår. Kraften til disse testene i den ideelle setting er gitt i Burns (2007a) 8212 flere år kreves for å få fornuftig kraft selv for eksepsjonell ferdighet. Men virkeligheten er mye verre enn det ideelle fordi vanskeligheten med å slå et referansepunkt ikke er konstant. Hvis de mest vektede eiendelene i referansen skje for å fungere relativt bra, vil det være vanskelig å slå referansen. Omvendt, hvis de mest vektede egenskapene utfører relativt dårlig, vil det være lett å slå referansen. Kothari og Warner (2001) diskuterer dette. Figur 3 viser prosentandelen av midler som har SampP 500 som deres referanse som overgikk referanseindeksen i hvert år 8212 se spesifikasjoner av dette i 8220Performance Measurement via tilfeldige porteføljer8221. For å tro at sammenligningen er meningsfylt, må vi tro at fondforvalterne 8212 som en gruppe 8212 var fattige i årevis, ble plutselig gode i tre år og deretter gikk tilbake til å være fattige. Burns (2007b) diskuterer ytelsesmåling i den litt forskjellige innstillingen for å teste anbefalingene fra markedskommentatorer. Testing Trading Strategies Fondforvaltere og potensielle fondforvaltere står overfor en rekke problemer når de bestemmer seg for en handelsstrategi. Her undersøker vi to: I hovedsak er det problemet med å være feil, og problemet med å være riktig. Data snooping gjør strategiene ser bedre ut enn de egentlig er. For å se hvorfor, anta at du prøvde 1000 handelsstrategier som var helt tilfeldige. Den som gjorde det beste, kunne se rimelig bra ut. Forhåpentligvis er en investeringsansvarlig ikke nok å prøve helt tilfeldige strategier, men utvalgsperspektiv vil fortsatt eksistere. Hvis lignende modeller brukes i flere selskaper for å styre mye penger, så er en fondsleder ved hjelp av disse modellene gjenstand for dramatiske trekk i markedet. Dette ble tydelig for mange mennesker i august 2007. Uten krise er det vanskelig å fortelle at dette skjer. Tilfeldige porteføljer kan hjelpe med det første problemet, og muligens med det andre. Handelsstrategier kan testes ved hjelp av skyggemetoden som er diskutert ovenfor. Det er en viktig forskjell mellom ytelsesmåling og testing av handelsstrategi. Når vi prøver en handelsstrategi, ønsker vi å gjøre skyggingsprosessen flere ganger med forskjellige startporteføljer. Denne testprosessen reduserer effekten av data snooping fordi det er en mye strengere definisjon av en vellykket strategi. Fondforvalteren er fortsatt sårbar for endringer i markedsadferd, men langt mindre mottakelig for feil fortolkning av den historiske perioden. Testing med tilfeldige porteføljer kan være i stand til å redusere herding fordi teknologien gjør det mulig å hente mer ephemerale signaler. Rationell investering Nåværende praksis er mindre enn rasjonell for: sporingsfeilbegrensninger ytelsesgebyrer begrensningsgrenser Sporingsfeilbegrensninger Mange mandater gir investeringsansvarlig en referanse og en maksimal sporingsfeil fra referansen. Dette er sløsing i flere henseender. I nesten alle tilfeller kan investor kjøpe et indeksfond for referanseporteføljen med svært lave administrasjonsgebyrer. What8217s fordelen av å ansette en aktiv leder for å drive et fond som er ekstremt korrelert med indeksfondet Hvis lederen doesn8217t overgår referanseindeksen med mer enn de ekstra administrasjonsavgiftene, er det åpenbart ingen fordel i det hele tatt. Hvis lederen har evnen til å konsekvent slå referansen, kan den ferdigheten bli brukt til mye bedre bruk. En dyktig fondsleder bør generelt kunne oppnå høyere avkastning når sporingsfeilbegrensningen blir tapt. Forutsatt at investor har penger i indeksen, vil den høyere avkastningen til den ubegrensede lederen også være mer verdifull. Alt annet er like, det er bedre for det aktive fondet å ha lav sammenheng med indeksen. Dette viser seg å være det samme som en stor sporingsfeil. Det vil si, det rasjonelle ville være å pålegge en minimumsporingsfeilbegrensning i stedet for en maksimal sporingsfeilbegrensning. Grunnen til at det er maksimale sporingsfeilbegrensninger er for å få illusjonen at vi kan se om fondets leder overgår eller ikke. Vi kan virkelig fortelle ved å bruke referansemerker, men vi kan fortelle å bruke tilfeldige porteføljer selv om det ikke er en sporingsfeilbegrensning. Tilfeldige porteføljer fungerer like godt for ytelsesmåling uansett hvilken sporingsfeil det er. Prestasjonsgebyr Hvis du har en ytelsesavgift, er det ikke en god ide å ha det i forhold til et referanse. Som det fremgår av figur 3, er det for det meste en innsats mellom fondschef og investor om hvorvidt store caps vil overgå. Ferdighet vil ha svært lite å gjøre med det. Et mer fornuftig mål ville være den gjennomsnittlige avkastningen av et sett av tilfeldige porteføljer som overholder fondets begrensninger. Begrensningseffekter Vi kan bruke tilfeldige porteføljer til å bestemme rasjonelt hva begrensningsgrensene skal være. Begrensninger er vanligvis innført uten følelse av hva som blir oppnådd og tapt. Figur 4 viser et eksempel på begrensninger. Tettheten av realisert verktøy over tid er vist for et bestemt sett av begrensninger (gull) og for de begrensninger pluss en volatilitetsbegrensning (blå). Under de normale markedstider vil vi være ganske likegyldige for volatilitetsbegrensningen. Under de fattige markedsforholdene i 2008 var volatilitetsbegrensningen imidlertid ganske verdifull. Ytterligere bruk av tilfeldige porteføljer En rekke tilleggsbruk av tilfeldige porteføljer har blitt foreslått, og det er sikkert et stort antall applikasjoner som ennå ikke skal oppdages. Her diskuteres noen ekstra bruksområder. Vurdering av risikomodeller Tilfeldige porteføljer gir et middel til å generere realistiske porteføljer som kan settes gjennom risikomodeller for å se hvordan de utfører. Risikomodeller kan sammenlignes med hverandre, eller enkelte modeller kan testes for svake punkter. Figur 5 viser et eksempel på å sammenligne en risikomodell8217s prediksjon av volatilitet til den realiserte volatiliteten for noen 12020 porteføljer. Korrelasjonen mellom spådd og realisert volatilitet over et stort antall tilfeldige porteføljer ble beregnet. Generelt kvantverktøy Tilfeldige porteføljer kan brukes i stort sett alle kvantitative øvelser som involverer porteføljer. En liste over noen av bruksområdene er på siden for kvantforskningsapplikasjoner. Ideen om tilfeldige porteføljer er ikke ny 8212 en tidlig bruk var 8220program valgt porteføljer8221 av Dean LeBaron og kolleger på Batterymarch Financial Management i 19708217. En enda tidligere bruk er beskrevet i en amerikansk statistisk sammenslutningstale av James Lorie i 1965 (enhver tale som starter med Mark Twain og slutter i St. Tropez kan være dårlig). På det tidspunktet stod tilfeldige porteføljer ut av beregningsevne. Beregningshastighet er ikke lenger et alvorlig problem med egnet teknologi. Noen tekniske poeng De statistiske oppstartstastene og tilfeldige permutasjonstester er teknikker som har radikalt endret dataanalyser de siste par tiårene. Avhengig av hvordan tilfeldige porteføljer brukes, er de generelt lik en av disse teknikkene. Bruken av tilfeldige porteføljer for å utføre ytelsesmåling er analog med å gjøre en tilfeldig permutasjonstest. Undersøkelsen av effekten av begrensningsgrenser, som i figur 5, ligner på hvordan oppstartsstrengen kan brukes. Den eneste virkelige forskjellen er at på grunn av begrensningene er tilfeldige porteføljer vanskeligere å beregne. Diskusjon Senior Consultant publiserte noen testimonials på PIPODs. Selv om dette handler spesielt om en implementering, gjelder de fleste kommentarene for tilfeldige porteføljer generelt. Selv naivt genererende tilfeldige porteføljer kan være nyttige. Eksempler på dette er Mikkelsen (2001) Kritzman og Page (2003) og Asso, L8217Her og Plante (2004). Kothari og Warner (2001) viser at benchmarking mot en indeks er problematisk, og deres teknikk innebærer tilfeldige porteføljer. Følgende produkter ble opprettet uavhengig av hverandre, og bare Portfolio Probe er knyttet til Burns Statistics. Porteføljesond fra brannstatistikk. Dette har et bredt spekter av begrensninger, inkludert det svært viktige for å begrense volatiliteten i porteføljene. PODer og PIPODer fra PPCA Inc. Referanser Asso, Kodjovi, Jean-Franois L8217Her og Jean-Franois Plante (2004). 8220 er det virkelig et hierarki i investeringsvalg8221 hec. cacrefpdfc-04-15e. pdf Bridgeland, Sally (2001). 8220Prosessattribusjon 8212 en ny måte å måle ferdigheter i porteføljekonstruksjon8221 Journal of Asset Management. Burns, Patrick (2006). Porteføljeanalyse med tilfeldige porteføljer (pdf av annoterte presentasjonssider) Burns, P. (2006). 8220Random porteføljer for ytelsesmåling8221 i optimalisering, økonometrisk og finansiell analyse E. Kontoghiorghes og C. Gatu, redaktører. Springer. Burns, P. (2007a). 8220Bullseye8221 Professional Investor March issue. En veldig lignende versjon er tilgjengelig som Dart to the Heart Carl, Peter og Brian Peterson og Kris Boudt (2010). 8220Business Objectives and Complex Portfolio Optimization8221. RFinance tutorial Daniel, G. D. Sornette og P. Wohrmann (2008). 8220Look-Ahead Benchmark Bias i Portfolio Performance Evaluation8221 Working Paper ved SSRN Dawson, Richard og Richard Young (2003). 8220Nærlig jevnt fordelte, stokastisk genererte porteføljer8221 i fremskritt i porteføljens konstruksjon og implementering redigert av Stephen Satchell og Alan Scowcroft. Butterworth-Heinemann. Elton, E. J. M. J. Gruber, S. J. Brown og W. N. Goetzmann (2003). Moderne portefølje teori og investeringsanalyse, sjette utgave (kapittel 24, evaluering av porteføljeprestasjon). Kothari, S. P. og Jerold Warner (2001). 8220Evaluerende Mutual Fund Performance8221 Journal of Finance arbeidspapir på SSRN Kritzman, Mark og Sbastien Page (2003). 8220The Hierarki of Investment Choice8221 Journal of Portfolio Management 29. nummer 4, side 11-23. Lisi, Francesco (2011). 8220Disisjon med markedet: Randomized Procedures for Evaluering av Mutual Funds8221. Kvantitativ finansiering 11. nummer 2, side 163-172. Universitetsbiblioteket i Padova. papers. ssrnsol3papers. cfmabstractid1375730 Mikkelsen, Hans (2001). 8220Forholdet mellom forventet retur og beta: En tilfeldig gjenvurderingstilgang8221 SSRN-papirer Shaw, William (2010) 8220Monte Carlo Porteføljeoptimalisering for generelle investorrisiko-returmål og vilkårlig returfordeling: En løsning for lengste porteføljer8221 SSRN-versjon Simon, Thibaut (2010) ). 8220 En empirisk undersøkelse av aksjeporteføljer basert på diversifisering og innovative risikofaktorer8221. Mastergrads Stein, Roberto (2012). 8220Ikke lurt av tilfeldighet: Bruke tilfeldige porteføljer for å analysere investeringsfondene8221 SSRN-versjon Surz, Ron (1994). 8220Portfolio Opportunity Distributions: En innovasjon i Performance Evaluation8221 Journal of Investing. Surz, Ron (1996). 8220Portfolio Opportunity Distributions: En løsning på problemene med Benchmarks og Peer Groups8221 Journal of Performance Measurement. Surz, Ron (1997). 8220Global Performance Evaluation and Equity Style: Innføring av Portfolio Opportunity Distributions8221 i Handbook of Equity Style Management. Frank Fabozzi Associates. Surz, Ron (2004). 82208216Hedge Funds Har Alpha8217 er en hypotese verdt testing8221 Albourne Village bibliotek. Surz, Ron (2005). 8220Testing The Hypothesis 8216Hedge Fund Performance er Good8221 Journal of Wealth Management. Vårproblem. Surz, Ron (2006). 8220A Fersk Look At Investment Performance Evaluering: Samlende beste praksis for å forbedre aktualitet og pålitelighet8221 Journal of Portfolio Management Sommerproblem. Surz, Ron (2007). 8220Accurate Benchmarking er gått men ikke glemt: det avgjørende behovet for å komme tilbake til grunnleggende8221 Journal of Performance Measurement. Vol. 11. Nr. 3, Spring, s. 34-43. Surz, Ron (2009). 8220A Handicap av investeringsresultatet Horserace8221 Publisert som 8220Handikap i investeringsprestasjonen Horserace8221 i Advisor Perspectives 2009 28. april. Surz, Ron (2010) 8220The New Trust, men Verify8221 Investering og Wealth Management SSRN-versjonRandom Porteføljer for Evaluering av Trading Strategies Transkripsjon 1 Tilfeldige porteføljer for Evaluering Handelsstrategier Patrick Burns 13. januar 2006 Sammendrag Tilfeldige porteføljer kan gi en statistisk test som en handelsstrategi utfører bedre enn sjansen. Hver løp av strategien er sammenlignet med en rekke matchende tilfeldige løp som er kjent for å ha null ferdighet. Det er viktig at denne typen backtest viser tidsperioder når strategien fungerer, og når den ikke gjør det. Live porteføljer kan overvåkes på denne måten også. Dette tillater informerte beslutninger som forandringer i innflytelse som skal gjøres i sanntid. 1 Innledning Tilfeldige porteføljer porteføljer som adlyder begrensninger, men ignorerer verktøyet, er et kraftig verktøy i økonomi. Burns, 2004 diskuterer bruken av tilfeldige porteføljer for å måle ytelsen av midler. Fokuset her er på å bruke dem for å finne en god handelsstrategi en relatert, men distinkt oppgave. En strategi har to deler: et middel til å forutsi avkastning (alfamodell), og en handelsmetode for å prøve å utnytte alfaen. Å utføre en statistisk test av spådommene er relativt enkelt. Det er data snooping problemer, men likevel er det generelt mulig å ha en god følelse av om en prediksjonsmetode plukker opp et signal. Tilfeldige porteføljer gir en streng test av handelsstrategien som helhet noe som synes nesten umulig uten tilfeldige porteføljer. Anta at vi har resultater av en handelsstrategi over en viss tidsperiode. Hvis vi hadde en liste over alle mulige handelsbaner som vi kanskje hadde tatt, så ville vi vite nøyaktig hvor god strategien vår var for perioden og for en hvilken som helst delperiode. Vi ville vite at vår strategi overgikk x av populasjonen av stier. I vårt eksempel er universet av størrelse 186 og porteføljene er på størrelse 50. Det er 6,89e45 måter å velge de 50 aksjene i porteføljen ved slutten av handelsperioden. For hvert av disse forsamlingssettene vil det være mange Denne rapporten finnes i arbeidspapiravsnittet på Burns Statistics-nettstedet 1 2 måter å velge antall aksjer for hver bestand som overholder begrensningene. For en gitt sluttportefølje vil det være mange baner for å komme dit fra den opprinnelige porteføljen. Antall mulige stier er endelig, men så stort antall at det er praktisk talt uendelig. Men vi trenger ikke å ha alle banene for å kunne evaluere vår strategi. Hvis vi genererer en tilfeldig delmengde av stiene, kan vi lage statistiske setninger om kvaliteten på strategien. Alle innledende statistikkbøker diskuterer prøvetaking fra en befolkning, og det er bare det vi gjør. Noen få tusen stier er det meste vi noensinne trenger for praktiske formål. R R Development Core Team, 2005 og POP Portfolio Construction Suite Burns Statistics, 2005 ble brukt til beregninger i dette papiret. 2 Eksempeldata Et spesifikt eksempel brukes til å illustrere bruken av tilfeldige porteføljer for å evaluere en strategi. Universet av aksjer er 186 amerikanske aksjer som er en usystematisk blanding av store caps og små caps. Daglige data blir brukt fra begynnelsen av De første 500 dagene brukes til å estimere variansmatrisen for den første porteføljeoptimaliseringen, og å vurdere styrken av prediksjonen. De neste 1000 dagene er perioden hvor handel skjer. Data etter disse 1500 dagene blir uberørt slik at den kan brukes til å teste en endelig strategi. Alfa-modellen for hver bestand er det likevektede gjennomsnittet av avkastningen på de foregående 26 handelsdøgene minus likevektet gjennomsnitt av avkastningen de foregående 12 dagene. Det vil si at det er et Moving Average Convergence Divergence estimat. Aficionados av MACD bruker vanligvis eksponentielle vekter selv. 3 Evaluering av prediksjon Det første trinnet i evaluering av en strategi er å teste prediksjonsprosessen. En felles tilnærming er å gjøre en tegnprøve, en suksess er scoret dersom prediksjonen og den realiserte avkastningen er enten begge over deres median eller begge under deres median. Det er en feil hvis en er under dens median og den andre er over dens median. Binomialfordelingen brukes til å vurdere sannsynligheten. Vi kan også teste om Spearman-korrelasjonen mellom prediksjonen og den realiserte avkastningen er positiv. Spearman-korrelasjonen bruker rangene i stedet for de faktiske dataverdiene. Det er en litt robust versjon av den vanlige (Pearson) korrelasjonen. Spearman-korrelasjonen reagerer ikke så sterkt på utestengere, men det er fortsatt påvirket av utjevningsmidler som det burde være i denne innstillingen. I tillegg til å vise om den riktige mengden robusthet, er en annen grunn til å foretrekke Spearman-korrelasjonen at p-verdiene fra testen vil være nær høyre, selv om distribusjonene ikke ligger svært nær den normale fordeling. Avkastning bør ikke antas å følge normalfordelingen. 2 3 Figur 1: P-verdier (en for hvert lager) av Spearmans korrelasjonstest for 2-dagers avkastning i løpet av pre-trading og trading periodene. Frekvens P-verdi Figur 1 og 2 viser fordelingen av p-verdier fra Spearman-testen for å forutsi 2 og 5 dager fremover i løpet av de første 1500 dagene av data, som inkluderer handelsperioden. I begge tilfeller er det et uforholdsmessig antall aksjer som har små p-verdier. Vi er fornøyde. Som vist i figur 3, behøver signertesten ikke nødvendigvis være enig med den tilsvarende Spearman-testen. P-verdiene kan være vesentlig forskjellige, spesielt når bevisene er tvetydige. En bedre tilnærming til å teste forutsigelsen er å bruke dataene før handelsperioden. Dette opprettholder handelsperioden fra data snooping bias forårsaket av å søke etter en tilstrekkelig prediktor. Figur 4 viser en test for denne perioden. Det er faktisk et underskudd på aksjer med små p-verdier. Denne prediktoren er tydeligvis ikke nyttig for alle tidsperioder. I virkeligheten ville vi ikke ha gått ut med å teste trading etter å ha sett dette, vi ville hale prediktoren før vi fortsatte. (Vi ville også ha behov for å bruke flere data i prognoseperioden.) 4 Ytelsesvurdering I fravær av tilfeldige porteføljer er det vanskelig å få en god følelse av strategiens kvalitet. Gjennomsnittlig avkastning over perioden er en åpenbar måling. Dette er imidlertid ikke sannsynlig å være en gyldig indikator for fremtidig avkastning faktisk, vårt eksempel vil vise at det kan være ganske misvisende. 3 4 Figur 2: P-verdier (en for hvert lager) av Spearmans korrelasjonstest for 5-dagers avkastning under pre-trading og trading perioder. Frekvens P-verdi Figur 3: P-verdier av Spearman-testen i forhold til tegnetestet for 5-dagers avkastning i pre-trading og trading periodene. P-verdi fra Spearman Test P-verdien fra Sign Test 4 5 Figur 4: P-verdier (en for hvert lager) av Spearman-testen for 5-dagers avkastning i perioden før handel. Frekvens P-verdi En optimalisering utføres hver dag i vår teststrategi handler ferdig på dagen etter at de siste dataene som ble brukt i estimater. Målet er å maksimere informasjonsforholdet med den begrensningen at omsetningen (kjøper pluss selger) er begrenset til rundt 400 per år. Antall aksjer i porteføljen er begrenset til å være mellom 45 og 50 i virkeligheten. Porteføljen er nesten alltid på størrelse 50. Porteføljen er langvarig med nettoverdien holdt nær null. Det forsøker å ha den absolutte verdien av nettet mindre enn 5 av bruttoværdi, og prøver veldig hardt å ha det mindre enn 10 av brutto. Den forsøker å holde maksimalvekten til hvert aktiv i porteføljen mindre enn 10 (hvor vekten er den absolutte størrelsen på en posisjon dividert med brutto av porteføljen). Variasjonsmatrisen på hver dag er en statistisk faktormodell bygget med dataene fra de foregående 500 dagene. 4.1 Engangsportefølje Figur 5 viser formuekurven til handelsstrategien som starter fra en bestemt portefølje. Den opprinnelige porteføljen er omtrent likevektet i de (alfabetisk) første 50 aksjene i universet med hvert sekund lager med kort posisjon. Startporteføljen er en vilkårlig portefølje som tilfredsstiller begrensningene. Kurven tar ikke hensyn til handelskostnadene, men da omsetningen er begrenset til å være nærmere 400 per år, kan effekten av handelsutgifter enkelt vurderes. Vi ønsker å generere tilfeldige porteføljer som etterligner den faktiske optimaliseringen 5 6 Figur 5: Verdien generert fra handelsstrategien. Rikdom backtest. I hovedsak oppretter vi en rekke hypotetiske fondforvaltere som utfører samme oppgave som vi gjør, men har ingen ferdighet. Hvis vi overgår de fleste av disse hypotetiske lederne, er det bevis på at vi har kompetanse. Faktisk kan vi få et estimat av hvor mye ferdighet vi viser. Her er en oversikt over hvordan man lager porteføljer for hypotetiske ledere. Det første trinnet er å lage en liste, ring den eksisterende listen, med lengde lik antall tilfeldige porteføljer som skal genereres (100 i eksempelet). Initialiser hver komponent i listen med startporteføljen. Nå løp over handelstider. Det første er å oppdatere den forventede avkastnings - og variansmatrisen. For hver tilfeldig sti: få den eksisterende porteføljen til å generere en tilfeldig handel unna den eksisterende porteføljen, lagre ønsket informasjon om den nye porteføljen, sett den nye porteføljen til riktig sted for eksisterende liste. (End sløyfe over tilfeldige veier, sluttløyfe over handelstider.) Figur 6 viser formuekurver på 100 tilfeldige porteføljer med de samme begrensningene som optimaliseringsprosessen. En enklere måte å se mønsteret av de tilfeldige porteføljene på er å plotte noen få kvantiler på hvert tidspunkt. Linjene som er tegnet er ikke individuelle porteføljer, men bytter porteføljer fra tid til annen. Figur 7 viser den faktiske optimaliseringsverdien i forhold til kvantiler av de tilfeldige porteføljene. Den har middelmådig ytelse fram til midten av 1998, på hvilket tidspunkt det klart overgår de tilfeldige porteføljene. Den har dårlig ytelse ved dot-com sammenbrudd, og deretter gjenoppretter litt. Det er rart at en strategi som kun gir 8,5 på 4 år tester så godt. Legg merke til at kvantiene av de tilfeldige porteføljene generelt sett er nedadgående. Den opprinnelige porteføljen mister penger i løpet av denne perioden, og det er 6,7 Figur 6: Stier på 100 tilfeldige porteføljer med samme begrensninger som optimalisering. Rikdom Figur 7: Tilfeldige porteføljekvantiler (minimum, 5, 10, 25, 50, 75, 90, 95, maksimum) i blått, og den faktiske optimaliseringen (i svart). Rikdom 8 Figur 8: Kvantiler av tilfeldige porteføljer som starter med den angitte porteføljen (blå) og kvantiler av tilfeldige porteføljer som starter med motsatt av den angitte porteføljen (grønn). Riksmessig fluens fortsetter selv om porteføljen handles 1600 innen utgangen av perioden. Denne startporteføljen er et alvorlig handikap. Vi kan se dette ved å generere tilfeldige porteføljer som har motsatt startportefølje, det vil si at de lange posisjonene blir korte og de korte stillingene er laget lenge. En sammenligning av kvantiene av de to settene av tilfeldige porteføljer er i figur 8. Sannsynligvis få ville ha gjettet at innflytelsen fra startporteføljen ville vare så lenge. Hvis rikdomskursen i vår strategi måtte sammenlignes med tilfeldige porteføljer ved hjelp av motsatt startportefølje, ville vi absolutt ikke ha funnet det å være eksepsjonelt. Tilfeldige porteføljer som er lange korte vil være nær symmetriske uten gevinst hvis endringen av tegnet på hver posisjon i en tilfeldig portefølje også tilfredsstiller begrensningene. I det foreliggende tilfelle med en bestemt startportefølje bryter den symmetrien. Fordelingen som er representert i figur 8 er nær speilbilder av hverandre. Det er mange måter som symmetrien kan bli ødelagt. For eksempel, hvis rekkevidden for nettverdien ikke er symmetrisk rundt null. 4.2 P-verdi kontrolldiagrammer Kanskje viktigere enn en evaluering av strategien for hele handelsperioden er å identifisere delperioder hvor strategien virket spesielt bra eller dårlig. På en hvilken som helst handelsdag er antall tilfeldige porteføljeavkastninger som 8 9 er større enn avkastningen fra den reelle porteføljen, den viktigste ingrediensen for p-verdien av en test. Testen er at avkastningen fra porteføljen ikke er større enn gjennomsnittlig tilfeldig porteføljeavkastning. P-verdiene fra individuelle dager kan kombineres via Stouffer s metode (se Burns, 2004) for å få et jevnere bilde av når strategien virket bra. Figur 9 viser 10-dagers ikke-overlappende p-verdier. Det er tidspunkter hvor porteføljen plutselig bytter til en verre eller bedre tilstand i forhold til tilfeldige porteføljer. Vi vil at p-verdiene ikke skal være større enn 0,5, men i dette tilfellet er det perioder hvor de nærmer seg 1 for en stund. Dette innebærer at strategien er gjenstand for betydelige drawdowns, og dermed ikke særlig appetittvekkende. Et annet trekk i figur 9 er at strategien ser ut til å bli verre etter hvert som tiden går. Det er minst to mulige forklaringer på dette. Den ene er at alfa-modellen mister strøm gjennom hele perioden, dette kan enten være midlertidig eller permanent. En annen mulighet er at tilfeldige porteføljer på en eller annen måte er systematisk divergerende fra den faktiske strategien. Volatiliteten til de tilfeldige porteføljene i de siste to årene er generelt betydelig høyere enn volatiliteten til den optimaliserte porteføljen i løpet av den tiden. Selv om optimaliseringen ikke formelt har en begrensning i volatiliteten, favoriserer optimaliseringsprosessen lavere volatilitet. Å begrense tilfeldige porteføljer for å ha en volatilitet som ikke er mye større enn volatiliteten til den optimaliserte porteføljen, vil trolig gi en rimeligere vurdering. Uten en slik begrensning ville vi forvente at p-verdiene skulle drifte høyere over tid. Selv om det er naturlig å anta at antall sluttposisjoner ville være større i optimaliseringen enn i tilfeldige porteføljer, var det i virkeligheten flere sluttposisjoner i tilfeldige porteføljer. Så de tilfeldige porteføljene kan divergere raskere fra den opprinnelige porteføljen (som utfører dårlig) enn den optimaliserte strategien. Et kontrollskjema generert fra tilfeldige porteføljer som alltid har samme antall sluttposisjoner som den virkelige porteføljen, viser mindre en trend i p-verdiene. Dette eliminerer mistanke om at alfa modellen blir verre over tid. Plots like Figure 9 can be used in real-time to monitor if a portfolio is losing its edge. The plot could be used as a control chart to signal when the portfolio has gone out of control (either to the bad side or the good side). If the series of non-overlapping p-values is predictable, then it could be used to make decisions for example, on changing the leverage. 4.3 Complete Evaluation Process The wealth curve for the optimized portfolio of Section 4.1 has a p-value of 3 for the whole time period relative to the random paths that were generated. This is the p-value given that we start with the portfolio that we did. We aren t actually interested in that particular starting portfolio, we want to know how well the strategy performs starting from anywhere. Here we outline our recommendation of the entire process. 9 10 Figure 9: P-values combined over 10 non-overlapping days for the returns of the strategy relative to the random portfolio returns. Combined p value For each of several random starting portfolios perform the procedure given in Section 4.1. Examine the set of p-values that are obtained one for each starting portfolio. Very few p-values should be larger than one-half, and you should be quite concerned if any are close to 1. Look at the p-value control chart for each run. Plotting multiple p-value paths in one chart could highlight times when the strategy does especially poorly (or well). If the p-values are uniformly small both for the whole trading period and within the trading period then the strategy will be good. Let s apply this to our example strategy. Figure 10 displays the wealth curves of the strategy for 20 randomly selected starting portfolios. Figure 11 shows the average wealth curve from these 20 runs. Since we know in this case that no skill is equivalent to zero gain, we can make some general observations. (Otherwise we could have plotted the wealth curve of the average random portfolios as well.) 1998 is a good year for the strategy, 1999 is about flat, and the first part of 2000 is bad. MACD is basically a momentum strategy. It makes sense that 1998 should be good, and that early 2000 (when the stock market was meanreverting) should be bad. It is a bit puzzling that 1999 was not also a good year for the strategy. 10 11 Figure 10: Wealth curves of the example strategy from 20 random starting portfolios. Wealth Figure 11: Wealth curve of the strategy averaged over the 20 starting portfolios. Wealth 12 Figure 12: The 20 whole period p-values compared to the theoretical uniform distribution. Whole Period P values Theoretical Quantiles 12 of the 20 wealth curves end the period with gains. But p-values are a more telling statistic. Figure 12 displays the 20 p-values for the whole trading period versus the expected values from the uniform distribution. We want the points to be below the line this shows the strategy being slightly worse than no skill over this time period. (Constraining volatility in the random portfolios might have improved the results slightly.) This is a key plot, it is evidence that our strategy definitely should not be used. From Figure 10 it is clear that the strategy would have looked very good if the trading period were only Even though we have evidence that we have prediction power, we aren t using that to good advantage. There are (at least) two ways to get a p-value from an optimization run and its associated random portfolios. The first is to count the number of random paths that outperform the optimized path this is what is plotted in Figure 12. The second is to combine the daily p-values over the trading period. These are subtly different in meaning is there outperformance over the period versus is there ever outperformance. Figure 13 compares these for the 20 random starting portfolios. The combined p-values are substantially smaller in this case. That means that the strategy has more days of being really good than really bad. We also examine the p-values throughout the trading period for the 20 runs. Figure 14 plots the first and third quartiles of 10-day p-values (combined from daily p-values). Though noisy, there are clearly good and bad periods. Our example strategy has an inefficiency. The same fraction of the value of the portfolio is traded each day. However, the value of trading is highly unlikely 12 13 Figure 13: Comparison of the whole period p-values to the combined daily p-values. Combined Daily P values Whole Period P values Figure 14: The first and third quartiles of the 10-day non-overlapping p-values from the 20 runs. Combined p value 14 to be constant. A better approach is to use trading costs to limit the amount that is traded. More will be traded when the existing portfolio is expected to do poorly than when it is expected to do well. While getting the trading costs to be approximately right is non-trivial, it can be quite a valuable effort. 5 Comparing Competing Strategies In the previous section we took rather a cynical view and asked if the strategy exhibited any value at all. Once you are in the position to believe that you have a strategy that does have value, you may want to compare it with another strategy to determine if either is significantly better. If the constraints for the two strategies are the same, then a reasonable approach is to test the difference in returns from them. If the trading were daily, then a starting portfolio would be fixed, the two strategies would be run, and the data used in the test would be the differences of the daily returns. A t-test would be approximately correct, however the differences in returns would probably have longer tails than the normal distribution. A sign test or a signedrank test may be more appropriate. P-values could be combined from tests based on different starting portfolios. Random portfolios could be used in this case, but would be redundant. Random portfolios are useful when the constraints are different for the two strategies. For instance if one strategy is much less volatile than the other, then a comparison of returns is not especially appropriate. Each strategy can be mimicked by random portfolios, and the difference in daily p-values tested. 6 Constraint Evaluation Another application of random portfolios is to get a sense of the usefulness of constraints that we put on the portfolio. One of the constraints in the example was a maximum weight of 10. A set of random portfolios were generated with the maximum weight constraint removed. Figure 15 shows the quantiles. Figure 16 compares the terminal wealth of the random portfolios with the 10 limit on the maximum weight with that of the random portfolios with no limit on the maximum weight. The two distributions are remarkably similar. Of particular interest is whether imposing the weight limit restricts the upper tail of the wealth. There is no evidence of that. The weight constraint has a minimal effect on the random portfolios, so there remains the question of its effect on the strategy. The constraint avoids large losses from a single stock prediction being wrong, but also removes the possibility of a large gain from a single stock with a correctly large prediction. For the example alpha model, the constraint is undoubtedly useful since it not uncommonly gives a signal in the wrong direction. The appropriateness of this constraint appears to be largely a function of the quality of the alpha model. 14 15 Figure 15: Random portfolio quantiles (minimum, 5, 10, 25, 50, 75, 90, 95, maximum) with no maximum weight constraint. Wealth Figure 16: Comparison of the terminal wealth of the random portfolios with and without a maximum weight constraint. Terminal Wealth, Max Weight: 10 Terminal Wealth, Max Weight: 100 15 16 7 Summary There are three main problems when creating a trading strategy: Learning the strength of the prediction Evaluating the quality of the trading strategy Avoiding bias and false beliefs from data snooping We ve demonstrated a couple of statistical tests that deal with the first problem the sign test and the Spearman correlation test. Random portfolios can directly attack the second problem. They provide defensible and sensitive statements on the efficacy of a trading strategy. The results can be presented graphically with wealth curves or with p-value control charts. Random portfolios also help some with the third problem. Random portfolios provide p-values, which can be adjusted to account for data snooping. A p-value of is generally thought to be quite good. However, if you have tried a thousand different strategies and your best p-value is 0.001, then there is about a 63 probability of no value for the best strategy. The more consistent your results across time and across different universes, the more confidence you can have that you are not just data snooping. It is standard practice to reserve a period of the most recent data to test the final strategy. The focus here has been on researching a strategy before going live with it. However, p-value control charts plots of p-values over time are useful for live portfolios as well. The returns (or another measure of utility) over the recent past can be compared to those of a set of random portfolios. This gives instant feedback on the performance of the portfolio. A control chart can also be maintained that combines the results from a number of optimized portfolios with random starting points this will show the current usefulness of the strategy itself. References Burns, 2004 Burns, P. (2004). Performance measurement via random portfolios. Working paper, Burns Statistics, Burns Statistics, 2005 Burns Statistics (2005). User s Manual. POP Portfolio Construction R Development Core Team, 2005 R Development Core Team (2005). R: A language and environment for statistical computing. R Foundation for Statistical Computing, ISBNRandom Portfolios for Evaluating Trading Strategies Patrick Burns January 13, 2006 Random portfolios can provide a statistical test that a trading strategy performs better than chance. Each run of the strategy is compared to a number of matching random runs that are known to have zero skill. Importantly, this type of backtest shows periods of time when the strategy works and when it doesnt. Live portfolios can be monitored in this way as well. This allows informed decisions - such as changes in leverage - to be made in real-time. Number of Pages in PDF File: 16 Keywords: investment skill, MACD, performance measurement Date posted: February 8, 2006 Suggested Citation Burns, Patrick, Random Portfolios for Evaluating Trading Strategies (January 13, 2006). Available at SSRN: ssrnabstract881735 or dx. doi. org10.2139ssrn.881735 1. Using a Z-score Approach to Combine Value and Momentum in Tactical Asset Allocation By Peng Wang and Larry Kochard 2. A Quantitative Approach to Tactical Asset Allocation By Meb Faber People who downloaded this paper also downloaded: 1. Using a Z-score Approach to Combine Value and Momentum in Tactical Asset Allocation By Peng Wang and Larry Kochard 2. A Quantitative Approach to Tactical Asset Allocation By Meb Faber 4. MATLAB Applications of Trading Rules and GARCH with Wavelets Analysis By Eleftherios Giovanis 5. Relative Strength Strategies for Investing By Meb Faber 6. Absolute Momentum: A Simple Rule-Based Strategy and Universal Trend-Following Overlay By Gary Antonacci 7. Demystifying Time-Series Momentum Strategies: Volatility Estimators, Trading Rules and Pairwise Correlations By Nick Baltas and Robert Kosowski 8. Pairs Trading: Performance of a Relative Value Arbitrage Rule By Evan Gatev. William Goetzmann. 9. Risk Premia Harvesting Through Dual Momentum By Gary Antonacci 10. Technical Analysis in Financial Markets By Gerwin Griffioen

Comments

Popular Posts