Elo-rating

Et elo-ratingsystem er en matematisk-statistisk metode for å beregne den relative styrken til en spiller i tomanns nullsumspill (senere også flerspillerspill), som for eksempel sjakk og Go. Det var lenge vanlig å skrive «ELO» med store bokstaver, til tross for at det ikke er et akronym, men dette har man mer og mer gått bort fra, slik at denne utbredte misforståelsen nå bør kunne unngås. Fellesnavnet «elo» kommer fra etternavnet til systemets oppfinner, Arpad Elo (1903–1992), en ungarskfødt amerikansk professor i fysikk. (Elo ble riktignok født i Ungarn som Élő Árpád, men ungarske navn skrives nettopp med etternavnet først.)

Elo-ratingen ble egentlig introdusert som et forbedret ratingsystem for sjakk, men blir i dag brukt i mange spill. Det blir også brukt som ratingsystem for mange flerspiller-videospill,^[1] og er blitt tilpasset lagsport, som for eksempel amerikansk fotball og basketball.

Historie

Arpad Elo var en sjakkspiller på mesternivå og en aktiv deltager i turneringer arrangert av Det amerikanske sjakkforbundet (USCF) fra dets begynnelse i 1939. USCF brukte et numerisk ratingsystem, konstruert av Kenneth Harkness, for å la medlemmene følge sin personlige utvikling, i stedet for bare turneringsseire og -tap. Harkness-systemet var rimelig rettferdig, men i enkelte tilfeller ga det en økning som mange fant svært unøyaktig. På vegne av USCF konstruerte Elo et nytt, mer statistisk basert system.

Elos system erstattet tidligere systemer basert på vinst og tap i konkurranser til et system basert på statistiske estimater. Ratingsystemer for mange sporter gir poeng etter subjektive evalueringer av størrelsen på enkelte bragder. For eksempel kan det å vinne en viktig golfturnering være verdt opptil fem ganger så mange poeng som å vinne en mindre viktig turnering.

Et statistisk system bruker en modell som setter resultatene i sammenheng med underliggende variabler som representerer styrken til hver spiller.

Elos sentrale antagelse var at prestasjonene til hver spiller i et spill er en normalfordelt tilfeldig variabel. Selv om en spillers prestasjon kan endre seg drastisk til det bedre eller verre fra ett spill til det neste, antok Elo at middelverdien av prestasjonen til en bestemt spiller kun endret seg sakte over tid.

En videre antagelse er nødvendig fordi sjakkprestasjoner fortsatt ikke er målbare. Man kan ikke se på en sekvens av trekk og si «Dette er en 2039 prestasjon». Prestasjonen kan kun måles i seire, remis og tap. Den som vinner et parti vurderes som å ha prestert bedre enn den som taper, og ved remis antas spillerne å ha prestert på omtrent samme nivå.

Elo spesifiserte ikke eksakt hvor nær to prestasjoner burde være for at resultatet skulle ende i remis i stedet for vinst eller tap. Selv om det var sannsynlig at hver spiller kunne ha forskjellige standardavvik på prestasjonen, gjorde han forenklende antagelser stikk i strid med dette.

For å forenkle videre, foreslo Elo en direkte metode for å estimere variablene i sin modell (med andre ord den egentlige styrken til hver spiller). Man kunne beregne hvor mange partier en spiller var forventet å vinne basert på en sammenligning av spillerens og motstandernes rating. Dersom en spiller vant flere partier enn forventet, ville ratingen bli justert oppover, dersom spilleren vant færre partier enn forventet, ville ratingen bli justert nedover. Denne justeringen skulle være eksakt lineært proporsjonal med antall seire spilleren hadde vunnet over forventningen, eller tapt flere enn forventningen.

Fra et moderne perspektiv var Elos forenklende antagelser ikke nødvendige siden regnekraft er svært billig og tilgjengelig i dag. Selv innen den forenklede modellen er mer effektive estimeringsteknikker godt kjent. Flere, kanskje særlig Mark Glickman, har foreslått å bruke mer avanserte statistiske metoder for å estimere de samme variablene. På den andre siden har graden av enkelhet i beregningene i elosystemet vist seg å være en av dets sterkeste sider. Med hjelp av bare en enkel kalkulator kan man beregne sin rating innen ett poengs feilmargin. Dette støtter opp under oppfatningen av at systemet er godt.

Implementasjon av Elos formel

USCF implementerte Elos forslag i 1960, og systemet ble raskt anerkjent som både bedre og mer presist enn Harkness' system. Elos system ble også tatt i bruk av FIDE i 1970. Elo beskrev sitt arbeid i mer detalj i boka The Rating of Chessplayers, Past and Present, publisert i 1978. Ivar M. Dahl skrev en kort presentasjon av Elos ideer i Norsk Tidsskrift for Sjakk nr 1, 1970, og på styremøtet i NSF 2. januar 1971 nedsatte forbundet sin første Elo-komité. Den første norske ratinglisten ble offentliggjort i Norsk Tidsskrift for Sjakk nr. 1/2-1972, og omfattet 37 spillere – alle med rating på minst 2000.

Senere statistiske tester har vist at sjakkprestasjonen nesten helt sikkert ikke er normalfordelt. Svakere spillere har signifikant større vinnersjanser enn det Elos modell anslår. Derfor har både USCF og FIDE gått over til formler basert på en logistisk fordeling. Dog, i anerkjennelse av Elos bidrag til ratingsystemene slik vi kjenner dem i dag, sier begge organisasjonene at de bruker «elo-systemet».

Forskjellige ratingsystem

Frasen «elo-rating» er ofte brukt om en spillers sjakkrating gitt av FIDE. Dessverre er denne bruken forvirrende og ofte misvisende, fordi Elos generelle idéer har blitt tatt i bruk av mange forskjellige organisasjoner, inkludert USCD, FIDE, NSF, NFSF, internettsjakklubben ICC, Yahoo! Games, og det nå oppløste Professional Chess Association (PCA), for å nevne noen. Hver organisasjon har en unik implementering, og ingen av dem følger eksakt Elos opprinnelige forslag. Det ville vært mer presist å kalle alle de ovennevnte ratingene for varianter av elo-rating, uten å framheve én enkelt av dem som «selve» elo-ratingen.

I stedet for å si elo-rating, kan man referere til organisasjonen som gir ratingen, for eksempel «Per juli 2008 har Magnus Carlsen en FIDE-rating på 2775 og en NSF-rating på 2792.» Det bør bemerkes at selv om alle er elo-ratinger, er disse ikke direkte sammenlignbare. For eksempel vil en spiller med NSF-rating på 1800 ha en FIDE-rating på rundt 2000 og en ICC-rating i området fra 2000 til 2300.

FIDE-rating

For toppspillere vil den viktigste ratingen være deres FIDE-rating. FIDE publiserte tidligere offisielle ratinglister 4 ganger i året, men fra og med september 2009 ble de utgitt 6 ganger i året,^[2] og fra juli 2012 har de blitt publisert månedlig.

Følgende analyse av januar-listene til FIDE fra 2006 gir et grovt inntrykk av hva en gitt FIDE-rating vil si:

19743 spillere har en rating over 2200, og innehar vanligvis en CM-tittel.
1868 spillere har en rating mellom 2400 og 2499, der de fleste innehar enten en IM- eller GM-tittel.
563 spillere har en rating mellom 2500 og 2599, der de fleste innehar en GM-tittel.
123 spillere har en rating mellom 2600 og 2699, der alle, med unntak av én, innehar en GM-tittel.
18 spillere har en rating mellom 2700 og 2799.
9 spillere (Garri Kasparov, Vladimir Kramnik, Veselin Topalov, Viswanathan Anand, Levon Aronjan, Fabiano Caruana, Shakhriyar Mamedyarov, Liren Ding og Magnus Carlsen) har hatt en rating over 2800.

Den høyeste FIDE-ratingen noensinne oppnådd er 2882, og ble oppnådd av Magnus Carlsen 1. mai 2014.^[3]

I hele FIDEs historie har kun 48 spillere (per oktober 2007), ofte referert til som superstormestere, hatt en topprating over 2700, og kun 6 spillere (Garri Kasparov, Vladimir Kramnik, Veselin Topalov, Viswanathan Anand, Levon Aronjan og Magnus Carlsen) har noen gang passert 2800.

Prestasjonsrating

En «prestasjonsrating» er en hypotetisk rating som ville vært resultatet av kun en enkelt begivenhet. En prestasjonsrating, ofte bare referert til som en spillers «prestasjon», for en begivenhet er beregnet ved å ta (1) ratingen til alle spillerne man har beseiret og legge til 400, (2) ratingen til alle spillerne man har tapt mot og trekke fra 400, (3) ratingen til alle spillerne man har spilt remis mot, og (4) summere sammen alle disse tallene og dele på antall spilte partier.

Turneringskategorier

FIDE klassifiserer sine turneringer i kategorier avhengig av gjennomsnittsratingen til de deltagende spillerne. Hver kategori dekker 25 ratingpoeng. Kategori 1 er en turnering med en gjennomsnittsrating mellom 2251 og 2275, kategori 2 er mellom 2276 og 2300, og så videre.^[4] Den høyeste ratede turneringen til dags dato var Grand Slam Chess Final Masters i Bilbao i september 2008. En kategori 22 turnering med en gjennomsnittsrating på 2775,63.^[5] De øverste kategoriene er:

Kategori	Rating
15	Gjennomsnittsrating mellom 2601 og 2625
16	Gjennomsnittsrating mellom 2626 og 2650
17	Gjennomsnittsrating mellom 2651 og 2675
18	Gjennomsnittsrating mellom 2676 og 2700
19	Gjennomsnittsrating mellom 2701 og 2725
20	Gjennomsnittsrating mellom 2726 og 2750
21	Gjennomsnittsrating mellom 2751 og 2775
22	Gjennomsnittsrating mellom 2776 og 2800

Liverating

FIDE oppdaterer sine ratinglister hver måned, og det er disse tallene som gir grunnlag for beregninger. Siden turneringsresultater blant verdenseliten publiseres åpent, er det fritt frem for andre å beregne uoffisielle liveratinger for spillerne etter hvert avsluttede parti. Disse er basert på siste offisielle listen publisert av FIDE, slik at en spillers liverating korresponderer med FIDEs utregninger dersom de skulle offentliggjort nye lister den dagen. Slike lister ble en gang vedlikeholdt av Hans Arild Runde, idag er 2700chess en av sidene som tilbyr dette.

Selv om liveratingen er uoffisiell har interessen rundt disse økt enormt. Noe av grunnen til dette er at flere store sjakknettsteder refererer til denne listen. I august og september 2008 var det hele 5 forskjellige spillere som var på førsteplass på denne listen.^[6]

De uoffisielle liveratingene blir publisert på https://web.archive.org/web/20080603001814/http://chess.liverating.org/. Kun spillere over 2700 er listet opp.

Norsk rating

Norges sjakkforbund publiserte sin første ratingliste 1. juli 1972. Nå publiseres ratinglister fire ganger i året, og det har de siste årene vært ca. 2000 spillere på listen. Ratingen avgjør klassetilhørigheten, noe som bestemmer hvilke premier en spiller kan vinne, og i hvilken gruppe spilleren kan spille i landsturneringen.

Eliteklassen i NM omfatter spillere med rating over 2350 samt en del andre kvalifiserte.
Klasse Mester omfatter spillere med rating over 2000.
Klasse 1 omfatter spillere med rating mellom 1750 og 1999.
Klasse 2 omfatter spillere med rating mellom 1500 og 1749.
Klasse 3 omfatter spillere med rating mellom 1250 og 1499.
Klasse 4 omfatter spillere med rating mellom 1000 og 1249. I Norske Vandrerhjem Grand Prix sammenheng omfatter klasse 4 også spillere som mangler rating.
Klasse 5 omfatter spillere med rating under 1000.

For de sterkeste norske spillerne er gjerne NSF-ratingen sammenlignbar med den internasjonale FIDE-ratingen, men blant amatører er det ofte et stort sprik mellom disse, i mange tilfeller er FIDE-ratingen flere hundre poeng høyere. Etter hvert som flere spillere får FIDE-rating er det sannsynlig at NSF-ratingen vil bli avviklet slik at kun FIDE-ratingen blir brukt.

Rating på sjakkmotorer

Siden 2005-2006 har menneske mot sjakkmotor demonstrert at sjakkmotorer er sterkere enn de sterkeste menneskelige spillerne. Imidlertid er ratingen til sjakkmotorer vanskelige å kvantifisere. Det har vært alt for få turneringspartier mot sjakkmotorer til å gi dem en presis rating.^[7] I tillegg vil ratingen til en sjakkmotor være svært avhengig av styrken til datamaskinen motoren kjører på.

Teori

Matematiske detaljer

Prestasjoner kan ikke bli målt absolutt, den kan kun bli anslått fra seire og tap. Rating har derfor kun mening relativt til andre ratinger. Derfor kan både gjennomsnitt og spredningen av ratingen bli vilkårlig valgt. Elo foreslo å skalere ratingen slik at en forskjell på 200 ratingpoeng ville bety at den sterkere spilleren ville ha en forventet score på omtrent 0,75.

En spillers forventede score er dens sannsynlighet for å vinne pluss halve sannsynligheten for å spille remis. Med andre ord, en forventet score på 0,75 kunne representere 75 % sannsynlighet for å vinne, 0 % for å spille remis, og 25 % for å tape. På en annen ytterkant kan det representere 50 % sannsynlighet for å vinne, 50 % for å spille remis, og 0% for å tape. Sannsynligheten for å spille remis, i motsetning til å få et avgjort resultat, er ikke spesifisert i elo-systemet. I stedet teller remis som en halv seier og et halvt tap.

Dersom spiller A har en virkelig styrke på $R_{A}$ og spiller B har en virkelig styrke på $R_{B}$ , blir den eksakte formelen for spiller As forventede score

E_{A}={\frac {1}{1 10^{(R_{B}-R_{A})/400}}}.

På samme måte for spiller Bs

E_{B}={\frac {1}{1 10^{(R_{A}-R_{B})/400}}}.

Merk at $E_{A} E_{B}=1$ . I praksis, siden den virkelige styrken til hver spiller er ukjent, blir den forventede scoren beregnet ved å bruke spillerens aktuelle rating.

Når en spillers score i en turnering overgår den forventede, tolker elo-systemet dette som en indikasjon for at spillerens rating er for lav, og må justeres oppover. På samme måte, dersom en spillers turneringsscore ligger under den forventede score må denne spillerens rating justeres nedover. Elos opprinnelige forslag, hvilket fortsatt er i utstrakt bruk, var en enklere lineær justering, proporsjonal med hvor mye spilleren spilte bedre eller dårligere enn forventet. Den maksimale justeringen per parti (ofte kalt K-verdien) ble satt til K=16 for mestere og K=32 for svakere spillere.

Anta at spiller As forventede score er $E_{A}$ poeng, men at spilleren kun fikk $S_{A}$ poeng. Formelen for å oppdatere spillerens rating er

R_{A}^{\prime }=R_{A} K(S_{A}-E_{A}).

Denne oppdatering kan bli gjort etter hvert spill eller etter hver turnering, eller etter en annen passende ratingperiode. Et eksempel for å klargjøre dette. Anta at spiller A har 1613 i rating og spiller i en turnering med fem runder. Han taper mot en spiller ratet 1609, spiller remis mot en spiller ratet 1477, slår en spiller ratet 1388, slår en spiller ratet 1586, og taper mot en spiller ratet 1720. Spillerens faktiske score ble 0 0,5 1 1 0 = 2,5. Spillerens forventede score, beregnet etter formelen gitt over, var 0,506 0,686 0,785 0,539 0,351 = 2,867. Derfor blir hans nye rating 1613 32·(2,5 - 2,867) = 1601.

Merk at selv om to seire, to tap og en remis virker som en par score, var dette verre enn forventet for spiller A fordi motstanderne var gjennomsnittlig lavere ratet. Derfor blir spilleren litt straffet. Dersom spilleren hadde spilt to seire, ett tap, og to remis, altså en total score på 3 poeng og litt over par, ville dette resultert i en lett belønning, og spillerens nye rating ville blitt 1613 32·(3 − 2.867) = 1617.

Denne oppdateringsprosedyren er kjernen i ratingene brukt av de forskjellige sjakkorganisasjoner eller forbund. Imidlertid har hver organisasjon forskjellige måter å håndtere ratingens iboende usikkerhet, spesielt ratingen for nykommere, og håndteringen av inflasjon/deflasjon. Nye spillere blir tildelt foreløpige ratinger som blir justert mer drastisk enn etablerte ratinger. Forskjellige metoder (ingen fullstendig suksessfulle) har blitt introdusert for å injisere poeng inn i ratingsystemet slik at ratingen fra forskjellige æraer er omtrent sammenlignbare.

Prinsippet brukt i disse ratingsystemene kan brukes for rating i andre konkurranse, for eksempel internasjonale fotballkamper.

Elo-rating har blitt brukt i spill uten sannsynligheten for uavgjort, og i spill hvor resultatet kan ha en kvantitet (stor/liten margin) i tillegg til kvalitet (seier/tap).

Matematiske problemer

Det er hovedsakelig tre matematiske bekymringer relatert til professor Elos opprinnelige arbeid, nemlig den korrekte kurven, den korrekte K-faktoren, og perioden med provisoriske, grove beregninger for nye spillere.

Den mest nøyaktige fordelingsmodellen

Den første matematiske bekymringen tatt opp av FIDE var bruken av normalfordelingen. Det ble oppdaget at denne ikke representerte de virkelige resultatene som ble oppnådd av spillerne, spesielt de lavere ratede. I stedet byttet de til en logistisk fordelingsmodell, hvilket tilsynelatende passet bedre til de faktiske resultatene.

Den mest nøyaktige K-faktoren

Den andre store bekymringen er bruken den korrekte K-faktoren. Sjakkstatistikeren Jeff Sonas anser at den opprinnelige verdien K = 10 (for spillere ratet over 2400) er unøyaktig i Elos verk. Dersom K-faktoren er satt for høyt vil det bli for stor sensitivitet i systemet med tanke på den store utvekslingen av poeng. En for lav K-verdi vil medføre at sensitiviteten blir minimal og vil føre til at det blir for vanskelige å oppnå nok poeng til å vinne ratingpoeng.

Elos opprinnelige estimat av K-faktoren var basert uten fordelen av enorme databaser og statistiske bevis. Sonas indikerte at en K-faktor på 24 (for spillere over 2400) ville være mer nøyaktig både som et verktøy til å anslå fremtidig prestasjon, og også mer sensitiv til nåværende prestasjon og form.^[8]

Enkelte sjakksider på internett unngår en tredelt K-faktor basert på rating. For eksempel virker det som ICC bruker en global K = 32 med unntak av spill mot spillere med provisorisk rating. USCF (som bruker en logistisk fordeling i stedet for en normalfordelig) har delt K-faktoren i tre ratingområder.

K = 32 for spillere under 2100
K = 24 for spillere mellom 2100 og 2400
K = 16 for spillere over 2400

FIDE bruker følgende oppdeling

K = 40 for ny spillere i listen frem til spilleren har fullført minst 30 ratede partier.
K = 20 sålenge spillerens rating er under 2400.
K = 10 etter at en spiller har oppnådd en rating på 2400 og fullført minst 30 ratede partier. Deretter er K-faktoren permanent 10.
K = 40 for juniorer inntil slutten av det året de fyller 18, og så lenge rating er under 2300.

I «over brettet»-sjakk er oppdelingen av K-faktoren viktig for å forsikre en minimal inflasjon i toppsjiktet av ratingskalaen. Dette burde i teorien gjelde like mye på en online sjakkserver. I teorien vil denne oppdelingen av K-faktoren gjøre det vanskeligere for spillere å oppnå de virkelig ratinghøydene dersom K-faktoren blir redusert fra 32 til 16 når de når en rating på 2400. Til tross for dette indikerer ICCs hjelp om sin K-faktor^[9] at det kan være spillernes mulighet til å velge motstandere som muliggjør 2800 spillere å fortsette å klatre med relativ letthet. Dette kan virke sannsynlig. Dersom man analyserer motstanderhistorikken til en stormester på ICC vil man finne mange motstandere som alle er 3100 . I «over brettet»-sjakk vil dette kun forekomme i kategori 18 -turneringer, der stormesteren vil finne en stødig strøm av motstandere på 2700 . Dersom spilleren deltok i en vanlig Monradturnering i kategori 10 vil spilleren mest sannsynlig spille mot mange motstandere under 2500. Ett enkelt tap eller en remis kan føre til store ratingtap.

Selv om K-faktoren er 16 og spilleren har slått en 3100 -spiller flere ganger på rad vil ratingen stige signifikant over en kort periode grunnet hastigheten i lynpartier, hvilket gir spilleren muligheten til å spille svært mange partier på svært kort tid. Det kan diskuteres for at K-faktoren kun kan senke farten på ratingstigningen per parti. Beviset gitt i ICCs artikkel på K-faktoren omhandler autoparingssystemet, der maksimalratingen oppnådd ser ut til å stagnere på 1500. Det kan derfor synes at tilfeldig paring, i motsetning til selektiv paring, er nøkkelen i kampen mot inflasjon i toppskiktet av ratingspekteret, og i mye mindre grad, en lavere K-faktor for spillere over 2400.

Praktiske problemer

Aktivitet versus beskyttelse av egen rating

Generelt har elo-systemet økt konkurransemiljøet i sjakk, og inspirert spillere til å studere spillet dypere for å forbedre eget spill. I enkelte tilfeller kan sjakkrating allikevel virke som en demper på sjakkaktiviteten til spillere som ønsker å «beskytte» ratingen sin.

Eksempel:

Spillerne kan velge turneringer og motstandere mer forsiktig der det er mulig.
Dersom en spiller deltar i en Monrad-turnering og taper et par partier på rad, kan de føle at de trenger å trekke seg for å minimere «skaden» på ratingen.
Juniorspillere, som bør spille så mye som mulig for treningens skyld, men som har fått en høy provisorisk rating, kan ende opp med å spille mindre av ratinghensyn.

I disse eksemplene kan «ratingagendaen» komme i konflikt med fremmingen av sjakkaktivitet og ratede partier.^[10]

Denne kampen mellom spilleaktivitet og ratinghensyn kan også sees på mange online servere som har implementert elo-systemet. For eksempel vil høyt ratede spillere være mye mer selektive i valg av motstander og vil sitte å vente på en «overratet» motstander som de tror de kan slå. Høyt ratede spillere vil også være svært forsiktige med å spille mot svært mye lavere ratet motstand av ratinghensyn. Dersom man skulle tape vil dette straffe ratingen betydelig. Dette er eksempler på hvordan elo-rating kan motvirke høy aktivitet.

Angående bevaring av høye elo-ratinger versus oppfordring til høy spillaktivitet har den britiske stormesteren John Nunn kommet med et interessant forslag til en verdensmesterskapsmodell basert på kvalifisering ved elo-rating.^[11] Nunn påpeker i avsnittet «Utvelgelse av spillere» at deltagerne ikke bare skal vurderes fra elo-rating, men også fra spillaktivitet (antall spilte partier). Nunn skiller klart «aktivitetsbonusen» fra elo-ratingen og mener at den kun skal brukes for å skille to like spillere.

Når elo-systemet brukes på «avslappede» online sjakkservere er det minst to store praktiske problemer som må takles. Dette er misbruk av sjakkmotorer og selektiv paring.

Sjakkmotorer

Det første og største problemet er spillere som tar i bruk sjakkmotorer for å øke ratingen sin. Dette er spesielt et problem i korrespondansesjakk-servere og -organisasjoner, der bruken av et bredt spekter av motorer i samme parti er fullt mulig. Dette gjør det nytteløst å prøve å bevise at noen har jukset. Lyn-servere slik som FICS eller ICC forsøker å minimere bruken av motorer ved å klart si ifra om forbudet mot bruken av sjakkmotorer når man logger på deres servere.

Selektiv paring

Et mer subtilt problem er relatert til paring. Når spillere kan velge sine egne motstandere, kan de velge motstandere med minimal risiko for å tape og maksimal gevinst for vinne. En slik luksus ved å kunne håndplukke sine motstandere er ikke tilstede «over brettet» i elo-kalkulasjoner kan være en del av forklaringen på at elo-ratinger på ICC er høyt over 2800.

Spesielle eksempler på spillere ratet 2800 som velger motstandere med minimal risiko og maksimal ratinggevinst inkluderer: Valg av sjakkmotorer spilleren vet den kan slå med en viss strategi, valg av motstandere spilleren tror er overratet, eller å unngå å spille sterke underratede motstandere som kan holde sjakktitler som IM eller GM. I kategorien av overratede motstandere finnes nye spillere med færre enn 50 partier som har fått en svært høy provisorisk rating. ICC kompenserer for dette ved å gi en lavere K-faktor til etablerte spillere dersom de vinner mot nye spillere. Denne K-faktoren er en funksjon av antall ratede partier spilt av den nye spilleren.

På grunn av dette må elo-rating på online sjakkservere tas med en klype salt. Faktisk kan også denne muligheten til å velge sine motstandere ha stor underholdningsverdi for tilskuere. For eksempel kan man observere en svært sterk GM ratet 3100 utfordre en annen sterk GM ratet 3100 . Slike motstandere, som de høyest ratede spillerne på online sjakkservere velger å spille mot for å opprettholde sin rating, vil ofte være mye sterkere motstandere enn dersom de spilte i en åpen turnering med «Sveitsisk»-paring. I tillegg forsikrer det at spillhistorikken til dem med svært høy rating inneholder motstandere med rating på eget nivå.

På dette grunnlag tilbyr elo-ratinger fortsatt en nyttig mekanisme for å tildele rating basert på motstanderens rating. Imidlertid må dens samlede troverdighet sees i kontekst av de to største problemene beskrevet over; misbruk av sjakkmotorer og selektiv paring.

ICC har nylig introdusert en egen rating for «auto-paring» som er basert på tilfeldig paring av motstandere, men der hver seier på rad forsikrer en statistisk hardere motstander som også har vunnet x parti på rad. Med potensielt hundrevis av spillere involvert tilbyr dette utfordringer i en stor «Sveitser»-turnering der rundevinnerne møter andre rundevinnere. Denne paringsmåten maksimerer ratingrisikoen for høyt ratede deltagere som kan møte sterk motstand i lavt ratede spillere. Dette er en separert rating fra den vanlige på ICC, og faller i samme kategori som «1-minuttere» og «5-minuttere». I disse tilfellene er det ekstremt sjeldent at spillere når en maks rating på over 2500.

Inflasjon og deflasjon

Det primære målet til elo-ratinger er å presist anslå resultatet i parti mellom samtidige spillere, og FIDE-ratinger utfører denne oppgaven relativt godt. Et sekundært, og mer ambisiøst, mål er å sammenligne spillere fra forskjellige æraer. Det ville vært praktisk at en FIDE-rating på 2500 betydde det samme i 2008 som i 1978. Dersom ratingsystemet er blitt utsatt for inflasjon, vil en moderne rating på 2500 være verdt mindre enn en historisk rating på 2500. Det motsatte vil gjelde dersom ratingsystemet er blitt utsatt for deflasjon. Blant dem som mener rating fra forskjellige æraer skal bety det samme er det uenighet om hvorvidt en gitt rating skal representere et gitt absolutt ferdighetsnivå eller et gitt relativt ferdighetsnivå.

Tilhengerne av absolutt ferdighet, deriblant FIDE^[12], foretrekker at moderne ratingtall gjennomsnittlig ligger høyere enn historiske ratingtall, dersom moderne stormestere faktisk spiller bedre sjakk. Med dette tankesettet vil et perfekt ratingsystem tilsi at en moderne spiller med 2500 og en historisk spiller med 2500 ha like store sjanser til å vinne, dersom det var mulig å gjennomføre en slik kamp. Sterke sjakkmotorers inntog i sjakkverden har tillatt en noe objektiv vurdering av det absolutte ferdighetsnivået til en historisk spiller ved å se på arkiverte partier.

Tilhengerne av relativ ferdighet vil foretrekke at medianratingen, eller en annen sammenligningsrating, fra alle æraer forblir den samme. Med dette tankesettet vil et perfekt ratingsystem tilsi at en moderne spiller blant de 20% beste i verden ha samme rating som en historisk spiller blant de 20% beste. Ratingen bør indikere omtrent hvor en spiller står i sjakkhierarkiet i sin egen æra.

Den gjennomsnittlige FIDE-ratingen til toppspillere har stødig klatret de siste tyve årene. Dette er et eksempel på inflasjon, hvilket er uønsket fra perspektivet til en tilhenger av et relativt ferdighetsnivå. Imidlertid er det plausibelt at FIDE-rating ikke har blitt utsatt for inflasjon fra perspektivet til en tilhenger av et absolutt ferdighetsnivå. Moderne spillere kan tenkes å være bedre enn sine forgjengere grunnet mye større kunnskap om åpningsteori og computer-assistert taktisk trening.

Både tilhengere av absolutt og relativt ferdighetsnivå er enige om at ratingnedgang er uønsket, eller at alt for rask oppgang enn det som kan tilskrives en generell økning i ferdighetsnivå. Begge gruppene ville beskrevet det første som deflasjon og det siste som inflasjon. Ikke bare gjør rask inflasjon og deflasjon det umulig å sammenligne forskjellige æraer, men kan også introdusere unøyaktigheter mellom aktive og mindre aktive samtidige spillere.

Den mest logiske løsningen for å forhindre inflasjon/deflasjon er å la hvert parti ende i en jevn transaksjon av ratingpoeng. Dersom vinneren får N ratingpoeng, mister taperen N ratingpoeng. Meningen med dette er å holde gjennomsnittsratingen konstant ved å forhindre poeng i å komme inn i eller forlate systemet. Dessverre fører denne typen løsning ofte til ratingdeflasjon. USCF ble tidlig rammet av dette før de byttet til elo-systemet.

NSF er også kjent med problemet, spillere forlater som regel systemet med flere poeng enn det de kom inn med. Dermed synker det gjennomsnittlige ratingtallet over tid. Blant tiltakene til NSF som motvirker dette er en høyere k-faktor for juniorspillere, samt at fremgangen deres kan dobles dersom de presterer vesentlig bedre enn ventet.^[13]

Praktiske hensyn

På grunn av den signifikante endringen i timingen av når inflasjon og deflasjon oppstår, og for å nedkjempe deflasjon, har de fleste implementasjonene av elo-rating en mekanisme for innsprøyting av poeng til systemet for å opprettholde relativ rating over tid. FIDE har to inflasjonsmekanismer. Den første, prestasjoner under et visst nivå blir ikke tatt hensyn til slik at en spiller med et virkelig ferdighetsnivå under dette nivået er enten ikke ratet eller er overratet, aldri korrekt ratet. Den andre, etablerte og høyt ratede spillere har en lavere K-faktor.^[14] Det finnes ingen teoretisk grunn til at disse mekanismene tilbyr en passende balanse til et ellers deflasjonspreget opplegg. Overkorreksjon kan resultere i en netto inflasjon forbi sjakkmiljøets økning i absolutt ferdighet. På den andre siden finnes det ingen åpenbart bedre alternativer. Spesielt online sjakkservere har lidd minst like mange inflasjons- og deflasjonsproblemer som FIDE, til tross for alternative stabiliseringsmekanismer.

Andre ratingsystem for sjakk

Ingo-systemet, oppfunnet av Anton Hoesslinger, publisert i 1948. Begynte i Tyskland i 1948 og ble brukt som Tysklands offisielle ratingsystem i det tyske sjakkforbundet frem til 1992, da det ble erstattet av et nytt elo-basert system.
Harkness-systemet, oppfunnet av Kenneth Harkness, publisert i 1956. Det ble brukt av USCF fra 1950 til 1960 og enkelte andre organisasjoner.
Det britiske sjakkforbundet hadde et eget ratingsystem publisert i 1958.
Korrespondansesjakkligaen i Amerika hadde et eget ratingsystem.
Glicko ratingsystem, oppfunnet av Glickman.
Chessmetrics
I november 2005 kom Xbox Lives online spillservice med et forslag til et ratingsystem, TrueSkill, som er en utvidelse av Glickmans system til flerspiller- og flerlag-spill.

Elo-rating i sjakk

Det utgis kvartalsvis oppdaterte ratinglister fra sjakkforbundet i Norge. I Norge er det NSF som gir ut elo-ratinglistene. Per januar 2012 ser listen slik ut:

NSF-rating	FIDE-rating	Spiller	Klubb
2840	2835	GM Magnus Carlsen	Stavanger
2621	2606	GM Jon Ludvig Hammer	OSS
2535	2558	GM Simen Agdestein	NTG
2504	2529	GM Kjetil A. Lie	Porsgrunn
2499	2499	IM Frode Elsness	Moss
2472	2486	GM Berge Østenstad	Asker
2465	2503	GM Leif E. Johannessen	OSS
2438	2434	IM Geir Sune Tallaksen Østmoe	Porsgrunn
2452	2460	IM Frode Olav Olsen Urkedal	1911
2445	2458	GM Rune Djurhuus	Akademisk

Internasjonalt er det FIDE som gir ut og oppdaterer ratinglistene. Disse kommer seks ganger i året og per januar 2012 ser de 10 øverste plassene slik ut:

FIDE-rating	Spiller	Nasjonalitet
2835	GM Magnus Carlsen	Norge
2805	GM Levon Aronjan	Armenia
2801	GM Vladimir Kramnik	Russland
2799	GM Viswanathan Anand	India
2773	GM Teymur Rəcəbov	Aserbajdsjan
2770	GM Veselin Topalov	Bulgaria
2769	GM Sergej Karjakin	Russland
2766	GM Vasyl Ivantsjuk	Ukraina
2763	GM Aleksandr Morozevitsj	Russland
2761	GM Vugar Gashimov	Aserbajdsjan

Elo-rating i andre spill

Nasjonale Scrabbleorganisasjoner beregner normaldistribuerte elo-ratinger, med unntak av Storbritannia hvor et annet system blir brukt. Det nordamerikanske Scrabble-forbundet hadde den største populasjonen i tidlig 2006 med over 11000 ratede medlemmer. Scrabulous bruker også elo-systemet.

Den populære backgammonserveren First Internet Backgammon Server beregner ratinger basert på et modifisert elo-system. Nye spillere starter med 1500, og de beste spillerne og motorene kan oppnå ratinger på 2000 . Den samme formelen har blitt tatt opp av flere backgammonservere som Play65, DailyGammon, GoldToken og VogClub (Vinco Online Games). Vog setter nye spilleres rating til 1600.

I andre sporter bruker enkelte individ rankingsystem basert på Elos algoritme. Disse er som oftest uoffisielle og ikke godkjent av den gjeldende sportens hovedorgan. «World Football Elo Ratings» rangerer nasjonale herrefotballag. Jeff Sagarin publiserer lagratinger for amerikansk college fotball og basketball, med «sjakk-Elo» som ett av de to ratingsystemene han presenterer. I 2006 ble elo-rating tilpasset for lag i «Major League Baseball» av Nate Silver hos Baseball Prospectus.^[15] Baseball Prospectus bruker, basert på denne tilpasningen, elo-baserte Monte Carlo-simuleringer for å angi odds for hvilke lag som når finalen.^[16] Ett av de få hovedorganene til en sport som bruker elo-systemet er FIFAs rankingliste for verdens kvinnelige fotballag. FIFA bruker en forenklet versjon av elo-algoritmen, og bruker dette som sitt offisielle ratingsystem for nasjonale lag i kvinnefotball.

I strategispillet Tantrix vil en elo-rating gitt i en turnering endre den totale ratingen, ifølge forholdet mellom spill spilt i turneringen og det totale antallet spilte spill. For hvert år som går fjernes vektingen til den forsvinner fullstendig og blir tatt over av den nye ratingen.^[17] I strategispillet Arimaa brukes en type elo-rating. I dette ratingsystem benyttes det i tillegg en ekstra parameter kalt «rating-usikkerhet», hvilket dobler K-faktoren.^[18]

Diverse online rollespill (MMORPGs) bruker elo-ratinger for spiller-mot-spiller rating. I Guild Wars brukes elo-rating for å bestemme «guild rating» tapt og vunnet gjennom kamper mellom to «guilds». K-verdien er 5 per 2007. Vendetta Online bruker elo-rating for å rate slåssegenskapene til spillere når to spillere har avtalt en duell. World of Warcraft bruker elo-ratingsystemet når det setter sammen lag og sammenligner «Arena»-spillere.^[19]

Under følger en liste over noen kjente spill som bruker en form for elo-system:

Age of Empires 3^[20]
Age of Mythology
Chaotic Trading Card Game
Command and Conquer 3: Tiberium Wars
Conquest
Diablo II
Duels.com^[21]
Flyordie
Guild Wars^[22]
Guitar Hero III: Legends of Rock^[23]
Halo 2^[24]
iRacing
Kiekko.tk
Magic: The Gathering^[25]
Power Soccer
Pro Cycling Manager Season 2007
Quake 3 DeFRaG^[26]
Rainbow Six 3
Scrabulous^[27]
Soldat (Zitro-Stats)^[28]
StarCraft
Star Wars Customizable Card Game (under Deciphers kontroll)
Star Wars: Battlefront
Supreme Commander (bruker en modifisert versjon av Elo)^[29]
Taikodom^[30]
Tantrix
Toribash
Unreal Tournament 2004
Unreal Tournament 3
Warcraft 3
WarHeads SE
Weewar
Wordfeud
World of Warcraft^[31]
Yahoo Pool

Referanser

^ Elo-MMR: A Rating System for Massive Multiplayer Competitions
^ FIDEs online regelbok
^ «Live Chess Ratings - 2700chess.com». 2700chess.com. Besøkt 18. mai 2019.
^ Verdensmesterskapet i Mexico når kategori XXI Arkivert 9. oktober 2008 hos Wayback Machine.
^ Grand Slam Chess Final Masters i Bilbao
^ Anand tapte førsteplassen til Morozevitsj (Chessbase, 24. august 2008), deretter gjenerobret den før Carlsen overtok plassen (Chessbase, 5. september 2008), så overtok Vasyl Ivantsjuk (Chessbase, 11. september 2008), og tilslutt Veselin Topalov (Chessbase, 13. september 2008)
^ Se for eksempel kommentarene her ChessBase.com - Adams vs Hydra: Man 0,5–Machine 5,5
^ En nøkkelartikkel av Sonas er Jeff Sonas: «The Sonas Rating Formula — Better than Elo?»
^ ICC hjelp: K-faktor
^ Foreldres guide til sjakk «Skittles», Don Heisman, Chesscafe.com, 4. august 2002
^ ChessBase.com - Nunns plan for verdensmesterskapet i sjakk
^ FIDE håndbok: Regler i sjakk
^ Elo-SYSTEMET Arkivert 5. desember 2013 hos Wayback Machine.
^ FIDE håndbok: Regler i sjakk
^ «Arkivert kopi». Arkivert fra originalen 22. august 2006. Besøkt 16. september 2006. Nate Silver, «We Are Elo?» 28. juni 2006
^ Postseason Odds, Elo version
^ «Arkivert kopi». Arkivert fra originalen 4. oktober 2008. Besøkt 4. oktober 2008.
^ Arimaa Rating System
^ World of Warcraft Europe → The Arena
^ AOE3 Elo Rating
^ Duels^{[død lenke]}
^ Guild ladder – Guild Wars Wiki
^ «Guitar Hero Community – Forum Topics». Arkivert fra originalen 6. november 2012. Besøkt 4. oktober 2008.
^ Bungie.net : Bungie Online : Halo 2 Stats Info : Halo 2 Overview
^ DCI Universal Tournament Rules
^ defrag.lanparty-nrw.de Arkivert 18. april 2008 hos Wayback Machine.
^ Connexion Facebook^{[død lenke]}
^ Message shown at "history" pages: "In History you can see all Actions from Servers and track Points. They are calculated by Killer's and Victim's Points with this Elo-Formula: «Arkivert kopi». Arkivert fra originalen 19. mars 2009. Besøkt 4. oktober 2008. (source: «Arkivert kopi». Arkivert fra originalen 28. september 2008. Besøkt 4. oktober 2008. )
^ SupCom FAQ Arkivert 28. mai 2008 hos Wayback Machine.
^ Taikodom Ratings System Arkivert 23. november 2008 hos Wayback Machine.
^ World of Warcraft Arena system

Litteratur

Elo, Arpad (1978), The Rating of Chessplayers, Past and Present, Arco, ISBN 0-668-04721-6

Eksterne lenker

Autoritetsdata

[1] Elo-MMR: A Rating System for Massive Multiplayer Competitions

[2] FIDEs online regelbok

[3] «Live Chess Ratings - 2700chess.com». 2700chess.com. Besøkt 18. mai 2019.

[4] Verdensmesterskapet i Mexico når kategori XXI Arkivert 9. oktober 2008 hos Wayback Machine.

[5] Grand Slam Chess Final Masters i Bilbao

[6] Anand tapte førsteplassen til Morozevitsj (Chessbase, 24. august 2008), deretter gjenerobret den før Carlsen overtok plassen (Chessbase, 5. september 2008), så overtok Vasyl Ivantsjuk (Chessbase, 11. september 2008), og tilslutt Veselin Topalov (Chessbase, 13. september 2008)

[7] Se for eksempel kommentarene her ChessBase.com - Adams vs Hydra: Man 0,5–Machine 5,5

[8] En nøkkelartikkel av Sonas er Jeff Sonas: «The Sonas Rating Formula — Better than Elo?»

[9] ICC hjelp: K-faktor

[10] Foreldres guide til sjakk «Skittles», Don Heisman, Chesscafe.com, 4. august 2002

[11] ChessBase.com - Nunns plan for verdensmesterskapet i sjakk

[12] FIDE håndbok: Regler i sjakk

[13] Elo-SYSTEMET Arkivert 5. desember 2013 hos Wayback Machine.

[autogenerated2-14] FIDE håndbok: Regler i sjakk

[15] «Arkivert kopi». Arkivert fra originalen 22. august 2006. Besøkt 16. september 2006. Nate Silver, «We Are Elo?» 28. juni 2006

[16] Postseason Odds, Elo version

[17] «Arkivert kopi». Arkivert fra originalen 4. oktober 2008. Besøkt 4. oktober 2008.

[18] Arimaa Rating System

[19] World of Warcraft Europe → The Arena

[20] AOE3 Elo Rating

[21] Duels^{[død lenke]}

[22] Guild ladder – Guild Wars Wiki

[23] «Guitar Hero Community – Forum Topics». Arkivert fra originalen 6. november 2012. Besøkt 4. oktober 2008.

[24] Bungie.net : Bungie Online : Halo 2 Stats Info : Halo 2 Overview

[25] DCI Universal Tournament Rules

[26] rag.lanparty-nrw.de Arkivert 18. april 2008 hos Wayback Machine.

[27] Connexion Facebook^{[død lenke]}

[28] Message shown at "history" pages: "In History you can see all Actions from Servers and track Points. They are calculated by Killer's and Victim's Points with this Elo-Formula: «Arkivert kopi». Arkivert fra originalen 19. mars 2009. Besøkt 4. oktober 2008. (source: «Arkivert kopi». Arkivert fra originalen 28. september 2008. Besøkt 4. oktober 2008. )

[29] SupCom FAQ Arkivert 28. mai 2008 hos Wayback Machine.

[30] Taikodom Ratings System Arkivert 23. november 2008 hos Wayback Machine.

[31] World of Warcraft Arena system

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]