Ingen regler, ikke noe problem: DeepMinds MuZero mestrer spill mens de lærer å spille dem

by admin
ingen-regler,-ikke-noe-problem:-deepminds-muzero-mestrer-spill-mens-de-laerer-a-spille-dem

DeepMind har gjort det til et oppdrag å demonstrere at ikke bare en AI faktisk kan endre seg til dyktige i et spill, det vil vedta det uten å bli fortalt grunnlaget. Den siste AI-agenten, kalt MuZero, oppnår dette ikke lenger riktig med visuelt klare spill med avanserte metoder, verner Hasten, Chess og Shogi, men med visuelt avanserte Atari-spill.

Suksessen til DeepMinds tidligere AI-er var så snart som et minimum, delvis som et resultat av en virkelig effektiv navigering av de enorme mulighets trær som betyr at du i tillegg kan ha troshandlinger i et spill. I Hasten eller Chess styres disse trærne av veldig spesielle prinsipper, verne om hvor objekter kan bytte, hva som skjer når denne andelen gjør det, og mange andre.

AI som slo verdensmestere i Hasten, AlphaGo , kjente disse prinsippene og lagret dem i tanker (eller til og med i RAM) mens de studerte spill mellom og i opposisjon til menneskelige ivrige spillere, og danner en squawk av mest spennende praksis og metoder. Oppfølgeren, AlphaGo Zero, gjorde dette uten menneskelige rekorddata og tok halvparten i motsetning til seg selv. AlphaZero gjorde det samme med Hasten, Chess og Shogi i 2018, og skapte en enkelt AI-modell som muligens muligens kunne spille alle disse spillene på en dyktig måte.

Men i alle disse tilfellene ble AI så snart presentert med en knebling av uforanderlige, kjente prinsipper for spillene, og skapte et sfærisk rammeverk som det muligens ville danne sine metoder. Anta det: mens du blir fortalt at en bonde kan endre seg til en dronning, antyder du det fra opprinnelsen, men mens du vil fange for å søke etter, kan du i tillegg få helt forskjellige metoder.

Denne viktige trekningen avslører hvilke forskjellige moter som er fornøyde oppnådd med diverse begynnelsesrekorddata.

Fordi selskapet i et blogginnlegg forklarer om deres nye studie, hvis AIs får beskjed om grunnlagene før enn tid, “gjør dette det vanskelig å trene dem til rotete oppriktige verdensproblemer som er sjelden avanserte og arbeidskrevende å destillere til klare spalteprinsipper. “

Bedriftens siste rekkevidde er da MuZero, som ikke lenger bare spiller de nevnte spillene, men en rekke Atari-spill, og det gjør det uten å bli levert med en regelbok i det hele tatt. Den endelige modellen innså å spille alle disse spillene ikke lenger korrekt fra å eksperimentere av seg selv (ingen menneskelige data), men uten å bli fortalt i det vesentlige de nyeste prinsippene.

Som en annen av bruken av grunnlaget for å søke etter det verdige tilfellet (på garn av det ikke lenger skal), lærer MuZero å bruke i garn hver del av sportsstemningen, og ser på seg selv om det ikke lenger eller ikke lenger vil være viktig eller ikke lenger. Over hundretusenvis av spill lærer den ikke lenger å rette grunnlaget, men den nåværende billetten til et nabolag, gjeldende forsikringer for å komme videre og en tilnærming til å evaluere sine personlige handlinger i ettertid.

Dette sistnevnte evne hjelper det å studere fra sine personlige feil, spole tilbake og gjøre om spill for å prøve forskjellige tilnærminger som ekstra finpusser gapet og politiske verdier.

Det er viktig å sjanse eventuelt i tillegg ta hensyn til Agent 57, en annen DeepMind-kreasjon som utmerket seg ved et squawk av 57 Atari-spill. MuZero tar verdig den AI og kombinerer den med den verdige AlphaZero. MuZero skiller seg fra veteranen ved at den ikke modellerer den totale spillatmosfæren, men lager en spesialitet av formelen som påvirker dens mulighetsskaping, og fra sistnevnte ved at den baserer sin modell av fundamentene rent av seg selv eksperimentering og førstehånds recordsdata.

Trening av sportsverdenen lar MuZero effektivt planlegge sine handlinger selv når sportsverdenen er, verne om mange Atari-spill, delvis randomiserte og visuelt avanserte. Det skyver det nærmere en AI som trygt og intelligent kan ha samspill med den kategoriske verdenen, studerer for å verne om sfærisk sfære uten å måtte studere hver del (selv om det ikke lenger er sannsynlig at om en, verdsatt “form ikke lenger knuser andre mennesker, “vil helt sikkert bli etset i stein). Som til og med delt ut blant forskerne fortalte BBC, eksperimenterer mannskapet allerede med å se hvordan MuZero muligens kan forbedre videokomprimering – åpenbart en virkelig assortert avsløring enn fru Pac-Man.

Detaljer om MuZero hadde blitt publisert for øyeblikket i tidsskriftet Nature.

You may also like

Leave a Comment