Machine learning-systemen ruimen al meer dan tien jaar de vloer met hun menselijke tegenstanders (serieus, die eerste overwinning van Watson Jeopardy was helemaal terug in 2011), hoewel de soorten games waarin ze uitblinken nogal beperkt zijn. Over het algemeen competitieve bordspellen of videogames met een beperkt speelveld, sequentiële bewegingen en ten minste één duidelijk omschreven tegenstander, elk spel waarbij berekeningen nodig zijn, is in hun voordeel. Diplomatie vereist echter heel weinig berekening, in plaats daarvan onderhandelen veeleisende spelers rechtstreeks met hun tegenstanders en spelen ze tegelijkertijd – dingen waarvoor moderne ML-systemen over het algemeen niet zijn ontworpen. Maar dat weerhield Meta-onderzoekers er niet van om een ​​AI-agent te ontwerpen die in staat is om te onderhandelen over wereldwijde politieke standpunten, evenals elke VN-ambassadeur.

Diplomacy werd voor het eerst uitgebracht in 1959 en functioneert als een meer gepolijste versie van RISK, waarbij twee tot zeven spelers de rol van een Europese mogendheid op zich nemen en proberen het spel te winnen door de territoria van hun tegenstanders te veroveren. In tegenstelling tot RISK, waar de uitkomst van conflicten wordt bepaald door een simpele worp van de dobbelstenen, vereist diplomatie dat spelers eerst met elkaar onderhandelen – allianties aangaan, achterbaks optreden, al dat goede spul – voordat er iets gebeurt. volgende spelfase. De vaardigheden om tegenstanders te lezen en te manipuleren, spelers te overtuigen om allianties te vormen en complexe strategieën te plannen, door lastige partnerschappen te navigeren en te weten wanneer ze van kant moeten wisselen, zijn allemaal een belangrijk onderdeel van het spel – en alle vaardigheden die machine learning-systemen doorgaans missen .

Woensdag kondigden Meta AI-onderzoekers aan dat ze deze tekortkomingen op het gebied van machinaal leren hadden overwonnen met CICERO, de eerste AI die prestaties op menselijk niveau in diplomatie liet zien. Het team trainde Cicero op 2,7 miljard parameters gedurende 50.000 rondes op webDiplomacy.net, een online versie van het spel, waar hij op de tweede plaats eindigde (van de 19 deelnemers) in een toernooi met een competitie van 5 wedstrijden, terwijl de gemiddelde score verdubbelde. van tegenstanders.

De AI-agent bleek zo bedreven “in het gebruik van natuurlijke taal om diplomatiek met mensen te onderhandelen dat ze vaak liever met CICERO werkten dan met andere menselijke deelnemers”, aldus het Meta-team woensdag in een persbericht. “Diplomatie is een spel van mensen in plaats van stukken. Als een agent niet kan herkennen dat iemand waarschijnlijk bluft of dat een andere speler een bepaalde zet als agressief zou beschouwen, zal hij het spel snel verliezen. als hij niet spreekt als een echt persoon – empathie tonen, relaties opbouwen en goed over het spel praten – hij zal geen andere spelers bereid vinden om met hem samen te werken.”

Met Cicero

Meta

In wezen combineert Cicero de strategische mindset van Pluribot of AlphaGO met de natuurlijke taalverwerking (NLP) mogelijkheden van blenderbot of GPT-3. De agent is zelfs in staat tot vooruitziende blik. “Cicero kan bijvoorbeeld afleiden dat hij later in het spel de steun van een bepaalde speler nodig zal hebben, en vervolgens een strategie bedenken om de gunst van die persoon te winnen – en zelfs de risico’s en kansen herkennen die deze speler vanuit zijn specifieke standpunt ziet. ”, merkte het onderzoeksteam op.

De agent traint niet via een standaard leerprogramma voor versterking, zoals vergelijkbare systemen doen. Het Meta-team legt uit dat dit zou leiden tot suboptimale prestaties omdat “uitsluitend vertrouwen op leren onder toezicht om acties te kiezen op basis van eerdere dialoog resulteert in een relatief zwakke en zeer exploiteerbare agent.”

In plaats daarvan gebruikt Cicero “een iteratief planningsalgoritme dat dialoogconsistentie in evenwicht brengt met rationaliteit”. Hij zal eerst het spel van zijn tegenstanders voorspellen op basis van wat er tijdens de handelsronde is gebeurd, evenals het spel waarvan hij denkt dat zijn tegenstanders denken dat hij het zal doen, voordat hij “die voorspellingen iteratief verbetert door te proberen nieuwe beleidslijnen te kiezen die een hogere verwachte waarde hebben gezien de ander beleid voorspeld door de spelers, terwijl we proberen de nieuwe voorspellingen dicht bij de oorspronkelijke beleidsvoorspellingen te houden.” Makkelijk, toch?

Het systeem is nog niet onfeilbaar, omdat de agent soms te intelligent wordt en zichzelf vindt zelf spelen door tegenstrijdige onderhandelingsposities in te nemen. Toch is zijn prestatie in deze vroege processen superieur aan die van veel menselijke politici. Meta is van plan het systeem verder te ontwikkelen om “te dienen als een veilige sandbox voor het bevorderen van onderzoek naar mens-AI-interactie”.

Alle door Engadget aanbevolen producten worden geselecteerd door ons redactieteam, onafhankelijk van ons moederbedrijf. Sommige van onze verhalen bevatten gelieerde links. Als u iets koopt via een van deze links, kunnen we een aangesloten commissie verdienen. Alle prijzen zijn correct op het moment van publicatie.



Source link

Leave a Reply

Your email address will not be published. Required fields are marked *

}