AlphaGo Zero

AlphaGo Zero è una versione del programma per giocare a Go di DeepMind, AlphaGo. Il team di AlphaGo ha pubblicato un articolo sulla rivista Nature il 19 ottobre 2017, introducendo AlphaGo Zero, una versione creata senza utilizzare informazioni provenienti da partite tra giocatori umani e più potente di qualsiasi versione precedente.[1] Giocando contro sé stesso, AlphaGo Zero ha superato la forza della versione di AlphaGo che aveva affrontato Lee Se-dol in tre giorni vincendo 100 partite a 0, ha raggiunto il livello di AlphaGo Master in 21 giorni e ha superato tutte le vecchie versioni in 40 giorni.[2]

Addestrare un'intelligenza artificiale (IA) senza dati derivati da esperti umani ha implicazioni significative per lo sviluppo dell'IA con abilità sovrumane, perché i dati degli esperti sono "spesso costosi, inaffidabili o semplicemente non disponibili".[3] Demis Hassabis, il cofondatore e amministratore delegato di DeepMind, ha detto che AlphaGo Zero era così potente perché "non era più vincolato dai limiti della conoscenza umana".[4] David Silver, uno dei primi autori degli articoli di DeepMind pubblicati su Nature su AlphaGo, ha affermato che è possibile avere algoritmi IA generalizzati eliminando la necessità di imparare dagli umani.[5]

Google ha successivamente sviluppato AlphaZero, una versione generalizzata di AlphaGo Zero che può giocare a scacchi e shōgi oltre che a Go. Nel dicembre 2017, AlphaZero ha battuto la versione di 3 giorni di AlphaGo Zero vincendo 60 partite contro 40 e con 8 ore di allenamento ha superato il punteggio Elo di AlphaGo "Lee". AlphaZero ha anche sconfitto uno dei migliori programmi di scacchi (Stockfish) e uno dei migliori Shōgi (Elmo).[6]

Addestramento

La rete neurale di AlphaGo Zero è stata addestrata utilizzando TensorFlow, con 64 GPU e 19 server di parametri CPU. Solo quattro TPU sono state utilizzate per l'inferenza. La rete neurale inizialmente non sapeva nulla del Go oltre alle regole. A differenza delle versioni precedenti di AlphaGo, Zero percepiva solo le pietre sul tavoliere, oltre ad avere alcuni rari casi limite programmati dall'uomo per aiutare a riconoscere alcune posizioni insolite sul goban. L'IA è stata sottoposta a un apprendimento per rinforzo, giocando contro sé stessa fino a quando non è divenuta in grado di anticipare le proprie mosse e come quelle mosse avrebbero influenzato il risultato della partita.[7] Nei primi tre giorni AlphaGo Zero ha giocato 4,9 milioni di partite contro sé stesso in rapida successione.[8] Sembrava sviluppare le abilità necessarie per battere i migliori goisti umani in pochi giorni, mentre il precedente AlphaGo aveva richiesto mesi di addestramento per raggiungere lo stesso livello.[3]

Per fare un confronto, i ricercatori hanno anche addestrato una versione di AlphaGo Zero utilizzando partite tra umani di alto livello, AlphaGo Master, e hanno scoperto che ha appreso più rapidamente, ma in realtà si è comportato peggio nel lungo periodo.[9] DeepMind ha presentato i suoi risultati iniziali in un articolo su Nature dell'aprile 2017, che è stato poi pubblicato nell'ottobre 2017.[1]

Costo hardware

Il costo dell'hardware per un singolo sistema AlphaGo Zero nel 2017, comprese le quattro TPU, è stato indicato in circa $ 25 milioni.[10]

Applicazioni

Secondo Hassabis, è probabile che gli algoritmi di AlphaGo siano principalmente vantaggiosi per quegli àmbiti che richiedono una ricerca intelligente all'interno di un enorme spazio di possibilità, come il ripiegamento delle proteine o la simulazione accurata delle reazioni chimiche.[11] Le tecniche di AlphaGo sono probabilmente meno utili in domini difficili da simulare, come imparare a guidare un'auto.[12] DeepMind ha dichiarato nell'ottobre 2017 di aver già avviato un lavoro attivo sul tentativo di utilizzare la tecnologia AlphaGo Zero per il ripiegamento delle proteine e ha dichiarato che presto pubblicherà nuove scoperte.[4][12]

Accoglienza

AlphaGo Zero è stato ampiamente considerato un progresso significativo, anche quando confrontato con il suo rivoluzionario predecessore, AlphaGo. Oren Etzioni dell'Allen Institute for Artificial Intelligence ha definito AlphaGo Zero "un risultato tecnico molto impressionante", "sia per la loro capacità di farlo, sia per la loro capacità di addestrare il sistema in 40 giorni, su quattro TPU".[7] The Guardian lo ha definito un "importante passo avanti per l'intelligenza artificiale", citando Eleni Vasilaki della Sheffield University e Tom Mitchell della Carnegie Mellon University, che l'hanno definito rispettivamente un'impresa impressionante e un "eccezionale risultato ingegneristico".[12] Mark Pesce dell'Università di Sydney ha definito AlphaGo Zero "un grande progresso tecnologico" che ci ha portato in "un territorio inesplorato".[13]

Gary Marcus, uno psicologo della New York University, ha avvertito che, per quanto ne sappiamo, AlphaGo potrebbe contenere "la conoscenza implicita che i programmatori hanno su come costruire macchine per riprodurre problemi come il Go" e dovrà essere testato in altri domini prima di essere sicuri che la sua architettura di base sia efficace in qualcosa di più che giocare a Go. Al contrario, DeepMind è "fiducioso che questo approccio sia generalizzabile a un gran numero di domini".[8]

In risposta alle segnalazioni, il professionista sudcoreano di Go Lee Se-dol ha dichiarato che "la versione precedente di AlphaGo non era perfetta e credo che sia per questo che è stato creato AlphaGo Zero". Sul potenziale di sviluppo di AlphaGo, Lee ha detto che dovrà aspettare e vedere, ma ha anche detto che influenzerà i giovani giocatori di Go. Mok Jin-seok, che dirige la squadra nazionale sudcoreana di Go, ha detto che il mondo di Go ha già imitato gli stili di gioco delle versioni precedenti di AlphaGo e ha creato nuove idee da loro, e spera che nuove idee vengano fuori da AlphaGo Zero. Mok ha anche aggiunto che le tendenze generali nel mondo di Go sono ora influenzate dallo stile di gioco di AlphaGo. "All'inizio era difficile da capire e mi sembrava quasi di giocare contro un alieno. Tuttavia, avendo avuto una grande esperienza, mi ci sono abituato", ha detto Mok. "Abbiamo ormai superato il punto in cui discutevamo del divario tra le capacità di AlphaGo e degli esseri umani. Ora è tra i computer". Secondo quanto riferito, Mok ha già iniziato ad analizzare lo stile di gioco di AlphaGo Zero insieme ai giocatori della squadra nazionale. "Anche se abbiamo visto solo poche partite, abbiamo avuto l'impressione che AlphaGo Zero giochi più come un essere umano rispetto ai suoi predecessori", ha detto Mok.[14] Il professionista cinese Go, Ke Jie, ha commentato gli straordinari risultati del nuovo programma: "un AlphaGo con auto-apprendimento puro è il più forte. Gli esseri umani sembrano ridondanti di fronte al suo auto-miglioramento personale".[15]

Confronto con i predecessori

Configurazione e forza[16]
Versioni Hardware da gioco[17] Punteggio Elo Partite
AlphaGo "Fan" 176 GPU,[2] distribuite 3144[1] 5:0 contro Fan Hui
AlphaGo "Lee" 48 TPU, distribuite 3739 4:1 contro Lee Se-dol
AlphaGo "Master" 4 TPU, macchina singola 4858 60:0 contro giocatori professionisti;

Future of Go Summit

AlphaGo Zero (40 giorni) 4 TPU, macchina singola 5185 100:0 contro AlphaGo Lee

89:11 contro AlphaGo Master

AlphaZero (34 ore) 4 TPU, macchina singola 4430 (stimato) 60:40 contro un AlphaGo Zero 3 giorni

AlphaZero

Il 5 dicembre 2017, il team di DeepMind ha rilasciato un preprint su arXiv, introducendo AlphaZero, un programma che utilizza l'approccio generalizzato di AlphaGo Zero e che ha raggiunto in 24 ore un livello di gioco sovrumano negli scacchi, nello shogi e nel Go, sconfiggendo i programmi dei campioni del mondo, Stockfish, Elmo e la versione di 3 giorni di AlphaGo Zero.

AlphaZero (AZ) è una variante più generalizzata dell'algoritmo di AlphaGo Zero (AGZ), ed è in grado di giocare shogi e scacchi e Go. Le differenze tra AZ e AGZ includono:

  • AZ ha regole pre-programmato per l'impostazione degli iperparametri di ricerca.
  • la rete neurale viene ora aggiornata continuamente:
  • le partite scacchi (a differenza del Go) possono finire in parità; quindi l'AZ può prendere in considerazione la possibilità di un pareggio.

È disponibile un programma open source, Leela Zero, basato sulle idee contenute negli articoli su AlphaGo. Utilizza una GPU invece delle TPU su cui fanno affidamento le recenti versioni di AlphaGo.

Note

  1. ^ a b c (EN) David Silver, Julian Schrittwieser e Karen Simonyan, Mastering the game of Go without human knowledge (PDF), in Nature, vol. 550, n. 7676, 19 ottobre 2017, pp. 354–359, Bibcode:2017Natur.550..354S, DOI:10.1038/nature24270, ISSN 0028-0836 (WC · ACNP), PMID 29052630.
  2. ^ a b (EN) David Silver, Demis Hassabis, AlphaGo Zero: Starting from scratch, su deepmind.com, 18 ottobre 2017. URL consultato il 22 novembre 2020 (archiviato dall'url originale il 19 ottobre 2017).
  3. ^ a b (EN) David Meyer, Google's New AlphaGo Breakthrough Could Take Algorithms Where No Humans Have Gone, su Yahoo Finance, 19 ottobre 2017.
  4. ^ a b (EN) Sarah Knapton, AlphaGo Zero: Google DeepMind supercomputer learns 3,000 years of human knowledge in 40 days, in The Telegraph, 18 ottobre 2017. URL consultato il 19 ottobre 2017.
  5. ^ (EN) Chris Duckett, DeepMind AlphaGo Zero learns on its own without meatbag intervention, su zdnet.com, 19 ottobre 2017.
  6. ^ (EN) Sarah Knapton e Leon Watson, Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours, in The Telegraph, 6 dicembre 2017.
  7. ^ a b (EN) Larry Greenemeier, AI versus AI: Self-Taught AlphaGo Zero Vanquishes Its Predecessor, in Scientific American. URL consultato il 20 ottobre 2017.
  8. ^ a b (EN) Merrit Kennedy, Computer Learns To Play Go At Superhuman Levels 'Without Human Knowledge', in NPR, 18 ottobre 2017. URL consultato il 20 ottobre 2017.
  9. ^ (EN) Matthew Hutson, This computer program can beat humans at Go—with no human instruction, in Science | AAAS, 18 ottobre 2017. URL consultato il 20 ottobre 2017.
  10. ^ (EN) Elizabeth Gibney, Self-taught AI is best yet at strategy game Go, in Nature News, 18 ottobre 2017, DOI:10.1038/nature.2017.22858. URL consultato il 10 maggio 2020.
  11. ^ (EN) The latest AI can work things out without being taught, in The Economist. URL consultato il 20 ottobre 2017.
  12. ^ a b c (EN) Ian Sample, 'It's able to create knowledge itself': Google unveils AI that learns on its own, in The Guardian, 18 ottobre 2017. URL consultato il 20 ottobre 2017.
  13. ^ (EN) Nick Grimm, Google DeepMind's AI teaches itself to beat human players of complex Chinese game in three days, in Australian Broadcasting Corporation, 19 ottobre 2017. URL consultato il 24 novembre 2020.
  14. ^ (EN) Go Players Excited About 'More Humanlike' AlphaGo Zero, in Korea Bizwire, 19 ottobre 2017. URL consultato il 21 ottobre 2017.
  15. ^ (EN) Li Yan, New version of AlphaGo can master Weiqi without human help, in China News Service, 19 ottobre 2017. URL consultato il 21 ottobre 2017.
  16. ^ (ZH) sohu.com, http://www.sohu.com/a/143092581_473283 Titolo mancante per url url (aiuto).
  17. ^ L'hardware utilizzato durante l'addestramento potrebbe essere sostanzialmente più potente

Collegamenti esterni

  • Blog AlphaGo (archiviato dall'url originale il 19 ottobre 2017).
  • S. Singh, A. Okun e A. Jackson, AOP, in Nature, vol. 550, n. 7676, 2017, pp. 336–337, Bibcode:2017Natur.550..336S, DOI:10.1038/550336a, PMID 29052631.
  • (EN) David Silver, Julian Schrittwieser e Karen Simonyan, Mastering the game of Go without human knowledge (PDF), in Nature, vol. 550, n. 7676, 19 ottobre 2017, pp. 354–359, Bibcode:2017Natur.550..354S, DOI:10.1038/nature24270, ISSN 0028-0836 (WC · ACNP), PMID 29052630.
  • AlphaGo Zero Games.
  • AMA su Reddit.