Компьютерная программа побеждает европейского чемпиона

В 1997 году шахматный компьютер Deep Blue обыграл чемпиона мира по шахматам Гари Каспарова в шестиматчевом матче. Этот результат ощущался как большой удар для человеческой гордости – шахматы рассматривались как символ человеческого уникального интеллекта. Лизая свои раны, человек искал другую игру, чтобы заменить шахматы своим символом интеллекта. Он выбрал азиатскую игру Go.

Go играет на плате 19 x 19, между двумя игроками (черный и белый). После размещения кусок (называемый «камень») нельзя снова перемещать. Цель игры – получить больше территории, чем противник, окружая ее камни. Правила просты, но игра дьявольски сложна, гораздо больше, чем шахматы (Gobet, de Voogt, & Retschitzki, 2004): существует 10 172 возможных позиций (за ними следуют 172 нули), что намного больше, чем количество атомов в известной вселенной. Для сравнения, количество позиций в шахматах «только» 10 43 .

По сравнению с другими настольными играми, такими как шахматы и шашки, Go более стратегический и менее тактический. То есть долгосрочные планы доминируют в краткосрочных комбинациях. Это связано с большими размерами платы Go и тем фактом, что камни не перемещаются после размещения на доске. Одним из следствий является то, что игра затрагивает аспекты познания, где люди сильны (распознавание образов, интуиция, планирование) и где компьютеры традиционно борются. Напротив, игра не устраивает традиционные сильные стороны компьютеров, в первую очередь способность систематически искать большое количество состояний грубой силой.

Таким образом, хотя компьютеры уже давно были сильнее людей в играх, таких как шахматы, Отелло и шашки, они были довольно бедны в Го, будучи неспособными продвинуться дальше уровня хорошего любителя. Крупный прорыв произошел в 2006 году, когда компьютерные программы резко увеличили свою силу с помощью простой, но удивительной техники, называемой поиском дерева Монте-Карло (Lee et al., 2009). Вместо того, чтобы систематически искать дерево возможных движений, этот метод генерирует игры путем случайного выбора ходов для двух игроков. Интуиция заключается в том, что если движение в текущей позиции лучше, чем альтернативы, это движение должно приводить к лучшим результатам в среднем, когда играется много таких игр, хотя каждый отдельный ход выбирается случайным образом. С более сложными вариантами этой методики выбор ходов предвзято предшествует опыту.

Прорыв с AlphaGo

В конце прошлого января журнал Nature сообщил о другом прорыве (Silver et al., 2016). Программа AphaGo, разработанная компанией Google DeepMind, не только сорвала все лучшие другие программы Go (99,8% побед), но и победил Фань Хуэй, профессионального игрока Go, который трижды выигрывал чемпионат Европы. Результат был жестоко понятен: от пяти до нуля.

AlphaGo использует комбинацию из трех методов искусственного интеллекта: поиск по дереву Монте-Карло, о котором мы только что говорили, «Глубокое обучение» и обучение подкреплению. Глубокое обучение состоит в корректировке весов искусственной нейронной сети с использованием недавно разработанных методов (LeCun, Bengio, & Hinton, 2015). AlphaGo использует две сети: первая предлагает двигаться в заданной позиции, а вторая оценивает позицию в целом. Программа сначала узнает, сканируя большое количество мастер-игр (30 миллионов позиций). Затем он играет большое количество игр против себя, настраивая весы своих сетей, используя технику, называемую подкрепляющим обучением. Этот метод использует отзывы, полученные в результате игр, для дальнейшего изучения. Усиление обучения уже успешно использовалось для создания программ высшего уровня в нескольких настольных играх, включая нарды (Tesauro, 1995). Все обучение вычислительно дорого и требует мощных компьютеров.

При игре противника AlphaGo использует свои две сети для оценки позиций и смещения выбора ходов таким образом, чтобы он выбирал ходы, которые оказались полезными в прошлом. Программа выполняет некоторое планирование с поиском дерева Монте-Карло. Красота этого подхода заключается в том, что AlphaGo использует только знания, которые он узнал сам. Это контрастирует, например, с Deep Blue, который использует множество знаний, закодированных вручную его программистами (Campbell, Hoane, & Hsu, 2002).

Уроки человеческого опыта

Что AlphaGo расскажет нам о человеческом опыте? Каковы последствия для мира Go? Первым важным результатом является то, что AlphaGo подтверждает важность распознавания образов и интуиции в настольных играх и, по-видимому, в других областях знаний. Используя только свою способность распознавания образов и без использования какого-либо поиска, AlphaGo по-прежнему превосходит большинство компьютерных программ. Это неудивительно, учитывая, что Go – стратегическая игра, но способ, которым AlphaGo способен ухватить этот аспект человеческой экспертизы так хорошо, впечатляет. Важность распознавания образов в человеческих экспертах долгое время подчеркивалась несколькими исследователями (например, Адрианом Де Грутом, Гербертом Симоном и Хьюбертом Дрейфусом), даже когда были существенные различия в специфике их теорий (подробности см. В Gobet & Chassy, ​​2009).

Напротив, этот проект мало говорит о планировании и поиске людей. Поиск дерева Монте-Карло не очень похож на человека: даже эксперты просто не генерируют тысячи (псевдо) случайных игр, собирая статистику на этом пути. Они проводят более тонкий и выборочный поиск, где распознавание образов переплетается с поиском вперед (Gobet, 1997). Хотя Alpha-Go использует свои знания для выборочного поиска, он делает гораздо меньше людей.

Компьютеры изменили то, как шахматы играют на верхнем уровне. Они открыли новые концептуальные проспекты и подверглись шокирующим ограничениям в игре экспертов. В результате игры против компьютеров, использования компьютеров для занятий и использования компьютеризированных баз данных качество игры заметно улучшилось за последние два десятилетия. Открытые вариации, которые считались неиграбельными, теперь используются, а другие, которые считались удовлетворительными, были опровергнуты компьютерным анализом. Другим последствием, на этот раз нежелательным, является появление обмана с использованием компьютеров. Будет интересно посмотреть, будут ли подобные события происходить с Go.

Очень маловероятно, что всеобщее признание искусственного интеллекта будет превосходить человеческий интеллект. Люди будут разрабатывать новые игры и мероприятия, чтобы сохранить человеческое господство над компьютерами. Это приведет к еще лучшим компьютерным технологиям. Эта гонка вооружений между человеческим интеллектом и компьютерным интеллектом приведет к более глубокому пониманию человеческого и искусственного интеллекта в интересах обоих.

Следующая задача

Хотя производительность AlphaGo замечательна, нужно помнить, что она не победила чемпиона мира (пока). Хотя чемпион Европы, Fan Hui является «единственным» профессионалом в 2 дан, и, следовательно, явно слабее, чем профессионал Go на высшем уровне, который занимает 9 дан. Это примерно эквивалентно различию в шахматах между мастером и гроссмейстером мирового класса. Другими словами, профессионал 9-dan, вероятно, выиграет более 95% времени против профессионала 2-dan.

Итак, какова реальная сила AlphaGo? Мы скоро узнаем, что матч между AlphaGo и Lee Se-dol был организован 9-летним южнокорейским профессионалом, который считается одним из лучших игроков в мире. В то время как команда, стоящая за AlphaGo, оптимистична, что она победит, мастера верят, что человеческий разум будет преобладать. Так делает Джонатан Шеффер, компьютерный ученый, который внес свой вклад в несколько прорывов в компьютерных играх: «Подумайте о AlphaGo как о детском вундеркинде. Внезапно он очень быстро научился играть очень хорошо. Но у него нет большого опыта. То, что мы видели в шахматах и ​​шашках, – это то, что опыт очень важен ».

Фернан Гобет и Морган Эреку

Рекомендации

Campbell, M., Hoane, AJ, & Hsu, FH (2002). Темно-синий. Искусственный интеллект, 134, 57-83.

Gobet, F. (1997). Теория распознавания шаблонов поиска в решении экспертных задач. Мышление и рассуждение, 3, 291-313.

Gobet, F., & Chassy, ​​P. (2009). Экспертиза и интуиция: рассказ о трех теориях. Minds & Machines, 19, 151-180.

Gobet, F., de Voogt, AJ, & Retschitzki, J. (2004). Имеет в виду. Хоув, Великобритания: Психологическая пресса.

LeCun, Y., Bengio, Y., & Hinton, G. (2015). Глубокое обучение. Природа, 521, 436-444.

Lee, C.-S., Wang, M.-H., Chaslot, G., Hoock, J.-B., Rimmel, A., Teytaud, O., et al. (2009). Вычислительный интеллект MoGo показал на тайваньских компьютерных турнирах Go. IEEE Transactions по вычислительному интеллекту и AI в играх, 1, 73-89.

Silver, D., Huang, A., Maddison, CJ, Guez, A., Sifre, L., van den Driessche, G., et al. (2016). Освоение игры Go с глубокими нейронными сетями и поиск дерева. Природа, 529, 484-489.

Tesauro, G. (1995). Временное различие и TD-Gammon. Сообщения ACM, 38, 58-68.