Внутренние работы победного AI, показанного исследователями: Либрэтус Ай победил главных профессионалов за 20 дней игры покера

В работе, опубликованной онлайн журналом Science, Туомас Сэндхолм, преподаватель информатики, и Ноам Браун, аспирант в Кафедре информатики, детализируют, как их AI смог достигнуть сверхчеловеческой работы, ломая игру в в вычислительном отношении управляемые части и, на основе игры игры ее противников, зафиксируйте потенциальные слабые места в ее стратегии во время соревнования.Программы AI победили главных людей в шашках, шахматах и Идут – все сложные игры, но, в которых оба игрока знают точное государство игры в любом случае. Игроки в покер, в отличие от этого, борются со скрытой информацией – какие карты их противники держат и надувает ли противник.

На 20-дневном соревновании, включающем 120 000 рук в Казино рек в Питтсбурге в течение января 2017, Libratus стал первым AI, который победит главных человеческих игроков в Техас Холдеме главы без предела – основная оценка и давняя проблема проблемы для решения игры несовершенной информации AIs.Libratus побеждают каждого из игроков индивидуально в игре с двумя игроками и коллективно накопили больше чем $1,8 миллиона в жареном картофеле. Измеренный в миллибольших жалюзи за руку (mbb/hand), стандарт, используемый исследователями AI игры несовершенной информации, Libratus решительно победил людей на 147 мбр/руки. В малопонятном жаргоне покера это – 14,7 больших жалюзи за игру«Методы в Libratus не используют опытное знание области или человеческие данные и не характерны для покера», сказали Сэндхолм и Браун в газете. «Таким образом они относятся к массе игр несовершенной информации».

Такая скрытая информация повсеместна в реальных стратегических взаимодействиях, они отметили, включая деловые переговоры, кибербезопасность, финансы, стратегическую оценку и военные применения.Libratus включает три главных модуля, первый из которых вычисляет абстракцию игры, которая меньше и легче решить, чем, считая все 10161 (номер 1 сопровождаемый 161 нолем) возможными моментами принятия решения в игре. Это тогда создает свою собственную подробную стратегию ранних партий в Техас Холдем и грубую стратегию более поздних раундов.

Эту стратегию называют стратегией проекта.Один пример этих абстракций в покере собирает в группу подобные руки и рассматривает их тождественно.

«Интуитивно, есть мало различия между высоким Королем потоком и высоким Королевой потоком», сказал Браун. «Рассмотрение тех рук как идентичные уменьшает сложность игры и таким образом делает его в вычислительном отношении легче». В том же духе подобные размеры ставки также могут группироваться.

Но в финальных раундах игры, второй модуль строит новую, абстракцию с более прекрасными зернами на основе состояния игры. Это также вычисляет стратегию этой подыгры в режиме реального времени, которая уравновешивает стратегии через различные подыгры, используя стратегию проекта руководства – что-то, что должно быть сделано, чтобы достигнуть безопасного решения подыгры. Во время январских соревнований Libratus выполнил это вычисление, используя Питтсбургский компьютер Мостов Центра Супервычисления.Каждый раз, когда противник делает движение, которое не находится в абстракции, модуль вычисляет решение этой подыгры, которая включает движение противника.

Сэндхолм и Браун называют это вложенное решение подыгры.DeepStack, AI, созданный Альбертским университетом, чтобы играть предостережение, Техас Холдем без предела, также включает подобный алгоритм, названный непрерывным решением; DeepStack должен все же быть проверен против главных профессиональных игроков, как бы то ни было.Третий модуль разработан, чтобы улучшить стратегию проекта, в то время как соревнование продолжается.

Как правило, Сэндхолм сказал, AIs используют машинное обучение, чтобы найти ошибки в стратегии противника и эксплуатировать их. Но это также открывает AI для эксплуатации, если противник перемещает стратегию.Вместо этого модуль самоулучшителя Либрэтуса анализирует размеры ставки противников, чтобы обнаружить потенциальные отверстия в стратегии проекта Либрэтуса.

Libratus тогда добавляет эти недостающие отделения решения, вычисляет стратегии их и добавляет их к проекту.В дополнение к победе над человеческими профессионалами Libratus был оценен против лучшего предшествующего покера AIs. Они включали Ребенка Tartanian8, личинка, развитая Сэндхолмом и Брауном, который выиграл Ежегодный Компьютерный Конкурс Покера 2016 года, проведенный вместе с Ассоциацией на Продвижение Ежегодной конференции Искусственного интеллекта.Принимая во внимание, что Ребенок, Tartanian8 бьют следующие два самых сильных AIs на соревновании 12 (плюс/минус 10) mbb/hand и 24 (плюс/минус 20) mbb/hand, Либрэтус, превзошел Ребенка Tartanian8 63 (плюс/минус 28) mbb/hand.

DeepStack не был проверен против другого AIs, отметили авторы.«Методы, которые мы развивали, являются в основном независимой областью и могут таким образом быть применены к другим стратегическим взаимодействиям несовершенной информации, включая неразвлекательные заявления», Сэндхолм и Браун завершили. «Из-за повсеместности скрытой информации в реальных стратегических взаимодействиях, мы полагаем, что парадигма, введенная в Libratus, будет очень важна для будущего роста и широко распространенного применения AI».

Технология исключительно лицензировалась для Strategic Machine, Inc., компании, основанной Зандхольмом, чтобы применить стратегические рассуждающие технологии ко многим различным заявлениям.