Libratus покер — это революционная программа искусственного интеллекта, разработанная в Университете Карнеги-Меллона для игры в heads-up no-limit Texas hold’em. В 2017 году она продемонстрировала превосходство ИИ над человеком, победив четырёх профессиональных игроков и заработав 1,7 млн долларов. Это достижение стало переломным моментом в истории развития искусственного интеллекта в сложных играх с неполной информацией.
Libratus — это ИИ-программа для игры в покер heads-up no-limit Texas hold’em, разработанная в Университете Карнеги-Меллона. В 2017 году она победила четырёх топовых игроков в турнире, заработав 1,7 млн долларов и доказав превосходство искусственного интеллекта в сложных играх с неполной информацией.
Компьютерная программа искусственного интеллекта для игры в покер
Libratus — это компьютерная программа искусственного интеллекта, разработанная для игры в покер, в частности в heads-up no-limit Texas hold’em. Создатели Libratus намерены адаптировать её для других приложений, выходящих за рамки покера. Программа была разработана в Университете Карнеги — Меллона в Питтсбурге.
История создания
Хотя Libratus была написана с нуля, она считается преемницей программы Claudico. Как и её предшественница, её название — латинское выражение, означающее «сбалансированная».
Libratus была создана с использованием более 15 миллионов ядро-часов вычислений, тогда как Claudico требовала 2–3 миллиона. Вычисления проводились на суперкомпьютере Bridges в Питтсбургском центре суперкомпьютерных вычислений. По словам одного из создателей Libratus, профессора Туомаса Сандхольма, программа не имеет фиксированной встроенной стратегии, а использует алгоритм для её вычисления. В основе лежит новый вариант метода минимизации контрфактического сожаления — CFR+, введённый в 2014 году Оскари Таммелином. Помимо CFR+, Libratus использует новую технику решения эндшпиля, разработанную Сандхольмом и его аспирантом Ноамом Брауном. Их метод избавился от стандартного подхода в программировании покера, известного как «action mapping».
Параллельно с разработкой Libratus международная команда из Карлова университета, Чешского технического университета и Университета Альберты создала DeepStack, которая в декабре 2016 года стала первой компьютерной программой, победившей профессиональных игроков в heads-up no-limit Texas hold’em. Обе системы использовали минимизацию контрфактического сожаления, но различались подходами: DeepStack применяла нейронные сети для оценки позиций в игре, тогда как Libratus не использовала нейронные сети для оценки листовых узлов.
Поскольку Libratus играет только против одного противника, применяются специальные правила heads-up для двухигроковой версии Texas hold’em.
Матч человек против ИИ в 2017 году
С 11 по 31 января 2017 года Libratus участвовала в турнире «Brains vs. Artificial Intelligence: Upping the Ante challenge» против четырёх топовых игроков в покер: Джейсона Леса, Дона Кима, Дэниела Макола и Джимми Чоу. Для получения статистически значимых результатов было сыграно 120 тысяч раздач — на 50% больше, чем в предыдущем турнире с участием Claudico в 2015 году. Турнир продлился 20 дней вместо обычных 13.
Четыре игрока разделились на две команды по два человека. Одна команда играла в открытом помещении, другая находилась в отдельной комнате, прозванной «The Dungeon», где запрещались мобильные телефоны и внешние коммуникации. Команда в Dungeon получала ту же последовательность карт, что и в открытой игре, но с переворотом сторон: люди в Dungeon получали карты, которые получал ИИ в открытой игре, и наоборот. Это было сделано для нейтрализации влияния везения.
Призовой фонд в 200 тысяч долларов распределялся исключительно между человеческими игроками. Каждый получил минимум 20 тысяч долларов, остаток распределялся в зависимости от успеха против ИИ. Согласно правилам турнира, сам ИИ не получал призовые деньги, несмотря на победу.
В течение дня Libratus играла против участников, а ночью совершенствовала свою стратегию, анализируя результаты дневной игры, особенно свои поражения. Это позволило ей непрерывно устранять недостатки, которые обнаруживала человеческая команда, создавая постоянную гонку вооружений. На турнир было затрачено ещё 4 миллиона ядро-часов суперкомпьютера Bridges.
Во время турнира среди игроков в покер существовал активный букмекерский рынок. Изначально коэффициенты были 4:1 против бота, но на 8-й день ставки переключились на то, какой из людей проиграет меньше всех.
Мощь ИИ
Libratus лидировала с первого дня турнира. Игрок Дон Ким высказался о силе ИИ так: «Я не осознавал, насколько она хороша, пока не сыграл сегодня. Мне казалось, что я играю против кого-то, кто жульничает, как будто он видит мои карты. Я не обвиняю его в жульничестве. Она была просто невероятно хороша».
На 16-й день турнира Libratus впервые преодолела барьер в 1 миллион долларов. К концу этого дня она опережала человеческую команду на 1 194 402 доллара. По окончании турнира Libratus опережала на 1 766 250 долларов и одержала убедительную победу. При большом блайнде в 100 долларов винрейт Libratus составил 14,7 больших блайндов на 100 раздач. Это считается исключительно высоким показателем в покере и статистически значим.
Для сравнения: DeepStack достигла винрейта 49 больших блайндов на 100 раздач в тестировании против 11 профессионалов на 44 тысячах раздач, хотя различные условия тестирования затрудняют прямое сравнение.
Среди человеческих игроков Дон Ким занял первое место, Макол — второе, Джимми Чоу — третье, Джейсон Лес — четвёртое.
Бот использовал нетрадиционный стиль ставок, делая ставки в 20 тысяч долларов в ситуациях, когда в банке всего 100 долларов. После победы эта стратегия была проанализирована и принята покерным сообществом.
Другие возможные применения
Хотя первым применением Libratus была игра в покер, её разработчики преследовали гораздо более широкие цели. Они спроектировали ИИ так, чтобы она могла обучаться любой игре или ситуации с неполной информацией, где «противники» могут скрывать информацию или даже прибегать к обману. Поэтому Сандхольм и его коллеги предлагают применить систему к другим реальным проблемам, включая кибербезопасность, деловые переговоры и медицинское планирование.
🔑 Ключевые факты
- Libratus разработана в Университете Карнеги-Меллона и использует алгоритм CFR+ для вычисления стратегии
- Программа использовала более 15 миллионов ядро-часов вычислений на суперкомпьютере Bridges
- В турнире 2017 года Libratus победила четырёх профессиональных игроков в покер, заработав 1,766 млн долларов
- Винрейт Libratus составил 14,7 больших блайндов на 100 раздач — исключительно высокий показатель
- Программа совершенствовала свою стратегию ночью, анализируя дневные результаты и поражения
- Libratus не использует нейронные сети для оценки позиций, в отличие от конкурента DeepStack
- Разработчики планируют применить технологию к кибербезопасности, переговорам и медицинскому планированию
Что такое Libratus и как работает программа
❓ Часто задаваемые вопросы
💡 Интересные факты
- Во время турнира Libratus ночью совершенствовала свою стратегию, анализируя поражения, создавая постоянную ‘гонку вооружений’ с человеческими игроками
- Бот использовал нетрадиционный стиль ставок, делая ставки в 20 тысяч долларов в ситуациях, когда в банке всего 100 долларов, что позже было принято покерным сообществом
- Одна команда игроков играла в отдельной комнате под названием ‘The Dungeon’, где запрещались мобильные телефоны, чтобы нейтрализовать влияние везения