Libratus: ИИ для покера

Libratus покер — это революционная программа искусственного интеллекта, разработанная в Университете Карнеги-Меллона для игры в heads-up no-limit Texas hold’em. В 2017 году она продемонстрировала превосходство ИИ над человеком, победив четырёх профессиональных игроков и заработав 1,7 млн долларов. Это достижение стало переломным моментом в истории развития искусственного интеллекта в сложных играх с неполной информацией.

📋 Краткое описание
Libratus — это ИИ-программа для игры в покер heads-up no-limit Texas hold’em, разработанная в Университете Карнеги-Меллона. В 2017 году она победила четырёх топовых игроков в турнире, заработав 1,7 млн долларов и доказав превосходство искусственного интеллекта в сложных играх с неполной информацией.

Компьютерная программа искусственного интеллекта для игры в покер

Libratus — это компьютерная программа искусственного интеллекта, разработанная для игры в покер, в частности в heads-up no-limit Texas hold’em. Создатели Libratus намерены адаптировать её для других приложений, выходящих за рамки покера. Программа была разработана в Университете Карнеги — Меллона в Питтсбурге.

История создания

Хотя Libratus была написана с нуля, она считается преемницей программы Claudico. Как и её предшественница, её название — латинское выражение, означающее «сбалансированная».

Libratus была создана с использованием более 15 миллионов ядро-часов вычислений, тогда как Claudico требовала 2–3 миллиона. Вычисления проводились на суперкомпьютере Bridges в Питтсбургском центре суперкомпьютерных вычислений. По словам одного из создателей Libratus, профессора Туомаса Сандхольма, программа не имеет фиксированной встроенной стратегии, а использует алгоритм для её вычисления. В основе лежит новый вариант метода минимизации контрфактического сожаления — CFR+, введённый в 2014 году Оскари Таммелином. Помимо CFR+, Libratus использует новую технику решения эндшпиля, разработанную Сандхольмом и его аспирантом Ноамом Брауном. Их метод избавился от стандартного подхода в программировании покера, известного как «action mapping».

Параллельно с разработкой Libratus международная команда из Карлова университета, Чешского технического университета и Университета Альберты создала DeepStack, которая в декабре 2016 года стала первой компьютерной программой, победившей профессиональных игроков в heads-up no-limit Texas hold’em. Обе системы использовали минимизацию контрфактического сожаления, но различались подходами: DeepStack применяла нейронные сети для оценки позиций в игре, тогда как Libratus не использовала нейронные сети для оценки листовых узлов.

Поскольку Libratus играет только против одного противника, применяются специальные правила heads-up для двухигроковой версии Texas hold’em.

Матч человек против ИИ в 2017 году

С 11 по 31 января 2017 года Libratus участвовала в турнире «Brains vs. Artificial Intelligence: Upping the Ante challenge» против четырёх топовых игроков в покер: Джейсона Леса, Дона Кима, Дэниела Макола и Джимми Чоу. Для получения статистически значимых результатов было сыграно 120 тысяч раздач — на 50% больше, чем в предыдущем турнире с участием Claudico в 2015 году. Турнир продлился 20 дней вместо обычных 13.

Четыре игрока разделились на две команды по два человека. Одна команда играла в открытом помещении, другая находилась в отдельной комнате, прозванной «The Dungeon», где запрещались мобильные телефоны и внешние коммуникации. Команда в Dungeon получала ту же последовательность карт, что и в открытой игре, но с переворотом сторон: люди в Dungeon получали карты, которые получал ИИ в открытой игре, и наоборот. Это было сделано для нейтрализации влияния везения.

Призовой фонд в 200 тысяч долларов распределялся исключительно между человеческими игроками. Каждый получил минимум 20 тысяч долларов, остаток распределялся в зависимости от успеха против ИИ. Согласно правилам турнира, сам ИИ не получал призовые деньги, несмотря на победу.

В течение дня Libratus играла против участников, а ночью совершенствовала свою стратегию, анализируя результаты дневной игры, особенно свои поражения. Это позволило ей непрерывно устранять недостатки, которые обнаруживала человеческая команда, создавая постоянную гонку вооружений. На турнир было затрачено ещё 4 миллиона ядро-часов суперкомпьютера Bridges.

Во время турнира среди игроков в покер существовал активный букмекерский рынок. Изначально коэффициенты были 4:1 против бота, но на 8-й день ставки переключились на то, какой из людей проиграет меньше всех.

Мощь ИИ

Libratus лидировала с первого дня турнира. Игрок Дон Ким высказался о силе ИИ так: «Я не осознавал, насколько она хороша, пока не сыграл сегодня. Мне казалось, что я играю против кого-то, кто жульничает, как будто он видит мои карты. Я не обвиняю его в жульничестве. Она была просто невероятно хороша».

На 16-й день турнира Libratus впервые преодолела барьер в 1 миллион долларов. К концу этого дня она опережала человеческую команду на 1 194 402 доллара. По окончании турнира Libratus опережала на 1 766 250 долларов и одержала убедительную победу. При большом блайнде в 100 долларов винрейт Libratus составил 14,7 больших блайндов на 100 раздач. Это считается исключительно высоким показателем в покере и статистически значим.

Для сравнения: DeepStack достигла винрейта 49 больших блайндов на 100 раздач в тестировании против 11 профессионалов на 44 тысячах раздач, хотя различные условия тестирования затрудняют прямое сравнение.

Среди человеческих игроков Дон Ким занял первое место, Макол — второе, Джимми Чоу — третье, Джейсон Лес — четвёртое.

Бот использовал нетрадиционный стиль ставок, делая ставки в 20 тысяч долларов в ситуациях, когда в банке всего 100 долларов. После победы эта стратегия была проанализирована и принята покерным сообществом.

Другие возможные применения

Хотя первым применением Libratus была игра в покер, её разработчики преследовали гораздо более широкие цели. Они спроектировали ИИ так, чтобы она могла обучаться любой игре или ситуации с неполной информацией, где «противники» могут скрывать информацию или даже прибегать к обману. Поэтому Сандхольм и его коллеги предлагают применить систему к другим реальным проблемам, включая кибербезопасность, деловые переговоры и медицинское планирование.

🔑 Ключевые факты

Libratus разработана в Университете Карнеги-Меллона и использует алгоритм CFR+ для вычисления стратегии
Программа использовала более 15 миллионов ядро-часов вычислений на суперкомпьютере Bridges
В турнире 2017 года Libratus победила четырёх профессиональных игроков в покер, заработав 1,766 млн долларов
Винрейт Libratus составил 14,7 больших блайндов на 100 раздач — исключительно высокий показатель
Программа совершенствовала свою стратегию ночью, анализируя дневные результаты и поражения
Libratus не использует нейронные сети для оценки позиций, в отличие от конкурента DeepStack
Разработчики планируют применить технологию к кибербезопасности, переговорам и медицинскому планированию

Что такое Libratus и как работает программа

❓ Часто задаваемые вопросы

Что такое Libratus и для чего она была создана?

Libratus — это компьютерная программа искусственного интеллекта, разработанная в Университете Карнеги-Меллона для игры в heads-up no-limit Texas hold’em. Программа была создана для демонстрации возможностей ИИ в решении сложных задач с неполной информацией и может быть адаптирована для других приложений.

Как Libratus победила профессиональных игроков в покер?

В январе 2017 года Libratus сыграла 120 тысяч раздач против четырёх топовых игроков в течение 20 дней. Программа лидировала с первого дня, совершенствуя свою стратегию каждую ночь на основе анализа дневных результатов. По итогам турнира Libratus опередила человеческую команду на 1,766 млн долларов.

Какие технологии использует Libratus?

Libratus основана на алгоритме CFR+ (минимизация контрфактического сожаления) и использует новую технику решения эндшпиля, разработанную профессором Туомасом Сандхольмом. В отличие от конкурента DeepStack, программа не применяет нейронные сети для оценки позиций в игре.

Какой винрейт показала Libratus в турнире?

Винрейт Libratus составил 14,7 больших блайндов на 100 раздач, что считается исключительно высоким показателем в покере и статистически значимым результатом. Это демонстрирует абсолютное превосходство программы над профессиональными игроками.

Какие ещё применения есть у технологии Libratus?

Разработчики спроектировали Libratus так, чтобы она могла обучаться любой игре или ситуации с неполной информацией. Они предлагают применить систему к кибербезопасности, деловым переговорам, медицинскому планированию и другим реальным проблемам.

💡 Интересные факты

Во время турнира Libratus ночью совершенствовала свою стратегию, анализируя поражения, создавая постоянную ‘гонку вооружений’ с человеческими игроками
Бот использовал нетрадиционный стиль ставок, делая ставки в 20 тысяч долларов в ситуациях, когда в банке всего 100 долларов, что позже было принято покерным сообществом
Одна команда игроков играла в отдельной комнате под названием ‘The Dungeon’, где запрещались мобильные телефоны, чтобы нейтрализовать влияние везения

🔗 Связанные темы

DeepStack — конкурирующая ИИ-программа для покераClaudico — предшественница LibratusИскусственный интеллект в играхTexas hold’em — правила и стратегияHeads-up покерАлгоритм CFR+ и минимизация контрфактического сожаленияИИ в кибербезопасности и переговорах

Libratus: ИИ-программа, победившая профессионалов