Покер боты: компьютерные программы и искусственный интеллект

Покер боты — это компьютерные программы, разработанные для игры в покер против человеческих противников и других ботов. По состоянию на 2019 год такие системы искусственного интеллекта достигли сверхчеловеческого уровня игры и способны победить любого профессионального игрока. Однако использование покер ботов в онлайн-покере запрещено и считается мошенничеством.

📋 Краткое описание
Компьютерные программы для покера используют искусственный интеллект и достигли сверхчеловеческого уровня игры. По состоянию на 2019 год боты могут победить любого профессионального игрока, однако их использование в онлайн-покере запрещено и считается мошенничеством.

Компьютерная программа, разработанная для игры в покер

Компьютерный покер-игрок — это компьютерная программа, предназначенная для игры в покер (обычно в версии Texas hold ’em) против человеческих противников или других компьютерных программ. Её часто называют покербот или просто бот. По состоянию на 2019 год компьютеры могут победить любого человеческого игрока в покер.

В интернете

Такие боты и компьютерные программы часто используются в онлайн-покере либо как легитимные противники для человеческих игроков, либо как форма мошенничества. По состоянию на 2020 год все использование Real-Time Assistance (RTA) или автоматизированных ботов считается мошенничеством на всех сайтах онлайн-покера, хотя уровень контроля со стороны операторов сайтов значительно варьируется.

Боты-игроки

Использование ботов-игроков или компьютерной помощи при игре в онлайн-покер запрещено на большинстве, если не на всех, онлайн-сайтах. За нарушения предусмотрены постоянный бан и конфискация выигрышей. Один тип ботов может взаимодействовать с покер-клиентом (то есть играть самостоятельно как автоматический игрок) без помощи человека-оператора. Real-Time Assistance (RTA) — это другой метод использования компьютерных программ. RTA — это когда человеческий игрок использует программу, называемую «решателем», такую как PioSOLVER или PokerSnowie, работающую на другом компьютере, для принятия решений.

Проблема несправедливого преимущества двойственна. Во-первых, боты могут играть много часов подряд без человеческих слабостей, таких как усталость, и могут переносить естественные колебания игры без влияния человеческих эмоций (или «tilt»). Во-вторых, с 2019 года компьютерная программа Pluribus достаточно успешна в чтении блефа, расчёте шансов и адаптации к стратегии, чтобы постоянно побеждать профессиональных покер-игроков в 6-игровом no-limit Hold’em.

Контроль со стороны оператора

Хотя условия использования покер-сайтов обычно запрещают использование ботов, уровень контроля зависит от оператора сайта. Некоторые ищут и банят пользователей ботов, используя различные программные инструменты. Покер-клиент может быть запрограммирован на попытку обнаружения ботов, хотя это само по себе спорно, так как может рассматриваться как встраивание шпионского ПО в клиентское программное обеспечение. Другой метод — использование CAPTCHA в случайные моменты во время игры для поимки автоматизированных ботов, хотя это неэффективно против Real-Time Assistance.

Боты оператора

«Боты оператора» могут создавать конфликт интересов. По строгому определению, бот оператора — это автоматизированный игрок, управляемый самым онлайн-покер-румом. Такие боты были бы эквивалентом подставных лиц в наземных казино.

И подставные лица в наземных казино, и онлайн-боты оператора не должны иметь доступ к информации, которая недоступна другим игрокам в раздаче. Проблема в том, что в онлайн-среде оператор не может доказать, что его боты не получают конфиденциальную информацию с сервера карт. Это усугубляется лёгкостью, с которой можно осуществить скрытый обмен информацией в цифровой среде. По сути, даже оператор не может доказать, что он не контролирует некоторых игроков.

Искусственный интеллект

Как и в шахматах, го и многих других играх, системы искусственного интеллекта побеждают даже лучших людей в покер. Покер — это игра с неполной информацией (потому что некоторые карты скрыты), что затрудняет для кого-либо (включая компьютер) определение окончательного результата раздачи. Из-за этого недостатка информации программисты компьютеров раньше должны были реализовывать системы, основанные на теореме Байеса, равновесии Нэша, методе Монте-Карло или нейронных сетях — все это несовершенные методы. Однако Pluribus усовершенствовал покер, глядя вперёд всего на несколько ходов, чтобы определить, какое действие предпринять, вместо попытки оценить все ходы до конца игры.

Более старые ИИ, такие как PokerSnowie и Claudico, были созданы путём позволения компьютеру определить лучшую возможную стратегию, заставляя его играть против себя огромное количество раз. В течение многих лет это был подход к покер-ИИ, в отличие от попытки создать компьютер, который играет как человек. Это привело к необычному размеру ставок и стратегии, сильно отличающейся от того, к чему привыкли люди.

Методы были впервые разработаны для приближения идеальной стратегии покера с точки зрения теории игр в игре один-на-один (два игрока), а затем для многоигровой игры. Идеальная стратегия имеет несколько значений в этом контексте. С точки зрения теории игр, идеальная стратегия — это та, которая не может ожидать проигрыша против любой другой стратегии игрока; однако оптимальная стратегия может варьироваться при наличии неоптимальных игроков, имеющих слабости, которые можно использовать. В этом случае идеальная стратегия — это та, которая правильно или близко моделирует эти слабости и использует их в своих целях для получения прибыли.

ИИ прорвался к сверхчеловеческой производительности в покере в 2010-х годах со следующей временной шкалой. В 2015 году компьютеры решили heads-up limit hold’em через Cepheus. Прорыв был достигнут с использованием алгоритма CFR+ (Counterfactual Regret Minimization Plus), который проанализировал 3,19×10^14 точек принятия решений, чтобы эффективно решить игру. CFR+ работает путём итеративной игры против себя и анализа контрфактического сожаления — разницы между ожидаемой стоимостью предпринятого действия и лучшим возможным действием, которое могло бы быть предпринято. Около 2018 года Libratus продемонстрировал сверхчеловеческие способности в heads-up no-limit hold’em. В 2019 году Pluribus (более новая версия Libratus) продемонстрировал сверхчеловеческие способности в шестиигровом no-limit hold’em, наиболее часто играемом варианте покера в мире. В 2021 году Microsoft выпустила более старую программу для игры в покер Libratus в коммерческих целях, которая затем победила четырёх профессиональных покер-игроков в 20-дневном покер-турнире в Rivers Casino.

Недавние разработки внедрили подходы на основе больших языковых моделей (LLM) в покер-ИИ, особенно PokerGPT. В отличие от традиционных систем Counterfactual Regret Minimization (CFR), требующих значительных вычислительных ресурсов, PokerGPT представляет парадигмальный сдвиг в сторону лёгких текстовых покер-ИИ. Этот подход использует тонко настроенные языковые модели, обученные на миллионах реальных историй покер-раздач, позволяя ИИ принимать понятные человеку решения при потреблении значительно меньше вычислительных ресурсов, чем традиционные методы.

Исследовательские группы

Neo Poker Laboratory

Neo Poker Lab была установленной научной командой, сосредоточенной на исследовании искусственного интеллекта в покере. В течение нескольких лет она разрабатывала и применяла современные алгоритмы и процедуры, такие как минимизация сожаления и аппроксимация равновесия поиска градиента, деревья решений, методы рекурсивного поиска, а также экспертные алгоритмы для решения различных проблем, связанных с игрой в покер. Веб-сайт Neo Poker Lab больше не работает.

Группа Game AI Университета Окленда

До 2017 года команда из Университета Окленда (University of Auckland) состояла из небольшого числа учёных, которые использовали рассуждения на основе прецедентов для создания и улучшения агентов Texas Hold’em. Группа применила различные методы ИИ к ряду игр, включая участие в коммерческих проектах Small Worlds и Civilization.

Группа компьютерных исследований покера (Университет Альберты, Канада)

До 2019 года большая часть исследований компьютерных покер-игроков проводилась в Университете Альберты (University of Alberta) группой Computer Poker Research Group под руководством доктора Майкла Боулинга (Michael Bowling). Группа разработала агентов Poki, PsOpti, Hyperborean и Polaris. Poki был лицензирован для развлекательной игры STACKED с участием канадского покер-игрока Дэниела Негреану (Daniel Negreanu). PsOpti был доступен под названием «SparBot» в программе обучения покеру «Poker Academy». Серия программ Hyperborean участвовала в ежегодном компьютерном турнире по покеру, в последний раз завоевав три золотые медали из шести событий на турнире 2012 года. Та же линия исследований также произвела Polaris, который играл против профессионалов в 2007 и 2008 годах и стал первой компьютерной программой для покера, выигравшей значительный турнир по покеру.

В январе 2015 года статья в журнале Science от Майкла Боулинга, Нила Бёрча (Neil Burch), Майкла Йохансона (Michael Johanson) и Оскари Таммелина (Oskari Tammelin) утверждала, что их покер-бот Cepheus «по сути слабо решил» игру heads-up limit Texas hold ’em.

Школа компьютерных наук Университета Карнеги-Меллона

Т. Сандхольм (T. Sandholm) и А. Гилпин (A. Gilpin) из Университета Карнеги-Меллона (Carnegie Mellon University) начали исследования покер-ИИ в 2004 году, начиная с непобедимого агента для 3-карточной игры Rhode-Island Hold ’em. Следующим шагом был GS1, который превосходил лучшие коммерчески доступные покер-боты. В 2006 году покер-агенты из этой группы начали участвовать в ежегодных компьютерных соревнованиях. «В какой-то момент у нас будет программа лучше, чем лучшие человеческие игроки» — заявил Сандхольм, чей бот Claudico противостоял четырём человеческим противникам в 2015 году.

В 2017 году программное обеспечение программы Libratus противостояло четырём профессиональным покер-игрокам. К концу эксперимента четыре человеческих игрока проиграли в совокупности 1,8 миллиона долларов смоделированных денег Libratus.

В 2019 году Libratus был заменён финальной версией под названием Pluribus.

Исторические турниры

Соревнование PokerBot ICCM 2004

Одно из первых соревнований no-limit покер-ботов было организовано в 2004 году Международной конференцией по когнитивному моделированию. Турнир принимал пять ботов из различных университетов со всего мира. Победителем был Ace Gruber из Университета Торонто.

Соревнования ACM

Ассоциация вычислительной техники (ACM) раньше проводила соревнования, где участники представляли программное обеспечение, способное играть в покер на их конкретной платформе. Организаторы проводили конкурсы, управляя программным обеспечением и сообщая результаты.

Чемпионат мира по покер-роботам 2005

Летом 2005 года онлайн-покер-рум Golden Palace провёл рекламный турнир в Лас-Вегасе в старом Binions с призовым фондом в 100 тысяч долларов. Он был объявлен как Чемпионат мира по покер-роботам 2005. Турнир был только для ботов без входного взноса. Разработчики ботов были компьютерными учёными из шести национальностей, которые путешествовали за свой счёт. Хост-платформой была Poker Academy. Мероприятие также включало демонстрационный heads-up турнир с Филом Лааком (Phil Laak).

Эксперименты «Человек против машины» Университета Альберты

Летом 2007 года Университет Альберты провёл специализированный heads-up турнир между людьми и их ботом Polaris на конференции AAAI в Ванкувере, Британская Колумбия, Канада. Хост-платформа была написана Университетом Альберты. Было максимальное распределение призов в 50 тысяч долларов со специальными правилами, чтобы мотивировать людей хорошо играть. Люди не платили входной взнос. Уникальный турнир включал четыре сеанса дублирования по 500 рук каждый. Люди выиграли с небольшим перевесом.

Летом 2008 года Университет Альберты и веб-сайт покер-коучинга Stoxpoker провели второй турнир во время Мировой серии покера в Лас-Вегасе. Турнир включал шесть сеансов дублирования по 500 рук каждый, и человеческие игроки были специалистами Heads-Up Limit. Polaris выиграл турнир с 3 победами, 2 поражениями и ничьей. Результаты турнира, включая истории рук из матчей, доступны на веб-сайте соревнования.

Конкурс «Мозги против ИИ» 2015 года от Rivers Casino, CMU и Microsoft

С апреля по май 2015 года бот Claudico из Университета Карнеги-Меллона Сандхольма противостоял четырём человеческим противникам в серии матчей no-limit Texas Hold’em. Наконец, после игры 80 000 рук люди были впереди на общую сумму 732 713 долларов. Но даже несмотря на то, что люди технически выиграли, учёные считали победу статистически незначимой (скорее, статистической ничьей), когда эти 732 713 долларов сравниваются с общей суммой ставок в 170 000 000 долларов. Однако некоторые считают это утверждение лицемерным. Статистически незначимое здесь означает, что программисты Claudico не могут сказать с 95% уверенностью (95% доверительный интервал), что люди лучше, чем компьютерная программа. Однако это статистически значимая победа при 90% доверительном интервале. Это означает, что человеческие игроки где-то между 10 к 1 и 20 к 1 фаворитами.

Способ структурирования турнира был в двух наборах по два игрока в каждом. В каждом из двух наборов игроки получали противоположные карты. Это означает, что если компьютер имеет As9c (туз пик и девятка треф) и человек имеет Jh8d на одном компьютере, то другой из двух игроков в наборе будет иметь As9c против Jh8d компьютера. Однако, даже с тем, что человеческие игроки выигрывали больше, чем компьютер — не все игроки были положительны в своих личных матчах.

Итоги выигрышей каждого игрока были следующими:

Дуглас Полк (Douglas Polk): +213 671 доллар
Донг Ким (Dong Kim): +70 491 доллар
Бьёрн Ли (Bjorn Li): +529 033 доллара
Джейсон Лес (Jason Les): -80 482 доллара

Ежегодное компьютерное соревнование по покеру

С 2006 по 2018 год ежегодное компьютерное соревнование по покеру проводило серию соревнований для программ покера. С 2010 года играли три типа покера: Heads-Up Limit Texas Hold’em, Heads-Up No-Limit Texas Hold’em и 3-player Limit Texas Hold’em. В каждом событии названы два победителя: агент, выигравший наибольшее количество матчей (Bankroll Instant Run-off), и агент, выигравший наибольшее количество денег (Total Bankroll). Эти победители часто не одни и те же агенты, так как Bankroll Instant Run-off награждает надёжных игроков, а Total Bankroll награждает игроков, хорошо использующих ошибки других агентов. Соревнование было мотивировано научными исследованиями, и был сделан упор на обеспечение того, чтобы все результаты были статистически значимыми путём игры миллионов рук покера. Соревнование 2012 года имело те же форматы с более чем 70 миллионами сыгранных рук, чтобы исключить фактор удачи.

Некоторые исследователи разработали веб-приложение, где люди могли играть и оценивать качество ИИ. Таким образом, по состоянию на декабрь 2012 года следующие лучшие группы и агенты отдельных исследователей можно было найти:

Hyperborean (9 золотых, 5 серебряных и 3 бронзовых медали)
Bluffbot (1 золотая, 3 серебряные и 2 бронзовые медали)
Sartre (1 золотая, 5 серебряных и 3 бронзовые медали)
Neo Poker Bot (1 золотая, 5 бронзовых медалей)

Pluribus

Финальный турнир по покеру не был открытым. Когда программа Pluribus постоянно побеждала профессионалов в 6-игровом no-limit Hold’em, результат был тихо объявлен в посте на Facebook.

🔑 Ключевые факты

С 2019 года компьютеры могут победить любого человеческого игрока в покер
Использование ботов и Real-Time Assistance (RTA) запрещено на всех сайтах онлайн-покера
Программа Pluribus продемонстрировала сверхчеловеческие способности в 6-игровом no-limit hold’em
Алгоритм CFR+ (Counterfactual Regret Minimization Plus) анализирует триллионы точек принятия решений
В 2015 году бот Cepheus решил heads-up limit hold’em через теорию игр
Libratus в 2017 году выиграл 1,8 млн долларов у четырёх профессиональных игроков
PokerGPT использует языковые модели вместо традиционных вычислительно сложных методов CFR

Возможности современных покер ботов

❓ Часто задаваемые вопросы

Могут ли компьютеры победить профессиональных покер-игроков?

Да, с 2019 года компьютерные программы, такие как Pluribus, постоянно побеждают лучших профессиональных игроков в покер. Программа Libratus выиграла 1,8 млн долларов у четырёх профессионалов в 2017 году.

Почему использование ботов в онлайн-покере запрещено?

Боты дают несправедливое преимущество, так как могут играть без усталости, эмоций и тilt’а, а также использовать сложные алгоритмы для оптимальной игры. Это нарушает честность игры и приводит к перманентному бану и конфискации выигрышей.

Какие методы ИИ используются в покер-ботах?

Основные методы включают Counterfactual Regret Minimization (CFR), теорему Байеса, равновесие Нэша, методы Монте-Карло, нейронные сети и новые подходы на основе больших языковых моделей (LLM) как PokerGPT.

Что такое Real-Time Assistance (RTA) в покере?

RTA — это использование компьютерной программы-решателя (например, PioSOLVER) на отдельном компьютере для помощи в принятии решений во время игры. Это считается мошенничеством на всех онлайн-платформах.

Какие университеты занимаются исследованиями покер-ИИ?

Основные исследовательские центры — это Университет Альберты (Computer Poker Research Group), Университет Карнеги-Меллона, Университет Окленда и Neo Poker Laboratory, которые разработали программы Polaris, Libratus, Pluribus и Claudico.

💡 Интересные факты

Программа Pluribus была объявлена только в посте на Facebook, без официального турнира, когда она начала постоянно побеждать профессионалов
Алгоритм CFR+ анализирует 3,19×10^14 точек принятия решений для решения heads-up limit hold’em
PokerGPT потребляет значительно меньше вычислительных ресурсов, чем традиционные методы CFR, используя обучение на миллионах реальных историй раздач

🔗 Связанные темы

Искусственный интеллект в играхТеория игр и равновесие НэшаОнлайн-покер и безопасностьАлгоритмы машинного обученияИстория компьютерных шахмат и гоМошенничество в онлайн-казиноНейронные сети в играх

Компьютерный покер-игрок: боты и ИИ