DeepStack покер — это революционная программа искусственного интеллекта, разработанная для игры в heads-up no-limit Texas hold’em. Она стала первой компьютерной программой, которая превзошла профессиональных игроков в покере, используя инновационные нейронные сети и алгоритм постоянного переразрешения. Это достижение открыло новую эру в исследовании игр с неполной информацией.
DeepStack — это программа искусственного интеллекта, разработанная для игры в heads-up no-limit Texas hold’em. Она стала первой компьютерной программой, превзошедшей профессиональных игроков в покере, используя нейронные сети и алгоритм постоянного переразрешения.
Компьютерная программа для покера
DeepStack — это программа искусственного интеллекта, разработанная для игры в двухсторонний покер, в частности в heads-up no-limit Texas hold’em. Это первая компьютерная программа, которая превзошла профессиональных игроков в этой игре.
История
Покер является ключевой тестовой игрой в академическом сообществе, и значительное количество исследований было посвящено поиску оптимальных стратегий против наихудших противников.
Хотя профессиональные игроки были превзойдены в играх с полной информацией, таких как шахматы, десятилетия назад, игры с неполной информацией требуют гораздо более сложных рекурсивных рассуждений.
Предыдущие популярные подходы в основном полагались на упрощение игры с использованием абстракций. Однако абстракции в играх с неполной информацией часто приводят к легко эксплуатируемым стратегиям.
Вместо этого DeepStack использует несколько алгоритмических инноваций, таких как применение нейронных сетей и постоянное переразрешение. Программа была разработана международной командой из Карлова университета (Charles University), Чешского технического университета (Czech Technical University) и Университета Альберты (University of Alberta).
Алгоритм
В основе программы лежит использование нейронных сетей для определения стоимости конкретных комбинаций карт.
Сети обучаются только на небольшом количестве игровых состояний и используются для обобщения на ситуации, не встречавшиеся во время обучения.
Программа использует поиск с нейронными сетями и постоянное переразрешение, чтобы гарантировать, что стратегия, найденная на каждом этапе, согласуется со стратегией, используемой на предыдущих этапах.
Процедура поиска использует минимизацию контрфактического сожаления для итеративного обновления стратегии в дереве просмотра, а нейронные сети используются для оценки листовых узлов. Оценка листовых узлов избегает рассуждений об остальной части игры, заменяя вычисления за определённой глубиной быстрой приблизительной оценкой.
Турнир 2016 года с профессиональными игроками
В исследовании, завершённом в декабре 2016 года, DeepStack победил 11 профессиональных игроков в покер, сыграв 44 000 раздач. За все сыгранные партии DeepStack выиграл 49 больших блайндов на 100 раздач (простое постоянное сбрасывание карт привело бы к потере 75 bb/100), что составило более четырёх стандартных отклонений от нуля, что сделало его первой компьютерной программой, победившей профессиональных игроков в heads-up no-limit Texas hold’em.
Конкурирующие подходы
Одновременно с DeepStack была опубликована конкурирующая разработка исследовательской группы Университета Карнеги — Меллона (Carnegie Mellon University), названная Libratus. С 11 по 31 января 2017 года Libratus участвовал в турнире против четырёх лучших игроков в покер. Алгоритм также был опубликован в журнале Science. Libratus не использует нейронные сети для оценки листовых узлов. Эксперты утверждают, что использование обучения с нейронными сетями (как в DeepStack) является более универсальным подходом и действительно применялось в последующих работах, обобщающих результаты на другие игры с неполной информацией.
Восприятие покерным сообществом
Дара О’Киарни (Dara O’Kearney), ирландский профессиональный игрок в покер, сыгравший 456 раздач, заявил, что DeepStack играет в стиле, похожем на стиль некоторых человеческих игроков, основанный на теории игр.
🔑 Ключевые факты
- DeepStack — первая ИИ-программа, победившая профессиональных игроков в heads-up no-limit Texas hold’em
- Разработана международной командой из университетов Чехии и Канады
- Использует нейронные сети для оценки стоимости комбинаций карт
- В турнире 2016 года выиграла 49 больших блайндов на 100 раздач против 11 профессионалов
- Применяет алгоритм минимизации контрфактического сожаления
- Конкурирует с программой Libratus от Carnegie Mellon University
- Играет в стиле, похожем на стиль профессиональных игроков, основанный на теории игр
DeepStack покер: как ИИ победил профессионалов
❓ Часто задаваемые вопросы
💡 Интересные факты
- DeepStack обучается только на небольшом количестве игровых состояний, но способна обобщать знания на ситуации, которые она никогда не видела во время обучения
- Программа использует минимизацию контрфактического сожаления — математический метод, который помогает найти оптимальную стратегию в играх с неполной информацией
- Профессиональный игрок Дара О’Киарни отметил, что DeepStack играет в стиле, похожем на стиль некоторых человеческих игроков, основанный на теории игр, а не просто на переборе вариантов