Искусственный интеллект стал умнее человеческого. Что дальше? Искусственный интеллект обыграл человека: где и как

Год назад программа AlphaGo сенсационно обыграла сильнейшего в мире игрока в го, а теперь искусственный интеллект AlphaZero разгромил сильнейший по рейтингу шахматный движок.

Stockfish, который используют для домашней подготовки большинство игроков, победитель Чемпионата TCEC 2016 года и Чемпионата Chess.com среди компьютерных программ 2017 года, оказался явно слабее. В матче из 100 партий AlphaZero одержал 28 побед при 72 ничьих и ни разу не проиграл.

Кстати, AlphaZero потратил всего четыре часа на «изучение» шахмат. Простите, человеки, но вам за ним не угнаться.

Все верно - программисты AlphaZero, разрабатываемого DeepMind, подразделением Google, создали его на основе механизма «машинного обучения», точнее, «обучения с подкреплением». Проще говоря, AlphaZero не изучал шахматы в традиционном понимании. У него нет ни дебютной книги, ни эндшпильных таблиц, ни сложных алгоритмов для оценки силы центральных и фланговых пешек.

Его работу можно сравнить с роботом, который может использовать тысячи запчастей, но не знает принципа работы двигателя внутреннего сгорания, - он перебирает возможные комбинации, пока не построит Феррари, и для этого ему нужно меньше времени, чем занимает просмотр трилогии «Властелин колец». За четыре часа программа сыграла сама с собой множество партий, став своим собственным учителем.

Пока что команда программистов хранит молчание. Они не дали Chess.com комментариев, ссылаясь на то, что доклад «пока находится на рассмотрении», но здесь вы можете прочесть его полный текст. В исследовательскую группу входит Демис Хассабис, кандидат в мастера из Англии и соучредитель DeepMind (приобретен Google в 2014). Хассабис, принимавший участие в турнире тандемов ProBiz на открытии London Chess Classic, в настоящий момент находится на конференции Neural Information Processing Systems (Нейронные системы обработки информации) в Калифорнии, в качестве соавтора доклада на другую тему.

Зато с Chess.com охотно поделился своими суждениями шахматист, обладающий большим личным опытом игры против шахматных компьютеров. МГ Гарри Каспаров не удивлен, что компания DeepMind перешла от го к шахматам.

«Это заметное достижение, хотя оно и было ожидаемо после AlphaGo», - заявил он Chess.com. «Оно приближается к "типу-Б", человекоподобному подходу к шахматам, которым Клон Шеннон и Алан Тьюринг мечтали заменить сплошной перебор».

Подобно человеку, AlphaZero рассматривает меньше позиций, чем ее предшественницы. В отчете заявлено, что она оценивает «всего» 80 тысяч позиций в секунду в сравнении с 70 миллионами в секунду у Stockfish.

МГ Петер-Хайне Нильсен, многолетний секундант чемпиона мира МГ Магнуса Карлсена, открыл свое увлечение, сближающее его с президентом ФИДЕ: инопланетян. Он заявил Chess.com: «Прочитав доклад и, в особенности, просмотрев партии, я подумал: „Мне всегда было любопытно, что было бы, если бы более разумный вид высадился на нашей планете и показал нам свое искусство шахматной игры. Кажется, теперь я знаю, каково это“.

Мы также узнали, о значимости преимущества выступки, по крайней мере, для искусственного интеллекта. 25 из 28 побед AlphaZero одержал белыми (хотя результат +3=47-0 черными против Stockfish, чей рейтинг превышает 3400, также неплох).

В отчете показано и насколько часто движок выбирал те или иные дебюты по мере обучения. Простите, любители староиндийской защиты, но вы не в фаворе. Интерес к французской защите также угас со временем, а вот стремление играть ферзевый гамбит и, особенно, английское начало только возрастало.

Что бы вы сделали на месте не ведающего усталости существа, только что освоившего игру с 1400-летней историей? Взялись бы за другую. После матча со Stockfish программа AlphaZero потратила на „обучение“ всего два часа и победила „Elmo“, сильнейшего из компьютерных движков для игры в сёги.

Применение этой инновационной самообучающейся программы, разумеется, не ограничено играми.

»Всегда считалось, что в шахматах от машины требуется слишком много эмпирических знаний, чтобы те могли играть сильно "с нуля", вообще не используя человеческие знания", - сказал Каспаров. «Конечно, мне будет интересно посмотреть, что мы сможем узнать о шахматах с помощью AlphaZero, который открывает огромные перспективы машинного обучения в целом-машины могут находить закономерности, недоступные для людей. Очевидно, что последствия простираются далеко за пределы шахмат и других игр. Способность машины открывать и превосходить знания сложных закрытых систем, накопленные человечеством за века, - это инструмент, меняющий мир».

Журналисты Chess.com опросили восемь из десяти участников турнира в Лондоне об их отношении к матчу программ. Видео с интервью будет размещено на сайте позже.

Наиболее резко критиковал условия матча МГ Хикару Накамура. Сейчас идет горячая дискуссия о вычислительной мощности противников, но Накамура считает, что важнее было другое.

Американский гроссмейстер назвал матч «нечестным», указав, что для оптимальной работы движок Stockfish должен использовать дебютную книгу. Накамура не думает, что с ее помощью Stockfish выиграл бы матч, но разрыв в счете был бы намного меньше.

«Я уверен, что сам Господь бог не набрал бы против Stockfish 75 процентов очков белыми без какой-либо форы», - прокомментировал он результат AlphaZero белыми: 25 побед и 25 ничьих.

МГ Ларри Кауфман, ведущий шахматный консультант движка Komodo, надеется увидеть, насколько хорошо работает новая программа на персональных компьютерах, не пользуясь вычислительными мощностями Google. Он также повторил высказанные Накамурой возражения по поводу того, что Stockfish играл без своих обычных дебютных знаний.

«Конечно, это почти невероятно», сказал он, - «да, я слышал о достижениях AlphaGo Zero в игре го и ожидал, что произойдет что-то подобное, учитывая, что в команде разработчиков есть шахматист Демис Хассабис. Однако, непонятно, сможет ли программа AlphaZero играть в шахматы на обычном компьютере, и насколько хорошо у нее это получится. Возможно, современное преобладание шахматных движков, использующих минимаксную функцию, близится к концу, но пока провозглашать это слишком рано. Стоит указать, что за время обучения AlphaZero де-факто создала собственную дебютную книгу, поэтому было бы справедливее использовать ее против движка с хорошей дебютной книгой».

Не касаясь условий матча, Нильсен задумывается, в каких еще областях может применяться данный тип обучения.

"[Это] современный искусственный интеллект", - сказал гроссмейстер. «Он идет от чего-то вроде шахмат к проблемам, достойным нобелевских премий и даже большего. Думаю, нам повезло, что они решили потратить четыре часа на шахматы, но последствия этого открытия куда более значительны».

Предмет исследований и цель разработок Предметом изучения науки «искусственный интеллект» является человеческое мышление. Учёные ищут ответ на вопрос: как человек мыслит? Цель этих исследований состоит в том, чтобы создать модель человеческого интелекта и реализовать её на компьютере. Предметом изучения науки «искусственный интеллект» является человеческое мышление. Учёные ищут ответ на вопрос: как человек мыслит? Цель этих исследований состоит в том, чтобы создать модель человеческого интелекта и реализовать её на компьютере.

Примеры областей Существует много других видов человеческой деятельности, которые нельзя запрограммировать заранее. Например: шахматы и другие игры, сочинение стихов и музыки, перевод текстов с одного языка на другой, робототехника, криминалистика (идентификация отпечатков пальцев), медицинская диагностика. Существует много других видов человеческой деятельности, которые нельзя запрограммировать заранее. Например: шахматы и другие игры, сочинение стихов и музыки, перевод текстов с одного языка на другой, робототехника, криминалистика (идентификация отпечатков пальцев), медицинская диагностика.

Неформальный исполнитель Разработчики систем искусственного интеллекта как раз и пытаются научить машину, подобно человеку, самостоятельно строить программу своих действий, исходя из условия задачи. Можно ещё сказать так: ставится цель превращения компьютера из формального исполнителя в интеллектуального исполнителя. Разработчики систем искусственного интеллекта как раз и пытаются научить машину, подобно человеку, самостоятельно строить программу своих действий, исходя из условия задачи. Можно ещё сказать так: ставится цель превращения компьютера из формального исполнителя в интеллектуального исполнителя.

Моделирование Две основные задачи при создании интеллектуальных систем на компьютере: Две основные задачи при создании интеллектуальных систем на компьютере: -моделирование знаний (разработка методов формализации знаний для ввода их в компьютерную память в качестве базы знаний); -моделирование знаний (разработка методов формализации знаний для ввода их в компьютерную память в качестве базы знаний); -моделирование рассуждений (создание компьютерных программ, имитирующих логику человеческого мышления при решении разнообразных задач). -моделирование рассуждений (создание компьютерных программ, имитирующих логику человеческого мышления при решении разнообразных задач).

Экспертные системы Одним из видов систем искусственного интеллекта являются Экспертные системы. Одним из видов систем искусственного интеллекта являются Экспертные системы. Назначение экспертных систем – консультации пользователя, помощь в принятии решений. Назначение экспертных систем – консультации пользователя, помощь в принятии решений.

К сожалению, для шахмат пока нет лучших алгоритмов, чем перебор очень многих позиций. Правда, перебор порядком (и не одним) оптимизированный, но все же это большой перебор. Для поиска ответного хода строится дерево с исходным ходом в корне, ребрами - ходами-ответами и узлами - новыми позициями.

Как в элементарных алгоритмах выбирается следующий ход объяснить просто. На своем ходе вы выбираете такой ход (по вашему мнению), который принесет наибольшую пользу (максимизирует вашу выгоду), а противник на очередном своем ходе старается выбрать ход, который принесет ему больше всего пользы (максимизирует его выгоду и минимизирует вашу). Алгоритм с таким принципом называется минимакс. На каждом этапе вы присваиваете каждому узлу в дереве оценку позиции (об этом потом) и на своем ходе ее максимизируете, а на ходе противника - минимизируете. Алгоритм во время работы должен пройти по всем узлам дерева (то есть по всем возможный игровым позициям в игре), то есть совсем непригоден по времени.
Следующее его усовершенствование - альфа-бета отсечение (метод веток и границ).

Из названия следует, что в алгоритме проводится отсекание по каким-то двум параметрам - альфа и бета. Главная идея отсечения в том, что теперь мы будем держать интервал отсечений (нижняя и верхняя границы - альфа и бета соответственно - ваш К.О.) и оценки всех узлов, какие не попадают в интервал снизу мы рассматривать не будем (так как они не влияют на результат - это просто худшие ходы, чем уже найденный), а сам интервал будем сужать по мере нахождения лучших ходов. Хотя и альфа-бета отсечение намного лучше минимикса, все же время его работы тоже очень большое. Если принять, что в середине партии в одной стороны есть приблизительно 40 разных ходов, то время алгоритма можно оценить как O(40^P), где P - глубина дерева ходов. Конечно, при минимаксе может быть такая последовательность рассмотрения ходов, когда мы не будем делать никаких отсечений, тогда альфа-бета отсечение просто превратится в минимакс. В лучшем случае с помощью альфа-бета отсечения можно избежать проверки корня из числа всех ходов в минимаксе. Для того, чтоб избежать долгого времени работы (при такой О-большое сложности алгоритма), перебор в дереве делают на какую-то фиксированную величину и там проводят оценку узла. Вот эта оценка есть очень великое приближение к реальной оценке узла (то есть, перебора до конца дерева, а там результат - «выиграл, проиграл, ничья»). Насчет оценки узла есть просто кипа различных методик (можно прочесть в линках в конце статьи). Если кратко - то, естественно, подсчитываю материал игрока (согласно одной системе - целыми числами пешка - 100, конь и слон - 300, ладья - 500, ферзь - 900; согласно другой системе - действительными в частях от единицы) + позиция на доске данного игрока. Насчет позиции - то здесь начинается один из кошмаров написания шахмат, так как скорость работы проги будет в основном зависеть от оценочной функции и, если точнее, то от оценки позиции. Тут уже кто во что горазд. За спаренных тур игроку +, за прикрытость короля своими пешками +, за пешку возле другого конца доски + и т.д., а минусуют позицию висячие фигуры, открытый король и т.д. и т.п. - факторов можно написать кучу. Вот для оценки позиции в игре строится оценка позиции игрока, что делает ход, и от нее отнимается оценка соответствующей позиции противника. Как говорят, одна фотография иногда лучше тысячи слов, и, может, кусок кода на псевдо C# тоже будет лучше объяснений:

Enum CurentPlayer {Me, Opponent}; public int AlphaBetaPruning (int alpha, int beta, int depth, CurrentPlayer currentPlayer) { // value of current node int value; // count current node ++nodesSearched; // get opposite to currentPlayer CurrentPlayer opponentPlayer = GetOppositePlayerTo(currentPlayer); // generates all moves for player, which turn is to make move / /moves, generated by this method, are free of moves // after making which current player would be in check List moves = GenerateAllMovesForPlayer(currentPlayer); // loop through the moves foreach move in moves { MakeMove(move); ++ply; // If depth is still, continue to search deeper if (depth > 1) value = -AlphaBetaPruning (-beta, -alpha, depth - 1, opponentPlayer); else // If no depth left (leaf node), evalute that position value = EvaluatePlayerPosition(currentPlayer) - EvaluatePlayerPosition(opponentPlayer); RollBackLastMove(); --ply; if (value > alpha) { // This move is so good that caused a cutoff of rest tree if (value >= beta) return beta; alpha = value; } } if (moves.Count == 0) { // if no moves, than position is checkmate or if (IsInCheck(currentPlayer)) return (-MateValue + ply); else return 0; } return alpha; }

Думаю, не будут излишними некоторые объяснения насчет кода:

GetOppositePlayerTo() просто меняет CurrentPlayer.Me на CurrentPlayer.Opponent і наоборот
MakeMove() делает следующий ход из списка ходов
ply - глобальная переменная (часть класса), которая держит в себе количество полуходов, сделанных на данной глубине

Пример использования метода:

{ ply = 0; nodesSearched = 0; int score = AlphaBetaPruning (-MateValue, MateValue, max_depth, CurrentPlayer.Me); }
где MateValue - достаточно большое число.
Параметр max_depth - максимальная глубина, на которую опустится алгоритм в дереве. Следует иметь в виду, что псевдокод чисто демонстративный, но вполне рабочий.

Вместо того, чтоб придумать новый алгоримт, люди, продвигающие альфа-бета отсечение, придумали много различных эвристик. Эвристика - просто небольшой хак, который иногда делает очень большой выигрыш в скорости. Эвристик для шахмат есть очень много, всех не пересчитаешь. Я приведу лишь основные, остальные можно найти в линках в конце статьи.

Во-первых, применяется очень известная эвристика «нулевой ход» . В спокойной позиции противнику дают сделать два хода вместо одного и после этого рассматривают дерево на глубину (depth-2), а не (depth-1). Если после оценки такого поддерева окажется, что у текущего игрока все равно есть преимущество, то нет смысла рассматривать поддерево далее, так как после своего следующего хода игрок только сделает свою позицию лучше. Так как перебор полиномиальный, то выигрыш в скорости ощутимый. Иногда бывает так, что противник выровняет свое преимущество, тогда надо рассматривать все поддерево до конца. Пустой ход надо делать не всегда (например, когда один из королей под шахом, в цугцванге или в ендшпиле).

Далее, используется идея сначала сделать ход, в котором будет взятие фигуры противника, которая сделала последний ход. Так как почти все ходы во время перебора тупые не очень разумные, то такая идея сильно сузит окно поиска еще в начале, тем самым отсекая много ненужных ходов.

Также известна эвристика истории или служба лучших ходов . Во время перебора сохраняются лучшие ходы на данном уровне дерева, и при рассмотрении позиции сначала можно попробовать сделать такой ход для данной глубины (базируется на идее, что на равных глубинах в дереве очень часто делают одинаковые лучшие ходы).
Известно, что такое своеобразное кеширование ходов улучшило производительность советской проги Каисса в 10 раз.

Также есть некоторые идеи насчет генерации ходов. Сначала рассматривают выигрышные взятия, то есть такие взятия, когда фигура с меньшой оценкой бьет фигуру с большей оценкой. Потом рассматривают promotions (когда пешку на другом конце доски можно заменить на более сильную фигуру), затем равные взятия и затем ходы с кеша эвристики истории. Остальные ходы можно отсортировать за контролем над доской или каким-то другим критерием.

Все было бы хорошо, если бы альфа-бета отсечение гарантировано давало бы лучший ответ. Даже учитывая долгое время на перебор. Но не тут то было. Проблема в том, что после перебора на фиксированную величину проводится оценка позиции и все, а, как оказалось, в некоторых игровых позициях нельзя прекращать перебор. После многих попыток выяснилось, что перебор можно прекращать только в спокойных позициях. Поэтому в основном переборе дописали дополнительный перебор, в котором рассматриваются только взятия, promotions и шахи (называется форсированный перебор ). Также заметили, что некоторый позиции с разменом в середине также надо рассматривать поглубже. Так появились идеи насчет extensions і reductions , то есть углублений и укорачиваний дерева перебора. Для углублений найболее подходящие позиции типа ендшпиля с пешками, ухода от шаха, размен фигуры в середине перебора и т.д. Для укорачиваний подходят «абсолютно спокойные» позиции. В советской программе Каисса форсированный перебор был немного особенным - там после взятия во время перебора сразу начинался форсированный и его глубина не ограничивалась (так как за некоторое время он сам себя исчерпает в спокойной позиции).

Как говорил Энтони Хоар : "Premature optimization is the root of all evil in programming. " (примечание: для тех, кто считает, что данная цитата принадлежит Кнуту, есть интересные дискусии

Разработанной инженерами Массачусетского технологического института. Фишер трижды поставил мат компьютеру и одержал безоговорочную победу. В своих письмах шахматист писал, что программы допускают «грубые ошибки», а сами компьютеры называл «бесполезными кусками железа».

Но в том же году Монти Ньюборн, один из первых ученых, изучавших компьютерные шахматы, сказал пророческие слова:

«Раньше гроссмейстеры приходили на турниры по компьютерным шахматам, чтобы посмеяться. Сейчас они приходят наблюдать, а в дальнейшем будут там учиться».

Бобби Фишер после победы над компьютером. Фото: Getty Images

Похоже, что люди питают какую-то врожденную любовь к интеллектуальным играм. Когда в 1649 году короля Англии Карла I приговорили к смерти, он взял с собой на казнь две вещи - библию и набор шахмат. Известный художник XX века Марсель Дюшан на пике своей карьеры внезапно уехал в Аргентину и начал заниматься вырезанием шахматных фигур из дерева, да и в целом увлекся шахматами. В XIX веке в Японии произошла загадочная история, связанная с игрой го. По легенде духи подсказали одному знаменитому игроку три блестящих хода. В результате он смог победить, а его противник после партии упал на пол, захлебнулся кровью и умер.

Компьютеры далеки от всей этой мистики, но всего за пару десятков лет они изучили интеллектуальные игры глубже, чем человечество за тысячелетия. В 2014 году компания приобрела фирму DeepMind за $400 миллионов для «проведения самого необычного и сложного исследования, конечной целью которого является разгадка сущности интеллекта». В частности ученые хотели научить компьютер играть в го. Эта игра значительно сложнее шахмат. В 1985 году один тайваньский промышленный магнат сказал, что заплатит $1,4 миллиона за программу, которая сможет победить лучшего игрока в го. В 1997 году магнат умер, а спустя три года у его предложения истек срок действия - никто так и не смог забрать приз.

Сейчас он мог бы принадлежать программе DeepMind AlphaGo, которая использует современные нейросети. Год назад она международного чемпиона по го Ли Седоля. В мае этого года она вновь победу над лучшим игроком в го, а также над командой из пяти других профессиональных игроков.

AlphaGo стала абсолютным чемпионом. Вот только вскоре после своих громких побед ее ждет забвение. В конце мая DeepMind незаметно сообщила , что AlphaGo уходит с соревновательной сцены. Чтобы отметить это событие, компания опубликовала 50 вариантов партий, которые программа играла против самой себя. В дальнейшем DeepMind хочет выпустить итоговую исследовательскую работу, в которой будет описана эффективность алгоритма программы.

Что касается шахмат, то человечество потеряло пальму первенства в них еще за 20 лет до этих событий, когда шахматист Гарри Каспаров проиграл суперкомпьютеру IBM Deep Blue. Шахматы и го - не единственные игры, которым пытаются обучить ИИ. Компьютер пробовали научить шашкам , коротким нардам , реверси , покеру и многим другим настольным играм. И человеческий интеллект уже не может сравниться в них с искусственным. Отчасти это произошло из-за развития технологий. Например, еще в 1997 году компьютер Deep Blue занимал 259-е место в списке самых быстрых суперкомпьютеров в мире и мог выполнять около 11 миллиардов операций в секунду. Сейчас же благодаря современным алгоритмам даже ваш смартфон способен победить Каспарова.

Гарри Каспаров против компьютера Deep Blue. Слева один из инженеров IBM Сюн Фэйсюн. Фото: Getty Images

Такие достижения ИИ вызвали у людей вполне человеческие эмоции: печаль, угнетенность и отчаяние. После того как Ли Седоль потерпел поражение от AlphaGo, он пережил экзистенциальный кризис. «Я усомнился в человеческой изобретательности, - признался он после матча. - Я засомневался, являются ли все ходы в го, которые я знаю, правильными». По словам одного из очевидцев, после поражения Ли выглядел так, будто бы ему было «физически плохо». Каспаров чувствовал себя после проигрыша компьютеру не лучше. Когда он вернулся в отель, он просто разделся, лег в постель и смотрел в потолок.

«Компьютер настолько глубоко анализирует некоторые позиции, что играет, как бог», - сказал Каспаров.

Deep Blue впервые показал общественности, что компьютер способен превзойти человека в решении интеллектуальных задач. «Тогда это вызвало шок, - сказал Мюррей Кемпбелл, один из создателей Deep Blue. - Сейчас же мы постепенно привыкаем к этой мысли». Тем не менее, непонятно что ждет человечество в будущем. Как можно использовать в реальном мире достижения в играх? Ответ Кемпбелла на этот вопрос звучит пессимистично. «Трудно найти хороший пример применения таких успехов в настольных играх, - сказал он. - В начале 90-х один из сотрудников IBM по имени Геральд Тезауро пытался обучить ИИ игре в нарды и сделал некоторые достижения в стимулированном обучении. Сейчас его методы часто используются в робототехнике. Однако его случай - скорее исключение из правил».

Рассмотрим некоторые базовые концепции, которые помогут нам создать простой искусственный интеллект, умеющий играть в шахматы:

перемещение;
оценка шахматной доски;
минимакс;
альфа-бета-отсечение.

На каждом шаге мы будем улучшать наш алгоритм с помощью одного из этих проверенных временем методов шахматного программирования. Вы увидите, как каждый из них влияет на стиль игры алгоритма.

Готовый алгоритм можно найти на GitHub .

Шаг 1. Генерация ходов и визуализация шахматной доски

Мы будем использовать библиотеки chess.js для генерации ходов и chessboard.js для визуализации доски. Библиотека для генерации ходов реализует все правила шахмат. Исходя из этого, мы можем рассчитать все ходы для данного состояния доски.

Визуализация функции генерации движения. Исходное положение используется как вход, а на выходе - все возможные ходы из этой позиции.

Использование этих библиотек поможет нам сосредоточиться только на самой интересной задаче - создании алгоритма, который находит лучший ход. Мы начнем с написания функции, которая возвращает случайный ход из всех возможных ходов:

Var calculateBestMove = function(game) { //Генерация всех ходов для данной позиции var newGameMoves = game.ugly_moves(); return newGameMoves; };

Хотя этот алгоритм не очень солидный шахматист, но это хорошая отправная точка, поскольку его уровня достаточно, чтобы сыграть с нами:

Черные играют случайными ходами

JSFiddle .

Шаг 2. Оценка доски

Теперь попробуем понять, какая из сторон сильнее в определенном положении. Самый простой способ добиться этого - посчитать относительную силу фигур на доске, используя следующую таблицу:

С помощью функции оценки мы можем создать алгоритм, который выбирает ход с наивысшей оценкой:

Var calculateBestMove = function (game) { var newGameMoves = game.ugly_moves(); var bestMove = null; //Используйте любое отрицательное число var bestValue = -9999; for (var i = 0; i < newGameMoves.length; i++) { var newGameMove = newGameMoves[i]; game.ugly_move(newGameMove); //Возьмите отрицательное число, поскольку ИИ играет черными var boardValue = -evaluateBoard(game.board()) game.undo(); if (boardValue > bestValue) { bestValue = boardValue; bestMove = newGameMove } } return bestMove; };

Единственным ощутимым улучшением является то, что теперь наш алгоритм съест фигуру, если это возможно:

Черные играют с помощью простой функции оценки

Посмотреть, что получилось на данном этапе, вы можете на JSFiddle .

Шаг 3. Дерево поиска и минимакс

Затем мы создадим дерево поиска, из которого алгоритм может выбрать лучший ход. Это делается с помощью алгоритма «минимакс».

Прим. перев. В одной из наших статей мы уже имели дело с - учились создавать ИИ, который невозможно обыграть в крестики-нолики.

В этом алгоритме рекурсивное дерево всех возможных ходов исследуется до заданной глубины, а позиция оценивается на «листьях» дерева.

После этого мы возвращаем либо наименьшее, либо наибольшее значение потомка в родительский узел, в зависимости от того, чей просчитывается ход (то есть мы стараемся минимизировать или максимизировать результат на каждом уровне).

Визуализация минимакса в искусственном положении. Лучший ход для белых - b2-c3, так мы можем гарантировать, что доберемся до позиции, где оценка равна -50

Var minimax = function (depth, game, isMaximisingPlayer) { if (depth === 0) { return -evaluateBoard(game.board()); } var newGameMoves = game.ugly_moves(); if (isMaximisingPlayer) { var bestMove = -9999; for (var i = 0; i < newGameMoves.length; i++) { game.ugly_move(newGameMoves[i]); bestMove = Math.max(bestMove, minimax(depth - 1, game, !isMaximisingPlayer)); game.undo(); } return bestMove; } else { var bestMove = 9999; for (var i = 0; i < newGameMoves.length; i++) { game.ugly_move(newGameMoves[i]); bestMove = Math.min(bestMove, minimax(depth - 1, game, !isMaximisingPlayer)); game.undo(); } return bestMove; } };

С минимаксом наш алгоритм начинает понимать основную тактику шахмат:

Минимакс с уровнем глубины 2

Посмотреть, что получилось на данном этапе, вы можете на JSFiddle .

Эффективность минимакса в значительной степени зависит от достижимой глубины поиска. Именно это мы улучшим на следующем шаге.

Шаг 4. Альфа-бета-отсечение

Позиции, которые нам не нужны, если используется альфа-бета-отсечение. Дерево посещается в описанном порядке.

С альфа-бета-отсечением мы получаем значительное улучшение минимакса, как показано в следующем примере:

Количество позиций, которые нужно оценить в случае поиска с глубиной 4 и начальной позицией, изображённой на картинке.

Посмотреть, что получилось на данном этапе, вы можете на JSFiddle .

Шаг 5. Улучшенная функция оценки

Первоначальная функция оценки довольно наивна, поскольку мы просто подсчитываем очки фигур, которые находятся на доске. Чтобы улучшить её, мы начнём учитывать положение фигур. Например, конь в центре доски «дороже», потому что он имеет больше доступных ходов и, следовательно, более активен, чем конь на краю доски.