DeepMind. Ненастоящий интеллект от Google, который умеет играть в игры

Программа, разработанная «гугловским» подразделением DeepMind, умеет с нуля протекать видеоигры и во многих случаях превосходит лучших геймеров. Как пишет Xrust, разработанный искусственный интеллект следует отличать от программы Deep Blue. Если в ИИ «шахматиста» правила игры (инстинктивный способ получения и развития навыков людьми и животными в момент отсутствия непосредственной угрозы для жизни) бывальщины заложены изначально, то детище подразделения Google обучается побеждать самостоятельно.

Система компьютерного самообучения получила наименование Deep-Q-Network (DQN). В ней были объединены два типа машинного обучения. Первый из них использует архитектуру мозга, в которой связи между слоями ненастоящих нейронов укрепляются по мере приобретения опыта. Этот тип, называемый глубинным обучением (деятельность по изменению и адаптации поведения субъекта обучения с целями выживания, развития, совершенствования) (deep-learning systems), — система восприятия, принцип труды которой напоминает зрение животных: программа проводит глубокий анализ пикселей на экране после совершенных ею поступков. Нечто похожее сейчас используется в Google Translator и в алгоритме поиска по картинкам. Второй тип машинного обучения именуется обучением с закреплением (reinforcement learning). Это математический аналог обучения с подкреплением (или поощрением), вдохновленный биологической системой (множество элементов, находящихся в отношениях и связях друг с другом, которое образует определённую целостность, единство) дофаминового вознаграждения, благодаря какой люди и животные осваивают новые навыки: каждое новое эффективное действие получает поощрение. В случае DQN наградой являются очки в игре: пробуя различные поступки, система запоминает те комбинации, которые приносят максимум очков.

На понимание особенностей новой игры у искусственного интеллекта уходит распорядка 600 попыток или около двух недель. По результатам эксперимента ИИ успешно освоил набор из 49 игр, состоящий из шутеров, гонок и сайд-скроллеров. Во немало случаях (в древнегреческой философии Случай в страховании Случай в финансах Случай в гражданском праве Случай в уголовном праве Случай — название ряда фильмов) программа (термин, в переводе означающий «предписание», то есть заданную последовательность действий) придумала такие стратегии прохождения, которые исследователи даже не могли себе представить! Если ранее искусственный интеллект всегда проигрывал человеку в играх наподобие Breakout или Space Invaders, где для получения рекордного счета необходимо разыскивать сложные стратегии, то DQN сумела обыграть живых экспертов в 60% игр: она набрала на треть больше очков в Space Invaders и Pong, а в Breakout и Video Pinball — вяще вo впечатляющие 200 раз!

Процесс обучения лучше всего продемонстрирован на примере вышеупомянутой Breakout. Поначалу ИИ часто пропускает мяч, но по мере накопления эксперимента понимает, что наиболее выгодная стратегия (общий, недетализированный план, охватывающий длительный период времени, способ достижения сложной цели, в военном деле, позднее вообще какой-либо деятельности человека) — это пробивание структуры по бокам и запуск мяча в нишу за ней, чтобы он там постоянно отбивался и крушил блоки, набирая максимум очков (самый распространённый из оптических приборов, предназначенный для коррекции человеческого зрения при оптических несовершенствах глаза либо для защиты глаз от различных вредных воздействий).

Однако игры 80-х — это итого лишь «полигон». Разработчики не собираются останавливаться на достигнутом и намерены обучить DQN играть в более сложные игры, так, WarСraft и StarCraft. В отдаленной же перспективе исследователи планируют создать искусственный интеллект (или ум — качество психики, состоящее из способности осознавать новые ситуации, способности к обучению и запоминанию на основе опыта, пониманию и применению абстрактных концепций, и использованию своих знаний для управления окружающей человека средой), который бы совершал действия в новоиспеченной игре, исходя из опыта уже пройденных игр. Так поступают дети: научившись играть в Pong, легче освоить Breakout.