Лекция 2. Модели принятия решений

Для того, чтобы строить модели управления организационными системами необходимо иметь модели поведения людей, входящих в эти системы, то есть, иметь модели принятия людьми решений.

Как описывается поведение человека? В экономике с середины XIX века существует концепция максимизации полезности, то есть концепция экономического человека, который ведет себя таким образом, чтобы максимизировать свою полезность. Несмотря на всю ограниченность этой теории - не всегда понятно, что такое полезность, почему человек стремится ее максимизировать и т.д., - концепция оказалась плодотворной, и ничего лучшего пока не изобретено.

Пусть имеется один субъект (агент), который может выбирать действия из некоторого множества. Предположим, что предпочтения этого субъекта описываются функцией полезности (или целевой функцией, функцией предпочтения - будем использовать эти термины как синонимы), которая отображает множество его действий (альтернатив) A на числовую ось . Значения этой функции позволяют сравнивать разные альтернативы. Если взять некоторые два допустимых действия, то лучшим будет то, которое приводит к большему значению функции. Следовательно, агент будет максимизировать свою полезность и производить выбор из множества выбора, которое представляет собой множество максимумов его целевой функции: . Значит, множество выбора агента зависит от его предпочтений и от того множества A, из которого он производит выбор.

Предположение, что агент производит выбор из множества выбора, то есть стремится максимизировать свою целевую функцию, называется гипотезой рационального поведения, которая заключается в том, что агент выбирает с учетом всей имеющейся у него информации наилучшую с его точки зрения допустимую альтернативу, то есть ту альтернативу, на которой достигается максимум его целевой функции.

Описывая модель поведения управляемого субъекта, зная, что управление - некоторое воздействие на него, в рамках этой модели видно, что воздействовать на субъекта можно, влияя на его целевую функцию (мотивационное управление) и влияя на то множество, из которого он делает выбор (институциональное управление).

Пример 2.1. Пусть агент - промышленное предприятие - осуществляет выбор своего действия - объема производимой им продукции , где y _max - максимально возможный при заданных ограничениях (технологических и др.) объем производства. Продукция предприятия продается по цене >0 за единицу, а производство требует затрат y ² / 2 r, где r >0 - эффективность производства. Целевая функция предприятия (его прибыль) равна разности между доходом от продаж и затратами:

f (y) = y-y²/2r.

Если предприятие стремится производить продукцию в объеме, максимизирующем его прибыль, то оно выберет действие

Оптимальное действие предприятия зависит от: рыночной цены , эффективности производства r и технологических ограничений y_max. • (Символ «.» здесь и далее обозначает окончание примера, доказательства и т.д.)

Приведенная модель принятия решений простая, даже, наверное, слишком простая, и в жизни редко бывает так, что выбор субъекта однозначно определяет его выигрыш - иногда вмешиваются какие-то факторы, которые субъекту, принимающему решения, не подконтрольны. Попробуем учесть их в модели следующим образом: пусть существует неопределенный фактор - состояние природы. Предпочтения субъекта (агента) зависят от того, что выбирает он сам, и от этого состояния природы, то есть предпочтения определены на декартовом произведении множества допустимых действий и множества возможный состояния природы, а целевая функция отображает это декартово произведение в числовую ось: .

Записать такую же простую формулу, как и для предыдущего случая, для такой целевой функции нельзя, потому что, если агент будет выбирать действие, максимизирующее его целевую функцию, то максимум будет зависеть от того, какое значение принимает состояние природы. Для того чтобы описать принятие решений в условиях неопределенности, нужно ввести новую гипотезу - гипотезу детерминизма: субъект, принимая решение, стремится устранить неопределенность и принимать решения в условиях полной информированности. Для этого он должен перейти от целевой функции, зависящей от неопределенных факторов, к целевой функции, которая зависит только от того, что он может выбрать сам.

Здесь возможны следующие варианты:

1) Подстановка какого-то конкретного значения состояния природы в целевую функцию и поиск максимума f (y, ) по y. Но не всегда просто ответить на вопрос – а какое конкретное значение надо подставлять.

2) Предположим, что агент – пессимист и считает, что реализуется наихудшее состояние природы. Такой принцип принятия решений называется принципом максимального гарантированного результата и заключается в следующем: действие агента будет доставлять максимум его целевой функции при условии, что он рассчитывает на наихудшее для себя значение неопределенного параметра. Тогда он вычисляет сначала минимум по состоянию природы, а потом максимум по своему действию:

Преимущества данного принципа принятия решений: он дает оценку снизу значения целевой функции (если подставить действие агента в его целевую функцию, то меньше данного значения он не получит), то есть это – точка отсчета снизу. Он плох своей крайней пессимистичностью, так как, если природа не настроена против лица, принимающего решения (ЛПР), то вычисление минимума может дать сильно заниженную оценку.

3) Естественно, можно использовать и другую крайность – крайний оптимизм. То есть, рассчитывать на то, что природа к ЛПР благосклонна, и «выбирает» свое «действие», которое наиболее благоприятно для ЛПР. Тогда следует выбирать максимум целевой функции при условии реализации наилучшего состояния природы:

Такой принцип принятия решений называется критерий оптимизма: он дает оценку сверху. Этим он хорош, но этим он и плох. Крайний оптимизм, как и крайний пессимизм, в жизни редко встречаются!

Возможны любые комбинации этих критериев, можно брать их линейную свертку, то есть, балансировать между оптимизмом и пессимизмом.

Предположим теперь, что появилась дополнительная информация о значении неопределенного параметра , принадлежащего множеству . Пусть известно распределение вероятностей p () на этом множестве (соответствующая неопределенность называется вероятностной), тогда логично использовать это знание, и устранять неопределенность следующим образом: имеется целевая функция, зависящая от действия агента и значения неопределенного параметра. Взяв математическое ожидание по известному распределению, получим функцию ожидаемой полезности (ожидаемой с точки зрения математического ожидания) .

Теперь, устранив неопределенность взятием математического ожидания, снова получили детерминированную модель. Можно максимизировать функцию ожидаемой полезности, зависящей только от действия, выбором этого действия.

Пример 2.1. Предположим, что в условиях примера 2.1 ограничения на объем производства отсутствуют , а относительно будущего значения рыночной цены имеется неопределенность: . Обозначим - значение цены продукции предприятия, которое сложится на момент продажи.

В соответствии с принципом максимального гарантированного результата предприятие должно ориентироваться на цену (так как именно это значение минимизирует его целевую функцию f (y) = y-y²/2r). Выбирая действие , предприятие получит прибыль .

Действуя в соответствии с критерием оптимизма, предприятие будет рассчитывать на максимальную цену, выберет действие и получит прибыль

Если бы предприятию априори была известна рыночная цена , то есть если бы неопределенность отсутствовала, то оно бы выбрало действие и получило бы прибыль .

Если бы имела место вероятностная неопределенность - предприятию было бы, например, известно, что цена равномерно распределена на отрезке , то, вычисляя математическое ожидание , оно выбрало бы действие и получило бы прибыль

Видно, что наличие неопределенности приводит к снижению прибыли предприятия по сравнению со случаем полной его информированности. Например, пусть r =1, , , . Тогда

; ; ; .

Возможны и другие способы устранения неопределенности. Можно рассчитать риск - например, вероятность того, что значение целевой функции окажется меньше, чем заданное. И этот риск минимизировать, то есть использовать не первый момент распределения, а дисперсию и другие характеристики. Подходы могут быть разные, главное - устранить зависимость от неопределенного параметра, что необходимо в силу гипотезы детерминизма, которая требует, чтобы неопределенность была устранена (с учетом всей имеющейся информации!), а потом решения принимались в условиях полной информированности.

Возможна другая информация - могут быть известны значения функций принадлежности для состояний природы (нечеткая неопределенность).

Будем усложнять ситуацию дальше. Мы начали с того, что была функция, зависящая только от действия агента, потом добавили неопределенность в виде параметра, описывающего внешнюю среду. Но агент взаимодействует с другими агентами, а значит, необходимо уметь описать это взаимодействие. Такими описаниями занимается теория игр.

Элементы теории игр

Теория игр описывает игру - такое взаимодействие субъектов, что выигрыш каждого из них в общем случае зависит от действий всех.

Формализуем эту ситуацию. Пусть задано множество игроков N = {1,2,..., n }. i -ый игрок выбирает действие y_i из множества своих допустимых действий , . Действия всех игроков называются ситуацией игры: y = (y₁,...,y_n). Целевая функция i -го игрока зависит от вектора действий всех игроков y и является отображением множества, являющегося декартовым произведением множества допустимых действий всех игроков , в числовую ось. То есть каждой ситуации – комбинации действий игроков - соответствует некоторый выигрыш каждого из них. Совокупность множества игроков (агентов), целевых функций и допустимых множеств действий агентов называется игрой в нормальной форме при условии, что каждый из игроков выбирает свои действия однократно, одновременно с другими игроками и независимо (не имея возможности договариваться с ними о своих стратегиях поведения) - модель некооперативного поведения.

Рассмотрим целевую функцию i -го игрока и попробуем применить к ней гипотезу рационального поведения. Игрок рационален, i- ый игрок выбирает i -ую компоненту вектора y, и своим выбором пытается максимизировать свою целевую функцию: . Но то его действие, на котором достигается максимум его целевой функции, будет зависеть от выбора других агентов. Задача такого вида в некотором смысле бессмысленна, так как ее решением будет действие , зависящее от действий всех других игроков - его оппонентов - вектора y_-_i = (y₁,...,y_i_-1,y_i₊₁,...,y_n), который называется обстановкой игры для i -го игрока (агента).

Для того чтобы выбрать свое действие, агенту нужно знать, как будут себя вести остальные. Значит, нужно делать предположения о поведении остальных игроков. По аналогии с тем, как устранялась неопределенность в случае, когда решения принимал один субъект, здесь имеется множество игроков с так называемой игровой неопределенностью, то есть неопределенностью, порождаемой целенаправленным поведением других игроков. Каждый игрок не всегда может априори точно сказать, что сделают остальные. Рассмотрим возможные варианты.

1) Пусть i -ый игрок считает, что все остальные игроки играют против него. Это - критерий пессимизма, который соответствует тому, что есть i -ый игрок выбирает действие , где . Он считает, что остальные игроки, несмотря на свои собственные интересы, будут действовать против него, а уж выбором своего действия он будет максимизировать то, что зависит от него самого. Плох такой принцип принятия решений тем, что игрок забывает про то, что у остальных есть свои интересы, и, наверное, цель каждого игрока - максимизировать свою целевую функцию, а не «напакостить» оппоненту (это может быть частным случаем целевой функции, но, к счастью, не всегда в жизни так бывает).

Определенный выше вектор действий игроков называется максиминным, или гарантирующим равновесием. Это один из вариантов определения исхода игры. То есть, можно предполагать, что возможный вариант поведения игроков - выбор всеми гарантирующих стратегий, что реализует максиминное равновесие.

Но этот вариант не единственен. И основная проблема теории игр на сегодняшний день заключается в том, что не существует единой универсальной концепции решения игры - ее устойчивого в том или ином смысле исхода. В разных моделях используются разные предположения, которые приводят к различным концепциям равновесия. Поэтому рассмотрим некоторые другие варианты.

2) Представим себе такую ситуацию, что целевая функция i -го игрока f_i (y) достигает максимума по его действию в точке, которая не зависит от действий других игроков. Это оптимальное действие, не зависящее от обстановки, называется доминантной стратегией агента. Формально: стратегия y_i^d будет доминантной стратегией, если какая бы обстановка не складывалась, его выигрыш будет максимальным при выборе именно доминантной стратегии:

Отметим, что в обеих частях неравенства фигурирует произвольная, но одна и та же обстановка.

Если у каждого игрока существует доминантная стратегия, то совокупность доминантных стратегий называется равновесием в доминантных стратегиях (РДС) . Это - идеальная ситуация для исследователя, описывающего математическую модель. Если существует равновесие в доминантных стратегиях, то каждый из игроков принимает решение независимо. А описывать независимое принятие решений гораздо проще. Но такая ситуация встречается очень редко.

3) Гораздо чаще существует равновесие Нэша (РН). Джон Нэш, американский математик, в начале 50-х годов XX века предложил следующее: устойчивым исходом взаимодействия агентов можно считать такой вектор их действий, от которого в одиночку никому не выгодно отклоняться. Это значит, что ни один из агентов, в одиночку меняя свою стратегию на другую, не может увеличить свой выигрыш при условии, что остальные своих стратегий не меняют.

Формальное определение равновесия Нэша таково: , то есть для любого агента и для любого допустимого его действия выбор им равновесного по Нэшу действия дает ему выигрыш не меньший, чем при выборе любого другого действия при условии, что остальные игроки выбирают равновесные по Нэшу стратегии.

Пример 2.3. Рассмотрим двух агентов, представляющих подразделения некоторого предприятия. Каждый из агентов принимает решение о выборе неотрицательного объема производства. Продукция каждого из агентов продается на рынке по единичной цене. Затраты агента зависят от эффективности его производства (коэффициента r функции его затрат) и объема производства другого агента, причем чем выше объем производства оппонента, тем ниже затраты данного агента. Целевая функция i -го агента f_i (y) представляет собой разность между его доходом y_i и затратами i = 1, 2, где – известная константа, отражающая степень взаимовлияния агентов.

Дифференцируя вогнутые по соответствующим переменным y_i целевые функции i = 1, 2, приравнивая производные нулю и решая соответствующую систему уравнений относительно действий агентов, получаем равновесие Нэша игры агентов .

Видно, что с ростом степени взаимовлияния агентов их равновесные действия увеличиваются.

Отличие между изложенными подходами заключается в том, что в определении равновесия в доминантных стратегиях фигурирует произвольная обстановка, то есть доминантная стратегия - наилучшая независимо от обстановки. А стратегия Нэша - наилучшая при «нэшевской» обстановке.

Равновесие Нэша хорошо тем, что в большинстве моделей оно существует. Недостатком его является то, что оно не всегда единственно. Представьте, если есть два равновесия, то как предсказать, в каком из них окажутся агенты? Нужны дополнительные предположения.

Кроме того, равновесие Нэша не устойчиво к отклонению двух и более игроков. По определению одному агенту не выгодно отклоняться, но это не значит, что если два агента договорились и одновременно отклонились, то они не смогут оба выиграть. То есть, равновесие Нэша - существенно некооперативная концепция равновесия.

4) Помимо вышесказанного, необходимо ввести понятие точки Парето. Вектор действий агентов , принадлежащий множеству A' допустимых векторов действий, будет эффективным по Парето, если для любого другого вектора действий найдется агент такой, что значение его целевой функции будет строго меньше, чем в точке Парето .

То есть точка Парето - такая точка, отклоняясь от которой, нельзя одновременно увеличить значения целевых функций всех игроков. Идея хороша тем, что позволяет утверждать, что если мы можем сделать лучше всем, то это надо делать. Любая разумная модель должна удовлетворять эффективности по Парето. Вопрос заключается в том, как соотносятся все вышеперечисленные стратегии с эффективностью по Парето, так как хочется, чтобы результат, соответствующий индивидуальным максимумам, был бы еще эффективным для общества в целом. Оказывается, что эффективность по Парето, к сожалению, никак не соотносится ни с одной из трех концепций решения игры, изложенных выше.

Пример 2.4. Рассмотрим хрестоматийный пример со следующими целевыми функциями. Пусть каждый игрок выбирает действия из отрезка A_i =[0;1]. Выигрыш i -го агента - . Исследуем, существует ли в рассматриваемом примере равновесие в доминантных стратегиях или равновесие Нэша.

Из анализа целевой функции видно, что i -му агенту выгодно, максимизируя свою целевую функцию, выбирать максимальное значение своего действия, независимо от того, какие действия выбирают остальные агенты (производная целевой функции i-го агента по его действию строго положительна независимо от обстановки). Значит, каждый агент будет выбирать максимальное значение своего действия, то есть для него существует доминантная стратегия. Что бы не сделали остальные, он, увеличивая свое действие, выигрывает, а больше единицы он (в силу ограниченности множества его допустимых действий) выбрать не может, значит, y_i^d= 1.

Посчитаем выигрыш каждого агента от равновесия в доминантных стратегиях. Если все выбрали по единице, то каждый получил выигрыш, равный единице: f_i (y^d)=1.

Рассчитаем вектор действий, эффективный по Парето. Это - вектор нулевых действий: y_i^P= 0. Если все агенты выбирают нулевые действия, выигрыш i -го агента равен f_i (y^P)= n- 1. Невозможно увеличить выигрыш одновременно всех агентов. Если мы хотим увеличить выигрыш i -го агента и начинаем увеличивать его действие, то тем самым уменьшаем выигрыши остальных, потому что это действие входит со знаком минус в целевые функции других агентов.

Если в рассматриваемой игре участвуют три или более агентов, то, выбирая действия, эффективные по Парето, они получают строго больше, чем выбирая доминантные стратегии, так как n- 1>1 при .

Спрашивается, будет ли точка Парето точкой равновесия Нэша (ведь любое РДС является равновесием Нэша), то есть рациональным исходом с точки зрения индивидуального поведения. Если кто-то из игроков выберет ненулевую стратегию, он выиграет. Поэтому он увеличит свое действие до единицы, остальные поступят аналогично, и все скатится к ситуации равновесия в доминантных стратегиях, которая никому не выгодна, но устойчива.

Рассмотренный пример иллюстрирует, что устойчивость относительно индивидуальных отклонений никак не связана с эффективностью по Парето. Решить эту проблему можно следующим образом: если разыгрывается повторяющаяся игра, и игроки договариваются наказывать того, кто отклоняется от коллективного оптимума, то есть от равновесия по Парето, то оказывается, если наказание достаточно сильно, то каждый будет выбирать индивидуально устойчиво ту стратегию, которая выгодна для всех.

Существует другой вариант, как можно достичь того же. Если агенты равноправны, то можно принять решение назначить им начальника, который будет ответственен за то, чтобы они не отклонялись, не пытались локально увеличить свой выигрыш, а выбирали равновесие, эффективное по Парето. То есть функция начальника - предотвратить отклонения агентов от оптимума по Парето. В случае трансферабельной полезности можно даже рассчитать, сколько агенты могут выделить на содержание такого начальника (как разность между тем суммарным выигрышем, который они имели в точке Парето, и тем, что они в сумме имеют при равновесии в доминантных стратегиях). Подобные рассуждения являются одним из теоретико-игровых обоснований возникновения иерархий.

Иерархические игры. С точки зрения управления наибольший интерес представляют модели игр, в которых агенты принимают решения не одновременно, а последовательно, то есть, если имеются управляющий орган и управляемые субъекты, то сначала начальник определяет правила игры, а дальше субъекты принимают решения, исходя из этих правил. Такие игры называются иерархическими. По определению, иерархическая игра – игра с фиксированной последовательностью ходов.

Простейшая модель иерархической игры – игра двух лиц, в которой первый (делающий первый ход) игрок – центр (управляющий орган), второй игрок – агент (см. рис. 2.1).

Пусть целевая функция центра Ф (u, y) зависит от выбираемого им действия и действия агента, и целевая функция агента зависит от тех же самых переменных. С одной стороны, если не введено условие последовательности выбора стратегий, то получается игра двух лиц в нормальной форме, тогда возможно достижение равновесия Нэша и т.п.

Предположим, что ситуация такова: центр выбрал своё действие и сообщил его агенту. Соответствующая игра называется игрой Г₁ и ее исследование состоит в следующем – описать, каким образом будет вести себя агент, зная выбор центра.

Найдем множество тех действий, на которых достигается максимум целевой функции агента при фиксированном выборе центра: . Понятно, что это множество зависит от того выбора , который сделал центр. Другими словами, действие центра может интерпретироваться как «управление», так как от него зависит «состояние» агента. Если центр и агент знают целевые функции и допустимые множества друг друга, то центр может предсказать, как отреагирует агент: «если агент рационален, то в ответ на мое действие, он выберет одно из действий из множества действий, доставляющих максимум его целевой функции». Как же следует вести себя центру, чтобы побудить агента выбрать действие, нужное центру? Зная свой выигрыш Ф (u, y), который зависит от своего действия и действия агента, центр должен определить, какое действие выберет агент из известного множества P (u).

Это множество может состоять из одной точки или из нескольких. Во втором случае следует ввести определенное предположение, как поведет себя агент. Типичных предположений два: критерии оптимизма и пессимизма (см. выше). Критерий оптимизма: агенту в принципе все равно (с точки зрения значений его целевой функции), какое действие из множества P (u) выбирать. Центр может рассуждать так: если агенту все равно, какое действие выбирать, будем считать, что он выберет действие, которое выгодно мне. Это предположение соответствует принципу оптимизма в теории принятия решений (см. выше). Называется оно гипотезой благожелательности. То есть агент настроен благожелательно к центру и выбирает из множества действий, которые максимизируют его целевую функцию, то действие, которое наиболее выгодно для центра.

Если вычислить максимум функции Ф (u, y) по действию агента, то останется зависимость только от действий центра. Центр, как рациональный игрок, будет выбирать такое свое действие, которое максимизирует его целевую функцию. Значит, оптимальным «управлением» (решением иерархической игры) будет действие центра, которое доставляет максимум по множеству допустимых управлений от его выигрыша Ф (u, y), в который подставлен максимум по множеству реакций агента:

Пессимистический подход (принцип максимального гарантированного результата) – центр рассуждает так: агенту все равно, какое действие выбрать из множества P (u), поэтому я буду ориентироваться на наихудший случай. Тогда решение следующее:

Т.е., центр вычисляет минимум своей целевой функции по действию агента из множества P(u), а дальше максимизирует выбором своего действия.

Таким образом, мы получаем два различных решения игры. Первое определение решения игры называется решением Штакельберга (немецкий экономист, в 30-х годах XX века разработавший рассматриваемую модель игры). Второе решение называется решением игры Г₁.

Рассмотрим теперь игру, когда центр сообщает агенту не конкретное значение управления, а то, каким будет управление в зависимости от действия агента.

Эта ситуация моделируется игрой Г₂, которая имеет следующий вид: выбор центра является функцией от действия агента . Дальнейшая логика рассуждений аналогична предыдущей: центр может предсказать, что в зависимости от той функции, которую он назначит, агент выберет действие, которое будет максимизировать его целевую функцию, в которую подставлен выбор центра: .

Зная это, центр может решать задачу, например, такую:

Данное выражение является стандартной записью простейшей теоретико-игровой задачи управления в организационной системе.

С содержательной точки зрения задача очень простая: есть два агента, известны их целевые функции, допустимые множества, нет никакой неопределенности.

С точки зрения математики: есть функционал, следует взять минимум этого функционала по переменной, которая принадлежит множеству, зависящему от искомой функции. Потом то, что получено, нужно максимизировать выбором этой функции.

Решение игры Г₂ было найдено советским ученым Ю.Б. Гермейером, который доказал, что в случае, когда возможны побочные платежи (аддитивно входящие в целевые функции игроков), оптимальная стратегия центра состоит из двух режимов: режима поощрения (агент поощряется за выбор требуемых центру действий) и режима наказания (агент наказывается центром при выборе действий, невыгодных для последнего). Этот результат широко используется при решении задач стимулирования в организационных системах (см. лекцию 4).

Кроме того, можно построить игру Г₃, в которой центр будет сообщать агенту зависимость управления от того, как в зависимости от управления будет вести себя агент. То есть стратегия агента становится функцией, а стратегия центра является функцией от этой функции (для сравнения: в игре Г₁ имеем два скаляра, в игре Г₂ – функцию и скаляр и т.д.).

Возможно построить игру Г₄, где стратегия центра будет функцией от функции от функции от функции. То есть с точки зрения математики усложнять структуру выбираемых участниками действий можно до бесконечности, и можно строить игры любого сколь угодно большого порядка, только проинтерпретировать их будет сложно.

У игры Г₃ простая интерпретация: начальник говорит подчиненному: «Я тебе выделяю ресурс, ты сообщи мне, как ты его будешь использовать в зависимости от того, сколько ресурса получишь. А в зависимости от этого, я буду его выделять».

У Г₄ интерпретация уже сложнее. Возникает вопрос: а дает ли что-нибудь начальнику вложенность игр (рост «уровня рефлексии»). Например, выгоднее ли ему Г₁₀₆, чем Г₁₀₁₅?

Н.С. Кукушкин доказал теорему, которая утверждает, что все четные игры вида Г₂_k, где k = 1, 2, …, эквивалентны (с точки зрения выигрыша центра) игре Г₂. Все нечетные игры Г₂_k₊₁ эквивалентны игре Г₃. То есть всю бесконечную совокупность иерархических игр порядка больше трех свели к двум играм – Г₂ и Г₃. Кроме этого, было доказано, что с точки зрения центра эффективность этих игр упорядочена следующим образом: _.

Вывод из теоремы Кукушкина следующий: если центр может, то ему надо разыгрывать игру Г₂, она для него наиболее выгодная и наиболее простая. Если не может, то игру Г ₃, если не может разыграть и ее, то – Г ₁. Играть же игры порядка 4 и выше не имеет смысла никогда!

Игры и структуры. Логичным продолжением перехода от игр в нормальной форме к иерархическим играм может быть следующее рассуждение: можно усложнять структуру дальше, но на самом деле существует единая технология описания теоретико-игровых задач управления в различных структурах.

Рассмотрим основную идею, которая позволяет видеть картину целиком и следить за логикой перехода от более простых к более сложным задачам, чтобы более сложная задача могла быть декомпозирована на более простые, и не казалась чем-то необычным.

Рассмотрим следующую картинку – см. рис. 2.2. Одного субъекта (рис. 2.2а) мы описывали с точки зрения гипотезы рационального поведения (ГРП), то есть агент стремится максимизировать свою функцию полезности, выбирая действие, которое доставляет максимум этой функции. Далее мы усложнили ситуацию и рассмотрели несколько субъектов на одном уровне (рис. 2.2б). Описали это взаимодействие игрой Г ₀ в нормальной форме. Затем была рассмотрена ситуация с двумя агентами, но взаимодействующими по вертикали (рис. 2.2в). Описывается их взаимодействие игрой Г_i, где i =1, 2, 3.

Представим себе, что имеется структура «один начальник – несколько подчиненных» (рис. 2.2г). Как ее можно описать? Взаимодействие агентов, находящихся на одном уровне, можно описывать игрой Г ₀. Взаимодействие «начальник-подчиненный» описывается игрой Г_i. Тогда условно такую структуру можно представить игрой Г_i, определенной «на игре» Г ₀. То есть это – иерархическая игра, но уже не на одном субъекте, который максимизирует свою целевую функцию, а на наборе субъектов, разыгрывающих свою игру.

Далее пусть есть несколько начальников (центров) и несколько подчиненных – агентов (рис. 2.2д). В общем случае каждый связан с каждым. Как это можно отразить? На нижнем уровне агенты играют игру Г ₀. Над ними центры разыгрывают иерархическую игру Г_i, но центры в свою очередь разыгрывают на своем уровне игру Г ₀. Получим игру Г ₀(Г_i (Г ₀)).Такова конструкция: берется сложная структура и разбивается (декомпозируется) на более простые.

Можно взять более сложную структуру с более сложным взаимодействием (например, рис. 2.2е). Это будет иерархическая игра между уровнями, на горизонтальных уровнях – обычная игра и т.д. Качественно ничего не меняется, усложняется только формальная задача, идеология описания остается та же.

Лекция 2. Модели принятия решений

Поиск по сайту