Постановка задачи стимулирования

Содержательная интерпретация мотивационного управления – задача стимулирования. Несмотря на то, что под мотивацией в общем случае понимается и материальная, и моральная сторона: поощрения, побуждения и т.д., к сожалению, формальных моделей того, как человек реагирует на моральное вознаграждение, на сегодняшний день почти нет. А математическая модель желательна для того, чтобы предсказывать поведение человека как реакцию на вознаграждение. Зато имеется модель материального воздействия. Можно строить аналогично и модели морального стимулирования. Но, если при построении модели материального стимулирования мы вводим вполне реальные предположения (например, предприятие стремится максимизировать прибыль), то при построении моделей морального стимулирования мы должны говорить, предположим, что на такие-то стимулы субъект будет реагировать так-то, а на такие-то – так-то. Это предположение обосновать уже сложно. Модели морального стимулирования более уязвимы для критики, а психология сегодня не дает нам должной основы. Поэтому будем описывать материальное стимулирование.

Рассмотрим систему, состоящую из одного центра (руководителя, начальника, заказчика) и одного агента (подчиненного, исполнителя), то есть приведенную на рис. 2.1 (или рис. 2.2в).

Агент выбирает действие . Содержательная интерпретация действия: отрабатываемые часы, объем выпускаемой продукции. Начальник выбирает управление, то есть зависимость вознаграждения агента от выбираемого последним действия. Эта зависимость называется функцией стимулирования. Модель организационной системы будем описывать по тем компонентам, которые перечислены в первой главе (состав, структура, целевые функции, допустимые множества, информированность, порядок функционирования). Состав: центр, агент. Структура двухуровневая: начальник - подчиненный (центр - агент). Центр выбирает стимулирование, агент выбирает действие. Допустимые множества: множество допустимых действий - положительная полуось: часы, штуки, килограммы и т.п. Функцию стимулирования будем считать неотрицательной и, когда это необходимо, дифференцируемой.

Целевая функция центра представляет собой разность между функцией дохода H(y) (от деятельности подчиненного начальник получает доход (например, «продает на рынке» то, что произвел подчиненный)) и стимулированием , которое выплачивается подчиненному:

Целевая функция агента: то стимулирование, которое он получает, минус его затраты:

где c (y) - функция затрат агента.

Предположим, что функция дохода неотрицательна при любом действии y и принимает максимальное значение при :

Относительно функции затрат предположим, что она неотрицательна, неубывающая и в нуле равна нулю: . Последние два предположения не очень существенны с формальной точки зрения, но ноль - хорошая точка отсчета. Содержательная интерпретация: выбор агентом действия, равного нулю, то есть отказ от работы, соответствует нулевому объему работ. Логично взять и точку отсчета затрат, равной нулю.

Сформулируем задачу управления: агент будет выбирать действия из множества тех действий, которые обеспечивают максимум его целевой функции: . Это – игра Г₂ с побочными платежами (см. раздел 2.1). Реакция агента на управление - это множество тех действий, на котором достигается максимум целевой функции как разности между вознаграждением и затратами. Центр может предсказать поведение агента, следовательно, целевая функция центра зависит от действий и вознаграждения агента. Центр вычисляет минимум из всех действий агента по множеству всех действий, на которых максимальна целевая функция агента (это соответствует принципу максимального гарантированного результата), и дальше центр хочет максимизировать эту величину выбором функции стимулирования, то есть выбором зависимости вознаграждения от действий агента: . С формальной точки зрения даже при конкретном виде целевой функции задача получается сложная. Но можно сначала угадать решение, а потом доказать его оптимальность.

Утверждение 4.1. Предположим, что использовалась некоторая система стимулирования , такая, что при ее использовании центром агент выбирал действие . Если взять другую систему стимулирования , которая равна нулю всюду, кроме точки х, и равна старой системе стимулирования в точке х, то и при новой системе стимулирования это же действие агента будет доставлять максимум его целевой функции.

То есть, если центр использует некоторую систему стимулирования, и агент выбирает действие х, то центр говорит: «я меняю систему стимулирования и буду платить по-другому: вознаграждения не будет нигде, кроме точки х, а за эту точку я буду платить по-старому» (см. рис. 4.1), то агент по-прежнему будет выбирать старое действие: , где

Приведем формальное доказательство утверждения 4.1. Условие того, что выбор действия x доставляет максимум целевой функции агента при использовании системы стимулирования можно записать в следующем виде: разность между стимулированием и затратами будет не меньше, чем при выборе любого другого действия: .

Теперь заменим систему стимулирования системой стимулирования , тогда получим следующее: в точке x система стимулирования по-прежнему равна системе стимулирования . В правой части записана система стимулирования , которая равна нулю при :

Если выполнялась первая система неравенств, то выполняется и новая система неравенств, так как в ней ослабили правую часть - если разность между доходом и затратами составляет положительное число, то тем более она будет больше, чем ноль минус затраты. Следовательно, . Таким образом, утверждение 4.1 доказано.

С помощью утверждения 4.1 исследуем следующую ситуацию. Пусть центр использует некую систему стимулирования со сложной зависимостью вознаграждения агента от его действий. Утверждение 4.1 гласит, что центру достаточно воспользоваться классом систем стимулирования, в которых стимулирование отлично от нуля в одной точке. То есть центр может использовать систему стимулирования, которая называется квазикомпенсаторной и имеет следующий вид:

Итак, для любой сложной системы стимулирования найдется компенсаторная система стимулирования, которая приведет к тому же выбору агента (то есть ничего не изменится ни для центра, ни для агента). Но ситуация существенно упростится с точки зрения сложности задачи стимулирования, и понимания агентом того, как и за что его стимулируют. Представьте, начальник говорит, что система стимулирования представляет собой «логарифм тангенса в квадрате», ни один подчиненный этого не поймет. Гораздо проще будет, если ему скажут: «Давай подпишем контракт: тебе нужно выбрать такое действие, за него ты получишь вот столько, если выберешь другое, то ничего не получишь». Просто и понятно с точки зрения практики, а что это значит с точки зрения математики? Мы свели задачу поиска функции, принадлежащей множеству всех положительно значных дифференцируемых функций, к задаче поиска двух чисел: действия х и вознаграждения , которое надо платить за выбор именно этого действия. Два числа найти проще, чем функцию!

Гипотеза благожелательности. Рассмотрим целевую функцию центра. Стимулирование агента входит в нее со знаком «-», то есть вознаграждение агента центр старается минимизировать (желательно чтобы подчиненный работал за минимально возможную оплату).

С точки зрения агента - наоборот. При фиксированных затратах он хотел бы получить побольше.

Но, несмотря на желание агента, имеется иерархия - решения первым принимает центр. Поэтому центр должен рассуждать так: сколько как минимум надо заплатить агенту за некое действие, чтобы он согласился его выполнить. Понятно, что центр должен «работать» на кривой затрат агента, то есть должен сказать агенту: «Ты выбираешь такое-то действие, я тебе за него компенсирую затраты. А за любое другое действие я тебе ничего не заплачу».

Компенсаторная система стимулирования принимает следующий вид: величина должна быть равна затратам агента, быть может, плюс еще что-то . С точки зрения центра величину надо сделать минимальной, то есть:

Целевая функция агента изображена на рис. 4.2. К затратам, изображенным со знаком минус, добавляется следующая система стимулирования: в точке х центр выплачивает вознаграждение , а во всех остальных точках стимулирование равно нулю.

Вычитая из положительного стимулирования затраты, получаем, что целевая функция агента имеет следующий вид - жирная линия на рис. 4.2. Она всюду равна отрицательным затратам, кроме точки х. В точке х она равна величине .

Определим значение . Оно должно быть минимальным с точки зрения центра. А дальше - ее значение зависит от того, как формулируется задача.

Если предполагается, что агент благожелательно относится к центру и готов среди двух точек, имеющих одинаковую для него предпочтительность, выбрать точку, наилучшую для центра, то достаточно положить константу равной нулю. Тогда, если , то точка максимума лежит на горизонтальной оси, максимум полезности агента (разности между стимулированием и затратами), равный нулю, будет достигаться в двух точках: 0 (ничего не делать) и точно такую же нулевую полезность агент получит в точке x – действии, которого хочет от него добиться центр. Во всех остальных случаях его полезность отрицательная. Множество максимумов целевой функции агентов состоит из двух точек, и, если агент благожелательно настроен к центру, то он выберет x (гипотеза благожелтельности).

Если же центр не хочет рассчитывать на благожелательность агента, а хочет гарантировать, чтобы агент выбрал какое-то действие, отличное от нуля, ему достаточно положить , равной любому сколь угодно малому строго положительному числу, чтобы значение целевой функции агента в точке x было строго больше нуля. Другими словами, характеризует «различие» между принципами пессимизма и оптимизма. Различие это невелико, так как константа может быть выбрано сколь угодно малой.

Таким образом, мы сначала перешли от системы стимулирования общего вида к системе стимулирования, зависящей от двух скалярных параметров: точки плана – то, чего хочет центр добиться от агента, и вознаграждения агента . Потом нашли значение , равное затратам агента плюс . В этот параметр для любой задачи можно «зашить» любую «моральную» составляющую, то есть его можно интерпретировать, как мотивационную надбавку. С формальной точки зрения агент выбирает точку максимума своей целевой функции, но если , его полезность равна нулю независимо от того, не работает ли он вообще или выполняет план, то есть понятно, что в этом с точки зрения практики есть что-то подозрительное, так как, если не работает – получает ноль, и если работает – получает ноль. Тогда (мотивационная надбавка) показывает, сколько обещают человеку за то, что он работает, и работает именно в данной организации. Таким образом, все внемодельные мотивационные аспекты могут быть заложены в . Какая она должна быть – эта величина – это не математиков и экономистов, дело. Этими аспектами занимаются менеджмент и психология.

Принцип компенсации затрат. Предположим, имеется функция затрат агента c (y) (см. рис. 4.3), эта функция неотрицательна, в нуле равна нулю и не убывает. Неубывание означает, что чем больше агент работает, тем больше у него затраты. Предположим, что функция дохода центра H (y) достигает максимума при ненулевых действиях агента. Это – существенное условие, так как если максимум дохода центра достигается при нулевых действиях агента, то нет и задачи стимулирования (побуждения к совершению определенных действий): зачем стимулировать агента, если максимум выигрыша центра достигается, когда агент ничего не делает.

Теперь рассмотрим эту ситуацию (см. рис. 4.3) с точки зрения центра и агента. Ноль характеризуется тем, что, если агент ничего не делает, то его затраты равны нулю, и, если центр ему за это ничего не платит, то агент получает нулевую полезность. Таким образом, оценка снизу выигрыша агента – 0: ничего не делает, ничего не получает. Значит, агент согласится что-то делать, если вознаграждение, которое будет платить ему центр, будет не меньше, чем его затраты. Таким образом, имеется ограничение: вознаграждение должно быть не меньше затрат агента. Значит, агента устраивают все точки на рис. 4.3, которые лежат выше функции затрат c (y).

С точки зрения центра: центр может получить какую-то полезность в случае нулевого действия агента, то есть если он ничего ему не платит. И он точно не заплатит агенту больше, чем доход, который он получает от деятельности агента. То есть с точки зрения центра допустимыми являются комбинации действий и вознаграждений, расположенные ниже функции дохода центра H(y) (см. рис. 4.3).

Так как центр стремится минимизировать выплаты агенту при условии, что последний выбирает требуемое действие, оптимальная точка в рамках гипотезы благожелательности должна лежать на нижней границе области, заштрихованной на рис. 4.3, то есть стимулирование в точности должно равняться затратам агента. Этот важный вывод получил название «принцип компенсации затрат». В соответствии с этим принципом, для того чтобы побудить агента выбрать определенное действие, центру достаточно компенсировать затраты агента.

Пересечение этих двух областей (выплат, бóльших затрат агента и меньших дохода центра) дает нам некоторую область. Формально множество реализуемых действий — множество таких действий агента, что доход от его деятельности не превосходит его затраты. Совокупность множества действий S и вознаграждений за эти действия, устраивающих одновременно и центра и агента (то есть размер вознаграждения должен быть не меньше затрат агента и не больше дохода центра) называется областью компромисса. Она заштрихована на рис. 4.3.

Принцип декомпозиции и принцип агрегирования. Мы рассмотрели простейшую систему, состоящую из одного центра, из одного агента. Теперь усложним задачу. Рассмотрим систему, состоящую из нескольких агентов, подчиненных одному центру. То есть, от структуры, приведенной на рис. 2.2в, перейдем к простейшей веерной структуре - см. рис. 4.4 (и рис. 2.2г).

Предположим, что затраты каждого агента зависят не только от его собственных действий, но и от действий других агентов. Соответственно вознаграждение будет зависеть от действий всех агентов.

Есть параметр – план, и агенту платят в зависимости от выбранного им действия. Понятно, что не следует ничего платить, если агент выбирает действие, не равное соответствующей компоненте плана. Сколько ему нужно платить, если он выбирает действие, совпадающее с планом? Ему нужно платить что-то «около» его затрат, но затраты каждого агента зависят от действий всех агентов. Следует помнить, что следует платить так, чтобы агент выполнял план. Оказывается, нужно компенсировать агенту его затраты в случае, если он сделал то, что нужно, независимо от действий, выбранных другими агентами. В этом заключается принцип декомпозиции (см. раздел 4.3).

Рассмотрим ситуацию, когда центр не может наблюдать действие каждого агента в отдельности, а может наблюдать лишь некий агрегат – результат деятельности всего коллектива в целом. Какова должна быть система стимулирования в данном случае. Оказывается, что если центр может определить минимальные затраты, которые должны понести все агенты для достижения какого-либо общего результата, то эффективная система стимулирования будет иметь следующий вид – каждому агенту компенсируются его минимальные затраты, при условии, что результат коллективной деятельности удовлетворяет требованиям центра. Более того, оказывается, что центр не несет никаких потерь, не наблюдая индивидуальные действия каждого агента. То есть, для построения эффективной системы стимулирования не обязательно наблюдать индивидуальные действия каждого из агентов, достаточно лишь знать результат их общей деятельности и уметь вычислять минимальные затраты агентов на его достижение. В этом заключается принцип агрегирования..

Постановка задачи стимулирования

Поиск по сайту