Вопрос. Оперантное обусловливание: научение через поощрение и наказание
Вообразите себя в роли шеф-повара, работающего в компании общественного питания, где вы занимаетесь планированием специального меню для капризного клиента. Если ваше меню будет принято, а блюда попадут «в точку», компанию ожидает хорошая возможность получения большого нового заказа. Вы упорно работаете, прикладывая максимум своих усилий, и представляете свой плод кулинарного воображения на суд скептическому клиенту. Каков же финал этой истории? Если клиенту придется по душе ваше блюдо, ваш благодарный босс поощрит вас серьезным повышением. Однако если у клиента блюдо вызовет отвращение, ваш босс предложит вам расстаться с вашим колпаком шеф-повара. Независимо от того, какое из продолжений последует, одна вещь бесспорна: что бы вы ни сделали в данной ситуации, вы будете уверены, что сделаете это снова, если это привело к успеху, и не повторите этого, если это привело к неудаче. Данная ситуация хорошо иллюстрирует важный принцип оперантного обусловливания (известного также как инструментальное обусловливание), а именно: наше поведение имеет свои последствия, и то, как мы поведем себя в будущем, зависит от того, каковы эти последствия.
Оперантное обусловливание — форма научения, при которой люди соотносят последствия своих действий с самими действиями. Поступки с позитивными последствиями люди добавляют к набору приемлемых действий; поступки с отрицательными последствиями стараются из него исключить.
Если наши действия привели к приятным результатам, тогда мы, вероятно, будем повторить их в дальнейшем. Если же наши действия привели к неприятным результатам, едва ли мы станем по вторять их в будущем.
Это явление, известное как закон результата, — основополагающее для опе-рантного обусловливания. Наши представления об этом явлении идут от работы известного ученого Б.Ф. Скиннера (В.Р. 8ктпег)39. Он впервые продемонстрировал, что именно благодаря связи между нашими поступками и их последствиями мы учимся тому или иному образу действий. В обобщенном виде данный процесс показан на илл. 2.8
Инструментальное обусловливание См. оперантное обусловливание.
Закон полученного результата — тенденция закрепления поведения,ведущего к желаемым последствиям,и ослабления поведения, ведущего к нежелательным последствиям.
Ситуации подкрепления. Оперантное обусловливание основывается на идее, поведение осваивается вследствие приятных последствий, которые мы с ним соотносим. К примеру, люди в организациях часто находят приятным и желаемым получение денежных вознаграждений, оплачиваемого отпуска и различных форм признания. Процесс, посредством которого люди научаются совершать поступки, которые приводят к таким желаемым последствиям, известен как позитивное подкрепление. Любое поведение, которое привело к таким позитивным последствиям, имеет тенденцию к повторению, подкрепляющему таким образом данное поведение.
Позитивное подкрепление — процесс,посредством которого люди научаются поведению, ведущему к желаемым результатам.
Так, например, если торговый представитель награждается премией после удачной торговой сделки, эта премия будет подкреплять действия этого человека только в том случае, если она соотносится с фактом этой выгодной сделки. Если это происходит, индивидуум с большей вероятностью будет стремиться к совершению каких-либо действий, способствующих привлечению очередного крупного платежа.
Также мы научаемся иногда выполнению некоторых действий, поскольку они позволяют нам избежать нежелательных последствий. Неприятные события, такие, как выговор, отказ, испытательный срок или увольнение, являются примерами последствий, вытекающих из каких-либо негативных действий на рабочем месте.
Илл. 2.8. Процесс оперантного обусловливания: обзор
Исходной предпосылкой оперантного обусловливания является то, что люди научаются, устанавливая взаимосвязи между последствиями своего поведения и самим поведением. В данном примере оценка руководителя усиливает стремление подчиненных к надлежащему выполнению работы в будущем. Научение происходит за счет обусловливания соответствующих событий прошлого и их последствий.
Этапы процесса оперантного обусловливания
События прошлого
(условия, определяющие-поведени)
Поведение
(совершаемые действия)
Последствия
(резултаты поведения)
Пример процесса оперантного обусловливания
Руководитель демонстрирует подчиненному, как необходимо выполнять работу
Работник выполняет работу надлежащим образом
Руководитель хвалит работника
Процесс, посредством которого люди научаются совершать поступки, ведущие к избежанию подобных негативных последствий, известен как негативное подкрепление, или избежание.
Негативное подкрепление — процесс, посредством которого люди научаются совершать поступки, помогающие избежать нежелательных событий.
Избежание- См. негативное подкрепление.
Любая реакция, ведущая к устранению подобных нежелательных событий, имеет тенденцию повторяться, подкрепляя тем самым эту реакцию. Например, однажды вечером вы можете задержаться в офисе для корректировки торговой презентации, поскольку полагаете, что шеф вас «съест заживо», если она не будет готова к утру. Вы научились тому, как избегать неприятную ситуацию такого типа. и будете вести себя сообразно приобретенному опыту. До сих пор мы останавливались на поведенческш реакциях, подкрепляющих поведение, поскольку они либо ведут к позитивным последствиям, либо к избежанию негативных. Однако связи между поведением и его последствиями не всегда бывают подкрепляющими — такие связи также могут быть и ослабляющими. Именно так происходит в ситуации наказания.
Наказание — ослабление негативного поведения из-за нежелательных последствий.
Наказание подразумевает нежелательные или крайне негативные последствия в ответ на неуместное поведение. Поведение, сопровождаемое нежелательным результатом, гораздо с меньшей вероятностью повторится, если личность связывает возникающие негативные последствия с этим поведением. Например, если шеф наказал вас за чрезмерно продолжительные перерывы на кофе, вы можете предполагать наказание за эти действия. В результате маловероятно, что вы будете продолжать длительные перерывы в дальнейшем.
Связь между поведением и его последствиями также может быть ослаблена непредоставлением вознаграждения. Такой процесс известен как угасание. Если поведенческая реакция однажды была вознаграждена и больше не вознаграждается, то она склонна ослабевать и со временем отмирать, или угасать.
Угасание —• процесс, в котором не подкрепляемая более поведенческая реакция имеет тенденцию к постепенному уменьшению своей силы.
Давайте рассмотрим такой пример. Предположим, что в течение нескольких месяцев на еженедельные собрания персонала компании вы для всех приносили пончики. Уничтожая пончики, ваши коллеги всегда благодарили вас. Их одобрение воодушевляло вас, и вы продолжали приносить им пончики. Потом, после нескольких месяцев питания пончиками, ваши коллеги сели на диету. В результате, оставаясь по-прежнему соблазнительными, пончики оказывались не съеденными. Несколько месяцев отсутствия похвал за вашу щедрость, вероятно, умерят ваш энтузиазм в снабжении коллег пончиками. Когда-то вознаграждаемое похвалой, теперь ваше поведение обречено на отмирание и угасание.
Различные взаимосвязи между поведением человека и вытекающими из него последствиями — позитивное подкрепление, негативное подкрепление, наказание и угасание - все вместе известны как ситуации подкрепления.
Ситуации закрепления результата — различные взаимосвязи между поведением человека и вытекающими из него последствиями, которыми служат позитивное подкрепление, негативное подкрепление, наказание и угасание.
Они описывают условия, при которых вознаграждение и наказание будут либо зафиксированы, либо отвергнуты. Четыре рассмотренные нами ситуации закрепления результата обобщены в таблице 2.3. Как мы убедимся далее в этой главе, регулирование этих ситуаций может служить эффективным инструментом управления человеческим поведением в организации.
ТАБЛИЦА 2.3. СИТУАЦИИ ЗАКРЕПЛЕНИЯ РЕЗУЛЬТАТА: ОБЗОР
Можно выделить четыре ситуации подкрепления результата, демонстрирующие предъявление или устранение приятных или неприятных воздействий. Позитивно или негативно подкрепленное поведение усиливается, в то время как наказанное или погашенное ослабляется.
ПРЕДЪЯВЛЕНИЕ ИЛИ УСТРАНЕНИЕ СТИМУЛА | ЖЕЛАТЕЛЬНОСТЬ СТИМУЛА | НАЗВАНИЕ СИТУАЦИИ | ИНТЕНСИВНОСТЬ РЕАГИРОВАНИЯ | ПРИМЕР |
Предъявление | Приятные | Положительное подкрепление | Усиление | Похвала руководства поощряет продолжение одобренного поведения |
Неприятные | Наказание | Ослабление | Критика со стороны руководителя препятствует продолжению не получившего одобрения поведения | |
Устранение | Приятные | Угасание | Усиление | Прекращение похвал за полезный поступок снижает шансы на содействие в будущем |
Неприятные | Отрицательное подкрепление | Ослабление | Избежанию будущей критики способствует поведение в соответствии с желаниями руководителя |
Режимы подкрепления: схемы управления вознаграждениями.
До сих пор в нашем обсуждении вопроса, будет ли награда предоставлена или в ней будет отказано, предполагалось, что предъявление или устранение последуют в каждом случае проявления поведения. Однако не всегда это практически осуществимо (и, как мы увидим далее, целесообразно). Также необходимо принимать во внимание то, когда именно следует подкреплять поведение. Правила управления сроками и частотой поощрения поведения известны как режим подкрепления.
Режимы подкрепления — правила управления сроками и частотой подкрепления поведения.
Вознаграждение каждой желаемой поведенческой ракции называется непрерывным подкреплением.
Непрерывное подкрепление —сценарий закрепления результата, при котором подкрепляются все желательные поступки.
В отличие от животных, демонстрирующих цирковые трюки, людей на работе редко поощряют постоянно. Напротив, в управлении организационным вознаграждением склоняются к сценариям последовательного частичного подкрепления (известного также как прерывистое подкрепление). Это значит, что для поощрения каких-то желаемых поведенческих откликов при игнорировании других вознаграждение предоставляется с управляемыми перерывами.
Частичное подкрепление — режим
закрепления результата, при котором поощряются только некоторые из желательных поступков. Виды такого подкрепления включают в себя режимы с фиксированным интервалом, с вариативным интервалом, подкрепление с постоянным соотношением и с переменным соотношением.
Четыре разновидности режимов частичного подкрепления имеют свое прямое применение в организации40 Это: режимам с фиксированным интервалом, режим с вариативным интервалом, режим с постоянным соотношением и режим с вариативным соотношением.
Режимы с фиксированным интервалом — режимы подкрепления результата, при которых между фактами поощрения поведения должны проходить фиксированные промежутки времени.
К режимам с фиксированным интервалом относятся те, при которых закрепление поведения проводится через определенные интервалы времени после первого случая желательного поведения. Например. практика выдачи чеков заработной платы по пятницам в 3 часа дня является примером сценария с фиксированным интервалом, поскольку вознаграждение осуществляется регулярно и систематически. Сценарии с фиксированным интервалом не особенно эффективны для поддержания желаемого поведения. Например, работники, которые заранее знают, что их босс проходит мимо их рабочего места каждый раз в 11.30 утра, обязательно позаботятся о том, чтобы усиленно трудиться именно в это время. Однако если босса, который может похвалить их, нет поблизости, они, напротив, могут трудиться не столь усердно или пораньше уйти на обед, понимая, что их усилия не будут вознаграждены положительной оценкой, а наказания за то, что они не работают, не последует.
Режимы с вариативным интервалом — режимы закрепления результата, при которых между фактами поощрения поведения должно проходить переменное количество времени (основанное на некотором среднем значении).
К режимам с вариативным интервалом относятся те, при которых промежутки между поощрениями должны соответствовать меняющимся отрезкам времени (основанным на некоторых средних значениях). Например, банковский аудитор может наносить неожиданные визиты в офисы филиалов в среднем 1 раз в полтора месяца (это значит, что может пройти четыре недели с даты последнего визита, а в следующий раз может пройти восемь недель). Об аудиторе можно сказать, что он пользуется режимом подкрепления с вариативным интервалом. Поскольку менеджеры банка не могут сказать наверняка, когда возможна следующая проверка их отделения, они не могут позволить себе расслабиться. Ведь следующая проверка может случиться раньше, чем они предполагают! Неудивительно, что режимы с вариативными интервалами обычно являются более эффективными, нежели фиксированные.
Режимы с постоянным соотношением — режимы закрепления результата, при которых в период между управлением поощрением поведения может произойти фиксированное количество поведенческих реакций.
Режимами с постоянным соотношением являются те, при которых закрепление поведения происходит после совершения определенного количества повторений первого случая желаемой поведенческой реакции. Например, представьте членов персонала по продажам, которые знают, что получат премию каждый раз после продажи товаров на $ 1000. Сразу после получения первого вознаграждения они могут ослабить свой рабочий энтузиазм. Но как только их продажи начнут приближаться к сумме в $2000 — следующему уровню получения ожидаемого вознаграждения, — интенсивность работы может снова возрасти.
Режимы с вариативным соотношением — сценарии закрепления результата,при которых в промежутке между поощрениями поведения должно произойти переменное количество поведенческих реакций (основанных на некотором среднем значении).
Режимами с вариативным соотношением считаются такие, при которых в промежутке между поощрениями поведения должно произойти переменное количество желаемых поведенческих реакций (основанных на некотором среднем значении). Хорошим примером являются люди, играющие на игровых автоматах. Большую часть времени, пока люди опускают монетки в автоматы, они проигрывают. Но после некоего количества попыток автомат платит. Поскольку игроки никогда не могут сказать наверняка, при какой общей сумме ставок они могут сорвать банк, они предпочитают продолжать свою игру в течение продолжительного времени. Как вы можете представить, режимы с вариативным соотношением могут быть более эффективными, чем режимы с постоянным соотношением.
(Вставить иллюстрации режимов из Гринберга и Бэйр. С.79)
Различные описанные нами режимы подкрепления обладают рядом существенных сходств и различий. Их мы обобщили в илл. 2.9. При ее просмотре необходимо помнить о том, что данные сценарии представляют собой «чистые» формы. На практике может одновременно сочетаться несколько режимов, образуя в результате новый комплексный вариант. Однако независимо оттого, действуют ли эти режимы по отдельности или в сочетании друг с другом, важно отметить их устойчивое влияние на поведение людей в ор-
ганизации.