Некоторые принципы подкрепления

Научение

Научение, изменение поведения, происходящее в результате приобретения опыта. В том частном случае, когда приобретение опыта – знаний, навыков, умений – определяется познавательными мотивами и целями, говорят об учении (и соответственно об обучении как процессе передачи такого опыта).

Типы научения

Ассоциативное научение. Со времен Аристотеля до наших дней основной принцип научения – ассоциация по смежности – формулируется сходным образом. Когда два события повторяются с небольшим интервалом (временн я смежность), они ассоциируются друг с другом таким образом, что возникновение одного вызывает в памяти другое. Русский физиолог Иван Петрович Павлов (1849–1936) первым занялся исследованием в лабораторных условиях свойств ассоциативного научения. Павлов обнаружил, что, хотя звук колокольчика первоначально никак не отражался на поведении собаки, однако, если он регулярно звонил в момент кормежки, через некоторое время у собаки вырабатывался условный рефлекс: звонок сам по себе начинал вызывать у нее слюноотделение. Павлов измерял степень научения количеством слюны, выделившейся при звонке, не сопровождавшемся кормежкой. Метод выработки условных рефлексов основан на использовании уже существующей связи между специфической формой поведения (слюноотделением) и неким событием (появлением еды), которое вызывает эту форму поведения. При формировании условного рефлекса в эту цепочку включается нейтральное событие (звонок), которое ассоциируется с событием «естественным» (появлением еды) настолько, что выполняет его функцию.

Психологи подробно исследовали ассоциативное научение методом т.н. парных ассоциаций: вербальные единицы (слова или слоги) заучиваются парами; предъявление впоследствии одного члена пары вызывает вспоминание о другом. Этот тип научения имеет место при овладении иностранным языком: незнакомое слово образует пару со своим эквивалентом на родном языке, и эта пара заучивается до тех пор, пока при предъявлении иностранного слова не будет восприниматься тот смысл, который передает слово на родном языке.

Инструментальное научение. Второй тип научения, тоже относящийся к основным, осуществляется методом проб и ошибок. Впервые он был систематически изучен американским ученым Э.Торндайком (1874–1949), одним из основателей психологии образования. Торндайк помещал кошку в ящик, из которого она могла выйти, только потянув за шнур, свешивавшийся с крышки. После ряда случайных движений кошка рано или поздно тянула за шнур, обычно совершенно случайно. Однако, когда ее снова помещали в ящик, она уже тратила меньше времени на то, чтобы снова потянуть за шнур, и при повторении ситуации освобождалась из ящика мгновенно. Научение измерялось в секундах, которые требовались кошке для того, чтобы совершить правильное действие. Другой пример инструментального обучения – метод, предложенный американским психологом Б.Скиннером (1904–1990). «Ящик Скиннера» представляет собой тесную клетку с рычагом в одной из стенок; цель эксперимента – научить животное, обычно крысу или голубя, нажимать на этот рычаг. Животное до начала обучения лишают пищи, а рычаг соединяют с механизмом подачи еды в клетку. Хотя сначала животное не обращает внимания на рычаг, рано или поздно оно нажимает на него и получает пищу. Со временем интервал между нажатиями на рычаг уменьшается: животное научается использовать зависимость между желательной реакцией и кормлением.

Иногда научение определенному поведению оказывается таким долгим или сложным, что животное никогда не смогло бы прийти к нему случайно. Тогда применяется метод «последовательных приближений». Не ожидая выполнения всей требуемой последовательности действий, дрессировщик выдает поощрение за что-то похожее на желательный поведенческий акт. Например, если собаку нужно научить перекатываться, ей сначала дают лакомство просто за то, что она ложится по команде. После того, как первая часть освоена, собака получает поощрение лишь при случайном выполнении нужного движения: например, после того, как ляжет, она перекатится на бок. Шаг за шагом дрессировщик добивается все более близкого соответствия желаемому поведению, по принципу детской игры «холодно – теплее – горячо». В целом, инструментальное научение очень похоже на эту игру, но роль спрятанного предмета выполняет определенный вид поведения, а роль слова «горячо» – поощрение.

Последовательные приближения к желаемому поведению применяются и при лечении тяжелых форм шизофрении, когда единственная цель – побудить пациента двигаться и разговаривать вместо того, чтобы уйти в себя и хранить молчание. Как всегда при инструментальном научении, для успешности метода необходимо найти что-то, чего пациент хочет (например, сладости, жевательную резинку или интересные фотографии). После того как обнаружена хоть какая-то реакция, следует определить, какие аспекты поведения наиболее желательны, и сделать их условием получения вознаграждения. Отметим, что к способам инструментального научения относится и наказание, но здесь зависимость возникает между нежелательным поведением и неприятным воздействием.

Последовательное научение. Некоторые виды научения требуют выполнения отдельных поведенческих актов, каждый из которых по отдельности осваивается легко, но затем они объединяются в определенную последовательность. Исследования одного из видов последовательного научения, т.н. серийного вербального научения, были начаты немецким философом и психологом Г.Эббингаузом (1850–1909). Эксперименты Эббингауза предполагали запоминание списков слов или слогов в определенном порядке и впервые продемонстрировали несколько хорошо известных законов, в частности закон, определяющий способность к запоминанию элементов последовательности. Этот закон «места в серии» гласит, что в любой последовательности легче всего запоминается ее начало, затем конец, а наиболее трудно – часть, следующая непосредственно за серединой. Эффект места в серии проявляется при выполнении любого задания такого рода – от запоминания телефонного номера до заучивания стихотворения.

Овладение навыком представляет собой другой вид последовательного научения, отличающийся от вербального тем, что заучивается последовательность не вербальных, а двигательных реакций. К какой бы области ни относился навык – спорту, игре на музыкальном инструменте или завязыванию шнурков, – овладение им почти всегда предполагает три стадии: 1) инструктирование, цель которого – определить стоящую перед исполнителем задачу и дать рекомендации по способам ее выполнения; 2) тренировка, при которой требуемые действия выполняются под контролем сознания, сначала медленно и с ошибками, потом быстрее и правильнее; 3) автоматическая стадия, когда поведенческие акты протекают гладко и требуют все меньше и меньше осознанного контроля (примерами автоматического навыка служат завязывание шнурков, переключение передач в автомобиле, ведение мяча опытным игроком в баскетбол).

Некоторые принципы подкрепления

Ряд видов научения требует подкрепления. При инструментальном научении подкреплением служат награда или наказание. В отдельных видах научения человека подкреплением является просто информация о том, правильны или нет его действия. В силу того, что в таких областях, как воспитание ребенка и психотерапия, роль подкрепления весьма велика, ряд аспектов подкрепления будет рассмотрен более подробно.

Вторичное подкрепление. В ходе ассоциативного научения некоторые сигналы, которые изначально не имели никакой ценности или не говорили об опасности, соединяются в сознании с событиями, обладающими ценностью или связанными с опасностью. Если это происходит, сигналы или события, ранее носившие нейтральный характер, начинают сами действовать как поощрение или наказание; такой процесс носит название вторичного подкрепления. Классический пример вторичного подкрепления – деньги. Животные в ящике Скиннера готовы нажимать на рычаг, чтобы завладеть специальными жетонами, обмениваемыми на пищу, или добиться того, что начнет звонить звонок, со звуком которого они приучены отождествлять появление еды. Научение, приводящее к избеганию, иллюстрирует вариант вторичного подкрепления через наказание. Животное выполняет определенные действия при появлении сигнала, который, хотя сам и не является неприятным, постоянно сопровождает какое-то неприятное событие. Например, собака, которую часто бьют, съеживается и обращается в бегство, стоит ее хозяину поднять руку, хотя в самой по себе поднятой руке ничего опасного нет. При использовании для контроля за поведением положительного и отрицательного вторичного подкрепления нет необходимости в частом фактическом поощрении или наказании. Так, когда животных дрессируют по методу последовательных приближений, подкреплением при каждой попытке обычно служит лишь щелкающий звук, который до этого регулярно сопровождал появление пищи.

Поощрение или наказание. Одна из проблем научения – не только добиться нового, желательного поведения, но и избавиться от проявлений нежелательного. Главная цель наказания – устранить имеющее место поведение, а не заменить его новым. Часто, например при воспитании детей или их обучении, возникает вопрос, что лучше: наказать за проступок или дождаться желательного поведения и поощрить ребенка. Наибольших результатов удается достичь, когда наказание сопровождает старое поведение, а награда – новое. Хотя это всего лишь общее правило, которое не может использоваться во всех случаях жизни, оно подчеркивает важный принцип: следует обращать внимание не только на само поведение – нежелательное, устраняемое при помощи наказания, и желательное, поощряемое наградой, – но и на наличие альтернативы данному типу поведения. Если требуется отучить ребенка дергать кошку за хвост, то, согласно этому принципу, необходимо не только наказать малыша, но и предложить ему другое занятие (например, игру с игрушечной машинкой) и наградить его за переключение. Если человек осваивает работу с каким-либо механизмом, инструктор должен не просто терпеливо ждать, когда тот все сделает правильно, а показать ему его ошибки.

Частичное подкрепление. Инструментальное научение с использованием поощрения – например, приучение крысы в ящике Скиннера нажимать на рычаг ради получения пищи или похвала ребенку, когда он говорит «спасибо» и «пожалуйста», – предполагает несколько видов зависимости между поведением и поощрением. Самый обычный вид зависимости – постоянное подкрепление, при котором награда выдается за каждую правильную реакцию. Другой вариант – частичное подкрепление, предлагающее поощрение только при некоторых правильных реакциях, скажем в каждом третьем случае желаемого поведения, или в каждом десятом, или при его первом проявлении каждый час или каждый день. Воздействие частичного подкрепления важно и представляет большой интерес. При частичном подкреплении для освоения желаемого поведения требуется больше времени, но результаты оказываются гораздо более стойкими. Сохранение эффекта особенно заметно, когда поощрение прекращается; такая процедура называется «угасанием». Поведение, освоенное при частичном подкреплении, сохраняется надолго, а освоенное при постоянном подкреплении быстро прекращается.

Перенос и интерференция

Научение определенному типу поведения редко происходит изолированно. Чаще имеет место сходство между теми ситуациями, в которых осваиваются разные типы поведения, или сходство между самими типами поведения. Когда, например, сходны между собой два последовательных учебных задания, выполнение первого из них облегчает выполнение второго; такой эффект называют «переносом». Положительный перенос возникает в том случае, если освоение первого умения помогает в освоении второго; например, научившись играть в теннис, человек легче научится играть в бадминтон, а ребенок, умеющий писать на доске, легче освоит письмо ручкой на бумаге. Отрицательный перенос происходит в противоположных ситуациях, т.е. когда освоение первой задачи мешает научиться выполнять вторую: например, неправильно запомнив имя нового знакомого, труднее выучить правильное имя; умение переключать передачи в автомобиле одной марки может затруднить пользование автомобилем другой марки, где все рычаги расположены иначе. Общий принцип заключается в следующем: положительный перенос возможен между двумя видами деятельности, если второй из них требует такого же поведения, как и первый, но в иной ситуации; отрицательный перенос возникает при освоении нового способа поведения взамен прежнего в той же ситуации.

Отрицательный перенос представляет особый интерес. При его экспериментальном изучении используют «угасание», т.е. процедуру, когда поощрение прекращается. Хотя такие опыты обычно проводятся для того, чтобы проследить за исчезновением ранее подкрепляемого поведения, они позволяют придти к выводу, что последнее всегда замещается новым поведением – пусть даже всего лишь бездействием. Широко исследовалась также т.н. вербальная интерференция, суть которой в том, что новый словесный материал хуже запоминается из-за наложения другого, уже известного материала того же рода; в таких случаях задача ассоциативного научения – сформировать новую ассоциацию к слову или предмету, уже с чем-то ассоциирующемуся (например, когда от испытуемого требуется запомнить, что по-французски его любимец называется chien, а не собака). Наконец, в психотерапии существует метод противообусловливания, в соответствии с которым пациентов, страдающих навязчивым страхом (фобией), обучают расслабляться при виде предмета, вызывающего страх, или чего-то, что его символизирует. Так, пациент, боящийся змей, сначала обучается методу глубокой релаксации, а затем его постепенно приучают во время расслабления думать о змеях, заменяя существовавший ранее страх спокойным поведением. Во всех таких ситуациях, когда возникают две интерферирующие реакции, выраженность конфликтующих типов поведения отчетливо зависит от времени, истекшего с момента их освоения. Если оценивать успех немедленно после того, как было освоено новое задание – либо в серии экспериментов без поощрения, либо путем неоднократного называния собаки словом chien или повторяющегося сочетания релаксации с представлением о змее, – второй тип поведения оказывается доминирующим. Однако, если возникает перерыв в тренировках, вновь проявляется первый тип поведения. Например, если человек, старательно упражняясь, научился наконец переключать передачи в новом автомобиле, где рукоятки расположены иначе, чем в старом, то недельный перерыв приведет к восстановлению прежней привычки и ошибкам в применении нового навыка. Периодические тренировки поведения нового типа раз от раза уменьшают вероятность рецидивов, но, поскольку прежние действия ни при каких условиях не искореняются совсем, некоторые специалисты склонны считать, что изначальное научение никогда полностью не стирается, и новые реакции лишь доминируют над старыми.

Некоторые принципы подкрепления

Поиск по сайту