Разные формы подкрепления и обучения

Формы подкрепления у высших позвоночных животных, и особенно у человека, разнообразны.

Это объясняется тем, что по мере фило‑ и онтогенетического развития все большее число стимулов из внешней среды приобретает свойства подкрепляющего фактора. В повседневной жизни человека такие формы подкрепления, особенно словесного характера, играют значительную роль, обеспечивая многообразие постоянно формирующихся многочисленных временных связей, ассоциаций и «внутренних состояний», которое делает психическую, поведенческую деятельность сложной и совершенной. Поэтому формирование ассоциаций, временных связей на осознаваемом и неосознаваемом уровнях с помощью эмоционально значимых стимулов (в частности, ключевая роль обратных связей с их мотивационно‑лимбическим звеном, важным для изменений возбудимости коры больших полушарий) должно рассматриваться в качестве важной, но далеко не единственной формы обучения. При этом у животных и прежде всего у человека существует множество других форм подкрепления, не связанных с сильными отрицательными эмоциями.

В экспериментальной психологии и в психофизиологии предложено много моделей, предполагающих лабораторное исследование роли разных форм подкрепления в осуществлении высших корковых психических функций в норме и патологии. Модель, адекватная психофизиологическим исследованиям, должна давать возможность регистрировать наряду с биоэлектрическими феноменами качественные и количественные характеристики поведенческих реакций, изучать межполушарные функциональные отношения в процессе обучения, на разных его стадиях и, что особенно важно, допускать возможность изменять информационную значимость стимула обратной связи, т.е. подкрепления.

В повседневной жизни человека начиная с раннего возраста и до конца его дней в качестве подкрепления нередко используются слова «хорошо» и «ошибка». Подобная форма подкрепления в виде таких слов или символов, их заменяющих, обычна в экспериментальных психологических и психофизиологических лабораторных исследованиях. Когда прибегают к данным стимулам обратной связи, объект получает от другого лица оценку правильности или ошибочности своей реакции. Следует отметить, что информация, содержащаяся в подобном стимуле обратной связи, неполная, так как слово «ошибка» не указывает конкретно, в чем же заключалась ошибка в решении испытуемым когнитивной задачи. При этом необходимо учитывать, что отрицательная оценка, заключающаяся в этом слове, его неопределенность, «дефицит информации» могут вызвать у человека негативную эмоцию.

Формы подкрепления типа «хорошо» – «ошибка», используемые человеком, по существу аналогичны подкрепляющим раздражителям, традиционно используемым при обучении животных, или напоминают таковые. Их можно без особого труда сопоставить с многочисленными поощряющими и запретительными сигналами‑подкреплениями у животных. Например, это поощрение пищей или наказание ударом электрического тока.

Специфически человеческой и, несомненно, важной формой подкрепления служит сознательное или бессознательное умозаключение субъекта. По крайней мере в развитом виде эта форма, по‑ видимому, присуща только человеку. В чем она заключается? Субъект приходит к умозаключению о правильности или ошибочности своей реализованной произвольной реакции, сопоставляя принятое им решение когнитивной задачи с информацией, содержащейся в наглядной и доступной форме в стимуле обратной связи; например, он сопоставляет информацию о действительных соотношениях между эталонным и тестируемым зрительными объектами или интервалами времени и т.п. В данных случаях подкреплением служит не сам по себе стимул обратной связи, а то умозаключение о правильности или ошибочности своей произвольной реакции, к которому приходит субъект каждый раз после сопоставления данной реакции с информацией, содержащейся в этом стимуле. Здесь подкреплением служит не оценка другого лица (или, например, компьютера), а именно умозаключение субъекта, когда он оценивает свою деятельность на основании дальнейшей информации, и результат такой оценки оказывается корригирующим фактором в механизме обратной связи.

Существует много моделей когнитивной деятельности, в которых используются разные формы подкрепления. В качестве примера приведем две из них, наиболее удачные при изучении динамики когнитивной функции на разных этапах обучения в зависимости от применения определенных стимулов обратной связи (форм подкрепления). В обеих когнитивная задача, предлагаемая испытуемому для решения, состояла в том, что он должен был путем сопоставления тестируемых зрительных стимулов с эталонным стимулом каждый раз принимать решение об их соответствии или несоответствии друг другу.

В психофизиологических экспериментах исследовалась функция различения взрослыми людьми микроинтервалов времени, т.е. величины пауз между зрительными стимулами. В качестве подкрепления использовали три типа стимулов, имеющих разное информационное значение. В одних экспериментах это были слова «хорошо» и «ошибка». Как подчеркивалось, в данном случае субъект получает оценку своей реакции извне, от другого лица. Вместе с тем такая информация неполная, поскольку слово «ошибка» не поясняет, что же оказалось не так в различении пауз. Останется неясным, переоценил или недооценил исследуемый тестируемую паузу между двумя зрительными полосками, появляющимися последовательно на экране, по сравнению с эталонным интервалом между этими же полосками, предъявляемыми в каждой пробе за 1,2 с до тестируемой паузы.

При проведении другой серии экспериментов стимулы обратной связи состояли из двух горизонтальных параллельных полосок, высвечиваемых на экране. Величина эталонной паузы равнялась 60 мс, а тестируемых – 10, 60 и 180 мс. Исследуемый, согласно предварительно получаемой инструкции, должен был в каждой пробе сравнивать тестируемую паузу между двумя полосками с эталонной и решить: больше она или меньше. О своем решении ему надо было сообщить нажатием на кнопку соответствующей рукой; если он считал, что тестируемая пауза равна эталонной, нажимать на кнопку не следовало. Правильность реакции исследуемого контролировалась компьютером, который высвечивал на экране слова «хорошо» или «ошибка».

В еще одной серии экспериментов испытуемый судил о правильности или ошибочности своего решения по соотношению длины двух горизонтальных полосок, предъявляемых на экране в качестве стимулов обратной связи: длина верхней условно изображает величину эталонной паузы, нижней – тестовых; т.е. соответственно предъявленной в пробе тестовой паузе длина нижней полоски может быть меньше верхней эталонной, равной ей или большей. Здесь используется более активная форма обучения, когда исследуемый сам должен сделать умозаключение о правильности реакции, сравнив свое решение с информацией в виде четко различимого, наглядного, представленного в графической форме изображения, показывающего соотношение между эталонным и тестируемым интервалами времени. В контрольных опытах в качестве стимула обратной связи во всех пробах независимо от правильности или ошибочности реакции исследуемого на экране высвечиваются две горизонтальные полоски одного размера.

Как и следовало ожидать, обратная связь, информирующая субъекта о результате действия, существенно улучшает процесс обучения, направленный на различение величины пауз между двумя последовательно предъявляемыми на экране световыми полосками. Это сказывается не только в увеличении числа правильных ответов, но и в значительном сокращении времени произвольной двигательной реакции, с помощью которой испытуемый сообщает о решении им когнитивной задачи. Вместе с тем наиболее выраженный эффект наблюдается в пробах, где стимул обратной связи в наглядной, графической форме показывает истинные соотношения различных интервалов времени и субъект может сделать умозаключение о правильности или ошибочности своего решения.

Разница между двумя видами подкрепления значительно больше выражена у эмоционально возбудимых акцентуированных личностей. У них дефицит обучения проявляется сильнее при такой форме подкрепления, когда действия оцениваются другим лицом (или компьютером) и результат сообщается с помощью стимулов обратной связи, например появляющихся на экране слов «хорошо» или «ошибка». Об этом говорит не только существенно меньшее число правильных решений задачи, но и больший коэффициент их вариабельности и худшая динамика обучения по сравнению с подкреплением типа «умозаключение». В последнем случае, когда испытуемому предоставляется возможность на основе соответствующей информации, содержащейся в стимуле обратной связи, самому судить о правильности или ошибочности своей реакции, лучшее обучение выражается не только в количестве правильных различений интервалов времени, но и в достоверном сокращении времени реакции по мере повторения проб.

В процессе обучения наблюдается явно латерализованный в сторону левого полушария эффект стимула обратной связи, т.е. подкрепления. Он наблюдался в опытах с оценкой интервалов времени и даже в тех исследованиях, где испытуемому нужно было решать зрительную пространственную задачу. Ему требовалось мысленно сконструировать сложную геометрическую фигуру из последовательно предъявляемых в правое поле зрения ее частей, в то время как информация «прямо» поступала в левое полушарие. Если в первые дни обучения различение пауз между двумя последовательно предъявляемыми полосками на экране или же решение зрительно пространственной задачи осуществляются эффективнее при поступлении информации в правое полушарие, то по мере тренировки эта асимметрия постепенно исчезает и даже меняет свой знак за счет лучшего «обучения» левого полушария. Такую перемену знака латерализации при тренировке, по‑видимому, можно объяснить тем, что в результате многократных повторений увеличивается участие речевых механизмов в осуществлении невербальных когнитивных функций.

Вероятно, в начале обучения человек решает когнитивную задачу (сравнение величины эталонной и тестовых пауз или конструирование в уме целой фигуры из отдельных частей по образцу эталонной) главным образом на основе образной рабочей памяти.

Необходимо остановиться на одной интересной особенности обучения при помощи стимулов обратной связи типа «хорошо» – «ошибка». Анализ динамики правильных решений в течение многодневных повторных исследований показывает: обучение происходит главным образом благодаря пробам, непосредственно следующим за словом «хорошо». В пробах со словом «ошибка», если судить по анализу правильных реакций, обучения не происходит. Примечательно, что только в первом случае наблюдается динамика вызванной корковой активности в виде постепенного увеличения амплитуды волны Р300, регистрируемой в правом полушарии на значимые зрительные стимулы (части фигуры). В пробах после слова «ошибка» этого не происходит. В случае со словом «хорошо» скрытый период волны Р300 на эти стимулы в правом полушарии значительно короче, чем в пробах после подкрепления словом «ошибка». Перечисленные факты говорят о том, что положительный стимул обратной связи усиливает активацию правого полушария. По‑видимому, чтобы правильно решить зрительную когнитивную задачу мысленного конструирования фигуры‑эталона, необходим достаточно высокий уровень активации правого полушария, который вызывается действием стимула положительной обратной связи, это и обеспечивает сохранение в долгосрочной памяти образов эталона и частей фигуры. Вместе с тем нельзя не заметить и некоторого противоречия между поведенческими и электрофизиологическими данными: как было сказано выше, по мере тренировки обучение происходит лучше в левом полушарии, когда зрительные стимулы непосредственно адресуются, в это полушарие. Функциональная межполушарная асимметрия по мере обучения и в результате действия стимулов обратной связи может существенно изменяться, она весьма динамична и неоднозначна. При этом следует помнить, что показатели полушарной асимметрии в значительной степени могут зависеть от регистрируемой функции, о чем свидетельствуют описанные опыты со стимулами обратной связи «хорошо» – «ошибка». Согласно поведенческим данным, обучение явно лучше протекает в левом полушарии, а по показателю вызванной электрической активности коры в результате действия стимула обратной связи сильнее активируется правое полушарие. Таким образом, при решении вопросов функциональной асимметрии полушарий необходимо учитывать это несовпадение данных. Подобное обстоятельство еще раз говорит о чрезвычайной сложности проблемы.

Разные формы подкрепления и обучения

Поиск по сайту