Дрессировка без наказания

Если вы видели выступление дрессированных дельфинов в океанариуме или по телевизору, вы наверняка обратили внимание, насколько дельфины – обучаемые животные. По команде они показывают все виды точных действий, включая прекрасные акробатические трюки и взаимодействие друг с другом и людьми-пловцами. Публику всегда поражает их готовность работать и тот интеллект, которым они для этого должны обладать. Как бы было хорошо, если бы собаки реагировали так же!

Если мы узнаем дрессировщиков дельфинов поближе, то увидим, что ни дельфины, ни их тренеры не являются гениями. Скорость, точность и явное наслаждение дельфинов своей работой обусловлены принципами дрессировки, которые используют при их обучении. Те же методы можно использовать и для обучения собак.

Исключение наказания

Самым первым принципом дрессировки дельфинов является исключение наказания при работе с животными. Не имеет значения, что вы получаете, даже если животное хочет вас заставить что-то сделать, окатив водой с головы до ног, ответить ему вы не можете. Вы не можете использовать поводок или кнут или собственный кулак против животного, которое быстро уплывет от вас. Вы не можете заставить дельфина голодать, чтобы заставить его сотрудничать. Дельфины получают воду из рыбы, которую едят, поэтому лишение их рыбы приведет к быстрому обезвоживанию и смерти. В конце концов, вы даже не сможете закричать на дельфина, потому что он вас не услышит.

Может быть, вы подумали: «Держу пари, я смогу найти способ наказать дельфина», а я держу пари, что вы действительно найдете такой способ, но он все равно не понадобится, потому что дрессировщикам дельфинов он и не нужен.

Собака которую обучают с кликером, становится энергичнее и отзывчивее она любит работать.

Дрессировщик может получить от дельфина все, что захочет, для этого он использует только положительное подкрепление: один-два свистка и ведро рыбы. Мы «формируем» каждое действие с помощью положительного подкрепления. Мы используем позитивное подкрепление, чтобы добиться быстрой и правильной реакции на команду, достичь послушания. Мы можем использовать положительное подкрепления даже для улучшения дисциплины, для контроля нежелательного поведения, такого как атаки на плавучий матрас или отказ проходить в ворота (см. далее). Точное использование положительного подкрепления приводит к развитию у животных филигранной техники исполнения и любви к работе.

Для дрессировки собак мы часто используем силу как для побуждения к каким-то действиям, так и для исправления неизбежных ошибок. Мы можем использовать вознаграждение или ласку, делая неважным приобретение собакой опыта смущения, страха и даже физической боли в процессе дрессировки. Некоторые собаки достаточно спокойны к такому негативному опыту, но дельфины, которые являются дикими животными, на это не способны. Конечно, можно обучить дельфина и такими методами, но вы получите вялое, безрадостное и ненадежное исполнение, к тому же дельфин может выказывать агрессию к людям. (Не правда ли, похоже на выполнение команд некоторыми собаками?)

С другой стороны, если вы дрессируете собаку теми же методами, которыми мы обучаем дельфинов, на основе положительного подкрепления, собаки начинают вести себя, как дельфины, они становятся энергичными, внимательными, точными, послушными и способны просто на фантастическое исполнение команд. В этой книге описано, как этого добиться.

Магический сигнал

Когда я общаюсь с дрессировщиками собак, то часто сталкиваюсь с неправильным мнением, что положительным подкреплением является пища. Это не так. Главным элементом достижения удивительного исполнения у дельфинов является вовсе не пищевое подкрепление. Дельфины работают не за рыбу, дельфины работают за свисток. Звук свистка является магическим сигналом, который влечет за собой великолепное выполнение команды.

Первым шагом в дрессировке дельфинов является обучение их тому, что каждый раз, как они услышат свисток, они могут получить рыбу. Когда животные узнают, что свисток означает «Сейчас будет рыба», то дрессировщик свистком может отмечать то поведение, которое ему нравится, а затем постепенно формировать или развивать что-то более сложное как ответ на указание.

Например, допустим, что несколько раз дельфин слышит свисток (а затем получает рыбу), когда выпрыгивает из воды. Затем он начинает выпрыгивать каждый раз, когда дрессировщик поднимает руку. Затем он открывает для себя, что прыжок «работает» только тогда, когда дрессировщик поднимает руку. Так поднятая рука становится зеленым светом для прыжка.

Дрессировщик может постепенно вводить и другие условия – прыжок «работает» только в направлении от дрессировщика и по направлению к публике, когда прыжок выше полутора метров, когда прыжок совершается ровно через три секунды после поднятия руки. И, наконец, после нескольких уроков дрессировщик обучает дельфина делать «поклон на публику», по команде и с большой точностью. Дельфин тоже учит дрессировщика: «Все, что я делаю, представляет собой определенные виды прыжков, когда дрессировщик поднимает руку, он немедленно мне свистит и дает рыбу каждый раз!»

Заметьте, что свисток не используется как команда. Он не приказывает дельфину что-то делать, сигналом к действию является поднятая рука. Свисток говорит дельфину в течение или в конце действия, что дрессировщику нравится это действие и за него дельфин получит рыбу. (Вы можете не зацикливаться только на пище, вы также можете связать условное подкрепление с лаской или игрушкой или другим стимулом.)

Теперь свисток становится условным подкреплением. На языке психологов пища, ласка или любое приятное переживание являются безусловным подкреплением, чем-то, что животное хочет получить безо всякого обучения. Свисток же является условным подкреплением, это то, что животное учат хотеть сделать. (Некоторые люди используют термин «первичное подкрепление» для пищи и «вторичное подкрепление» для сигнала. Я избегаю этих терминов, поскольку они приводят к мысли, что раз свисток «вторичен», он должен даваться после пищи, что для животного, конечно, бессмысленно и бесполезно как инструмент дрессировки.)

Главная роль

Что случится, если вы постараетесь научить дельфина простым прыжкам от вас по указанию, но не используя свисток? Во-первых, вы не сможете правильно выбрать время для вознаграждения рыбой, когда животное сделало плохой прыжок. Поэтому не имеет значения, какой прыжок сделало животное, ему все равно потом дадут рыбу или не дадут рыбы вовсе. У вас нет возможности объяснить животному, почему один прыжок будет вознагражден, а другой нет, или какой прыжок вам понравился больше. Был ли он достаточно высоким? Или вам понравилось, как животное уплывает или подплывает? Чтобы разработать прыжок нужной высоты, своевременности и направления, вы должны исключить все неточности методом проб и ошибок на многочисленных дрессировках. Вы будете счастливы, если животному не надоест (и дрессировщику тоже!), прежде чем исполнение будет правильным и точным.

Из-за отсутствия информации об этом, тот дрессировщик, который использует пищу как вознаграждение безусловного подкрепления обычно получает животное, которое работает энергично, но учится медленно. Мы наблюдали это и на собаках, которых вознаграждали многократно лакомством без какого-то ясного сигнала, который бы точно обозначил подкрепляемое действие. Эти собаки полны энтузиазма и дружелюбия, но они ничего не знают.

Дрессировка с лакомством эффективна всегда, но без условного подкрепления, например кликера, собака может стать одержимой попрошайкой.

К тому же если дрессировщик использует пищу без условного подкрепления, животное учится постоянно следить за дрессировщиком в ожидании пищи. Лошади суют нос вам в карман, а собаки лижут руки. Дельфины плавают вокруг дрессировщика и боготворят ведро с рыбой. Если животное постоянно следит за дрессировщиком, очень трудно научить дельфина прыгать в противоположном направлении, к публике.

Когда вы выработали условное подкрепление, вы сможете идентифицировать действие на расстоянии или когда животное двигается от вас. Поэтому хорошо обученное животное вместо того, чтобы надоедать вам своим попрошайничеством, будет делать свое дело, но одновременно внимательно слушать магический звук, чтобы оно ни делало: для лошадей и собак эта внимательность имеет огромное обучающее значение сама по себе.

Поскольку сигнал позволяет отмечать доли секунды, то свистком можно развить у животного точное понимание, чего хочет дрессировщик. Это позволит обучить животное, чему вы хотите, очень четко и подробно. Например, пусть дельфин выучил одно правило (прыгать в заданном направлении), поэтому вы уверены, что он почти всегда прыгает в правильном направлении по вашему сигналу. Теперь добавим новые детали или правила. Вы решили: «Я буду подкреплять только высокие прыжки». Дельфин достаточно быстро учится новым деталям («Я должен прыгать в этом направлении и прыгать высоко»).

Этот постепенный процесс кажется очень тщательно разработанным, но на практике это фантастически короткий способ обучения сложному поведению. Даже с необученным дельфином дрессировщик может разработать эффектное и специфическое поведение по одному указанию (например, поклон на публику, который я описывала) за два-три дня, а иногда, если все идет хорошо, и за один десятиминутный урок. Много раз за мою работу с дельфинами мне удавалось «схватить» определенное действие, сформировать его в нечто особенное и научить делать его по одному указанию всего за один урок, об этом говорят и другие дрессировщики дельфинов.

Как быть с собаками?

За один десятиминутный урок вы легко сможете переложить методы дрессировки дельфинов для собаки при использовании условного подкрепления. Некоторые собаки боятся свистков. Лучшим условным подкреплением для собак является кликер, маленькая коробочка, которая при надавливании на металлическую пластинку издает щелчок. Ее можно купить в магазинах для животных или заказать по Интернету.

Как только вы увидите что собака напряжена и ждет лакомства, знайте, что сигнал (щелчок) стал условным подкреплением

Возьмите с собой кликер и немного лакомства. Разделите лакомство на маленькие кусочки, так чтобы вознаградить собаку пятнадцать–двадцать раз, но не насытить ее. Некоторые собаки будут работать за сухой корм, особенно перед кормежкой, но обычно лучше взять что-то более соблазнительное.

Научите собаку распознавать щелчок кликера, щелкая и давая лакомство раз пять в различных частях комнаты или сада (чтобы у собаки не появилось мысли, что кликер работает только в одном определенном месте).

Затем щелкните кликером и помедлите с лакомством несколько секунд. Если вы увидите, что собака напряглась и ждет лакомство, знайте, что сигнал стал условным подкреплением. Теперь вы можете создавать поведение, мы называем этот процесс «формированием».

Формирование поведения

Легче всего сформировать поведение под названием «Поймай свой хвост». Конечно, существует столько способов, как добиться этого поведения, сколько придумывают дрессировщики: вы можете повернуть собаку вокруг себя за ошейник, вы можете положить кусочек бекона на кончик хвоста, чтобы собака обернулась вокруг себя, чтобы полизать хвост. Но есть только один способ добиться этого сразу без принуждений.

Прекратите щелкать кликером и немного подождите. Ваша собака может быть заинтригована и возбуждена, когда вы ничего не делаете. Она может крутиться и даже заскулить или залаять. В тот момент, когда собака движется или поворачивается в нужном вам направлении, щелкните кликером. Дайте лакомство.

Опять подождите. Не обращайте внимания на все остальные действия собаки, за исключением правильного (не ждите чуда, один поворот головы или один шаг передней лапой в правильном направлении – это все, что вам нужно). Если «поймали» это поведение, если у вас хорошее чувство времени, за три или четыре подкрепления вы можете добиться, что собака поворачивается в нужном направлении чаще и быстрее.

Теперь вам не нужно подкрепление после первого шага в нужном направлении, но вы должны подкреплять весь поворот в нужном направлении, который состоит из нескольких шагов, возможно, каждую четверть круга, а после того, как собака освоит эти четвертинки круга, обучение полному повороту пойдет еще быстрее.

Гриффа учат поворачиваться по кругу. За каждое правильное движение ему щелкают кликером.

Это лучший момент прекратить первый урок: остановка после маленькой победы – вот золотое правило. На следующий день возьмите кликер, кучу лакомств и начните с первого шага, затем сделайте четверть круга, а затем полный круг, вы увидите, что во второй раз все пойдет намного быстрее.

После обучения повороту на один круг переходите к следующему шагу – повороту на два круга, а затем уже к следующему и очень важному шагу – разнообразию подкрепления – в одном случае подкрепляйте половину круга, в другом два круга или один или три полных круга, или даже один с четвертью, такой порядок ваших действий заставит собаку быть очень внимательной. Когда собака поймет, что от нее требуется, вы можете ввести знак рукой или словесное указание, чтобы собака выполняла этот трюк, только когда ее попросят.

Это очень простой трюк, и он не создаст вам имени великого дрессировщика. Существует и другое поведение, в котором вы сможете попрактиковаться, это «обозначение целей», при котором у собаки формируют такое поведение, как прикосновение носом к точке, на которую вы указали. (Дрессировщики морских львов учат своих животных «целиться» в сжатый кулак дрессировщика, затем опуская кулак на землю, или поднимая его в воздух, дрессировщик может заставить льва двигаться в нужном направлении без принуждения.) Целью этих экспериментов не является обучение собаки трюкам, это демонстрация использования условного подкрепления при формировании поведения и того, насколько эффективным может быть этот вид подкрепления.

Дрессировка без наказания

Поиск по сайту