Латентное научение: разделение научения и мотивации
Крайним случаем варьирования привлекательности является полное ее отсутствие, когда не происходит подкрепления и не приходится ожидать целенаправленного поведения. Ну, а как быть с научением? Что научение имеет место, первым показал Блодгетт [Н. С. Blodgett, 1929] в экспериментах по так называемому латентному научению. Три группы одинаково голодных крыс в течение девяти дней по одному разу в день помещались в лабиринт. Первая группа находила корм в целевой камере с первого же дня, вторая — с третьего, а третья — с седьмого. После того как животное попадало в целевую камеру, оно при наличии там еды могло есть только 3 мин, а при отсутствии еды извлекалось оттуда через 2 мин. Как видно из рис. 5.9, после введения целевого объекта во второй и третьей группах число ошибок быстро сокращается. Каждая группа почти сразу же достигает уровня научения первой группы, которая подкреплялась с первого дня. Более поздние исследования Толмена и Хонзика [Е. С. Tolman, С. A. Honzik, 1930] подтвердили эти данные.
Рис. 5.9. Зависимость достижений от латентного научения и последующего подкрепления. Первая группа получала корм после каждой попытки, две другие—соответственно после третьей и седьмой (отмечено х) [Н. С. Blodgett, 1929, S. 120]
Полученные результаты многое проясняют. Прежде всего то, что научение происходило и без подкрепления, а значит, оно не является необходимым условием научения. Научение может оставаться латентным, т. е., состоявшись, не проявляться в поведении. В таком случае научение должно заключаться в образовании знаний о структуре путей в лабиринте, а не в образовании жесткой последовательности объединений «раздражитель— реакция», поскольку целенаправленный, с уменьшающимся количеством ошибок поиск целевой камеры не происходил, когда там не было корма. Успехи научения можно наблюдать в поведении только при достижении цели, когда имеет место мотивация. Поэтому закон эффекта Торндайка есть не принцип научения, а принцип поведения. Научение и мотивация представляют собой две самостоятельные группы факторов, совместная игра которых определяет поведение. Реализация вызванной привлекательностью пищи мотивации к достижению целевой камеры зависит от достигнутых на данный момент результатов научения, что сказывается на различии в улучшении достижений второй и третьей групп. После семикратно предоставленной возможности ознакомиться с лабиринтом количество ошибок сокращается резче, чем после трехкратной.
Итак, поведение объясняется взаимодействием двух промежуточных переменных: научения и мотивации. Фактор научения, по Толмену, состоит из знаний о том, какая из секций лабиринта куда ведет. Этот результат научения в актуальном случае становится предвосхищением цели в форме отношений между действием и его последствиями. Мотивационный фактор — нужность цели. Она зависит от физиологического состояния потребности, или влечения, и от привлекательности целевого объекта (у Левина— соответственно от t и G; Толмен рассматривает обе части, влечение и привлекательность, как явления более или менее одного ранга; различия в степени их влияния и их взаимоотношения им не выясняются). Постулированные Толменом нужность цели и ее ожидание стали теми промежуточными переменными, которые не только имеют когнитивную природу, но и выступают посредниками между поддающимися наблюдению особенностями исходных условий и последующим поведением, благодаря чему оказывается возможным объяснение наблюдаемой целенаправленности поведения. На рис. 5.10 схематично представлена логика этих теорий мотивации. Исходные условия, которые помимо стимулов окружения и влечения (состояние потребности) включают также прошлое научение, предрасположенность и степень развития, при некоторых еще подлежащих уточнению обстоятельствах могут детерминировать как нужность цели, так и ее ожидание. Последующие молярные действия определяются тремя доступными наблюдению аспектами целенаправленности.
Приводимая ниже цитата из книги «Целенаправленное поведение у животных и человека» содержит ответ на вопрос, чему же научаются животные в экспериментах по научению, а также новый взгляд на взаимовлияние научения и мотивации поведения.
«Окончательная критика доктрины научения методом проб и ошибок направлена на ее основополагающее понятие стимульно-реактивных связей. Стимулы, как таковые, реакции не вызывают. Правильные стимульно-реактивные связи не «запечатлеваются», а неправильные не «не стираются». Скорее, научение состоит в «открытии», или «вычленении», организмом того, к чему ведут любые из всех соответствующих альтернативных реакций. И затем, если при возбуждающе-аверсивных условиях момента одна из этих альтернатив оказывается нужнее других (или одна «требуется», а другие «не требуются»), то организм будет стремиться (после такого научения) выбирать или осуществлять реакцию, ведущую к более «нужным» последствиям. Но если различия в нужности отсутствуют, то никакого выбора и осуществления данной реакции не произойдет, хотя научение будет иметь место» [Е. С. Tolman, 1932, р. 364].
Матрица «ожидаемой ценности»
Позднее Толмен [Е. С. Tolman, 1951; 1959] несколько переработал свою теорию мотивации (по сравнению с Халлом он был менее систематичен). Наряду с состояниями потребности (его классификацию мотивов см. в гл. 3) актуальное поведение мотивируют еще две промежуточные переменные — ожидание и ценность. Ценность—это то же, что привлекательность целевого объекта, т. е. она наряду с потребностью (или влечением) определяет нужность цели. Обе переменные обычно не поддаются свободному комбинированию, их зависимость друг от друга устанавливается так называемой матрицей «ожидаемой ценности». Как правило, для достижения соответствующего целевого состояния потребности в форме ожиданий действий и их последствий (R — S*) существуют многочисленные возможности предвосхищения, с одной стороны, возможных действий, а с другой — связанных с ними целевых состояний (S*), обладающих различной ценностью.
Рис. 5.10. Толменовская теоретико-мотивационная схема с двумя промежуточными переменными—нужностью и ожиданием цели, объясняющими отношения между наблюдаемыми особенностями ситуации (исходные условия) и последующим молярным поведением
Это особенно ярко проявляется в ситуациях выбора, например, когда хочется есть, а поблизости находятся несколько хороших и дорогих ресторанов с разным ассортиментом кушаний и с соответствующими требованиями к кошельку. Выбор ресторана определяется не только предлагающейся в нем едой, т. е. предвосхищением возможных действий, но и соображениями возможной стоимости обеда. На рис. 5.11 приведена матрица «ожидаемой ценности» для человека, находящегося в подобной ситуации (задачей психологии личности помимо прочего является установление расхождения между матрицей «ожидаемой ценности» конкретного индивида и соответствующими социокультурными нормами). Составленная Толменом матрица дает годологи-ческую картину последовательности действий в промежутке между состоянием голода (слева) и его удовлетворением (справа). Заканчивающиеся стрелками лассообразные линии представляют учтенные этапы действия, размер знаков « + » соответствует оценке конкретного ресторана (средства) и пищи (целевого объекта). Во всех четырех ресторанах можно получить наиболее предпочитаемые данным человеком блюда а и b, блюда с, d и е также могли бы его насытить, но не еда f. Еще заметнее влияние Левина проявилось в попытке Толмена [Е. С. Tolman, 1952] психологически полно представить описанную ситуацию выбора. Как видно из рис. 5.12, Толмен нашел свой способ объединения левиновских моделей личности (система потребностей) и окружения (поведенческое пространство), причем уже отмечавшаяся несовместимость этих моделей была преодолена благодаря включению (см. заканчивающиеся стрелками пунктирные линии) когнитивных процессов системы «ожидаемой ценности». Независимыми переменными при этом выступают физиологическое состояние потребности (Т, влечение) и стимулы окружения (S), промежуточными — система потребностей, система «ожидаемой ценности» и пространство поведения, зависимой переменной — результирующее поведение (V). Пространство поведения представляет собой когнитивно-феноменальную репрезентацию данной ситуации. Ее структура решающим образом зависит от системы «ожидаемой ценности». Привлекательности х1, х2, а также а1, а2 являются производными от соответствующих оценок в системе «ожидаемой ценности» (в данном случае два ресторана и наличие в каждом из них предпочитаемых блюд). В этой же системе учитываются ожидаемое насыщение и переживаемый импульс голода (need push *), в конечном счете также непосредственно зависящий от потребности и стимулов окружения.
Рис. 5.11. Пример матрицы «ожидаемой ценности»: когнитивного предвосхищения при выборе в состоянии голода между хорошими (и дорогими) ресторанами и различными блюдами [Е. С. Taiwan, 1952, S. 392]
Не вдаваясь в подробности (и отвлекаясь от трудностей), уже из рис. 5.12 можно видеть, что Толмен в своей попытке установить генетическую связь данного пространства поведения с состоянием когнитивных переменных пошел дальше Левина. В работе, посвященной этому вопросу, он, кроме того, рассмотрел возможности операциональной диагностики индивидуальной выраженности когнитивных переменных системы «ожидаемой ценности». В отличие от Левина Толмен подчеркивал значимость индивидуальных различий и в результате своих исследований сформулировал проблему, которая заняла центральное место в новых работах по мотивации, особенно выполненных в рамках теории «ожидаемой ценности» (см. гл. 9).
* Импульс нужды. (Прим. ред.)
Рис. 5.12. Влияние на ситуацию выбора актуальной потребности представлено тремя различными блоками модели: системой потребностей, системой «ожидаемой ценности» и пространством поведения. Система «ожидаемой ценности» служит посредником между системой потребностей и пространством поведения, последние два блока соответствуют левиновским моделям личности и окружения. Независимыми переменными являются состояние потребности, голод (Т) и стимулы окружающего мира (S), промежуточными—системы потребностей, «ожидаемой ценности» и пространство поведения, зависимой переменной—результирующее поведение (V) [Е. С. Tolman, 1952, р. 395]
Ожидание и привлекательность в рамках теории S — R
Анализ Толменом целенаправленного поведения и экспериментальное подтверждение этого анализа были восприняты в конце 20-х гг. приверженцами объяснения поведения с позиций теории ассоциаций как вызов. Они считали сочетание «стимул — реакция» основной схемой причинно-следственной связи. Каким образом можно было при таком подходе объяснить влияние на текущее поведение ожидания, т. е. знания будущего целевого состояния, средств и путей его достижения? Халл принял вызов. Поскольку строгость бихевиористского анализа Толменом целенаправленного поведения не подлежала сомнению, пришлось признать существование процесса мотивации как стремления к цели, отличающегося от научения как простого подкрепления связей S — R.
Ранний Халл
Но, спрашивал Халл, нельзя ли в конечном счете свести мотивацию к сочетаниям S—R? Ответ на этот вопрос привел его в 30-е гг. к созданию в рамках представлений об S — R варианта когнитивной теории мотивации. Речь шла о том, чтобы подвести под предвосхищающие цель ожидания, под эти направляющие поведение и носившие пока менталистский характер «идеи» о нужности цели, субстанционную, т. е. физикалист-скую, основу в виде связей S — R. На первой стадии построения своей теории Халл в качестве эквивалента когнитивного ожидания постулировал так называемый rG — SQ-механизм, частичную антиципирующую цель реакцию.
Рассмотрим кратко эту концепцию. Мотивирующее действие привлекательности целевого объекта в этом варианте теории Халла заметной роли еще не играет. К ней Халл подошел только на третьей, последней стадии переработки своей теории [С. L. Hull, 1951], а затем эти идеи были развиты Спенсом [К. W. Spence, 1956], причем rG — So-механизм снова стал играть важную роль. Промежуточную стадию характеризует теория подкрепления и влечения, сформулированная в «Принципах поведения» [С. L Hull, 1943; см. также гл. 4], когда когнитивные процессы, такие, как ожидание и привлекательность и их конструирование в рамках представлений об S — R, отошли на задний план. Более двадцати лет приверженцы теории «стимул — реакция» сопротивлялись выдвинутым Толменом положениям и лежащим в их основе данным, пока мотивационный фактор не нашел себе места в теории поведения S — R в виде такой переменной, как привлекательность целевого объекта.
Обратимся к исходному вопросу Халла: каким образом ожидание может направлять текущую деятельность, как будущее может определять настоящее? Можно ли описать ожидание в системе понятий S —R? Основой дальнейших рассуждений стали результаты исследований Павлова, полный перевод работ которого на английский язык появился в конце 20-х гг. Как показал Павлов в ходе формирования условных рефлексов, нейтральные до некоторых пор раздражители могут приобретать сигнальное значение, информируя о предстоящих событиях. Тем самым они создают нечто аналогичное знанию о будущем, что можно видеть на примере реакции слюноотделения. Эта реакция заранее подготавливает собственно целевую реакцию (поедание пищи), хотя целевой объект (корм) еще не представлен, а значит, целевая реакция не может иметь места и целевое состояние (насыщение) еще только предстоит достичь. Если вызываемая внешним раздражителем (SO реакция (R,) сопровождается проприоцептивной обратной связью, т. е. имеет своим следствием внутренний раздражитель (s1), то такой внутренний раздражитель может совпасть во времени с появлением следующего внешнего раздражителя (S2), который, в свою очередь, вызовет реакцию R2. Тем самым s, непосредственно предшествует г2 и может ассоциироваться с ней. С течением времени одного только s, может оказаться достаточно, чтобы породить всю цепь реакций, опосредованную вызванными этими же реакциями внутренними раздражителями. При этом следует отметить, что связи Sn — Rn тем сильнее, чем ближе они к целевой реакции, иными словами, цепь строится с конца. На рис. 5.13 представлены этапы образования ассоциативных связей при посредстве внутренних раздражителей.
С помощью ею самой созданных и от нее зависящих внутренних раздражителей последовательность реакции может, так сказать, замыкаться на самое себя и становиться в своем дальнейшем протекании независимой от внешней стимуляции. Созданная таким образом цепь реакций может завершиться до достижения целевого объекта быстрее, чем цепь реакций на стимулы, которые представляют собой 'события внешнего мира. Последовательность реакций протекает быстрее последовательности стимулов, R3 осуществляется до наступления S3. Другими словами, события в организме обгоняют происходящее в окружении. Тем самым организм получает возможность реагировать на то, что нa самом деле еще не произошло: создаются основы для предвосхищения.
Конечно, это рассуждение вызывает возражения. Согласно изложенной точке зрения, внешнего раздражителя (S1), который еще очень далек от собственно целевого раздражителя (SG. G— goal), должно быть достаточно для приведения в движение всей цепи реакций. Целевая реакция (RG) должна произойти в любом случае, даже если не был достигнут целевой объект (например, пища). Поскольку реакции в таком случае оказываются неэффективными, то, как считает Халл, они в соответствии с законом эффекта постепенно угасают вплоть до незначительных остаточных следов первоначально полностью представленных реакций. Эти остаточные следы реакции Халл назвал «чисто стимульными актами». Их единственная функция состоит в том, чтобы быть внутренними раздражителями, возбуждающими другие акты, которые в конечном счете приводят к критическому событию.— реакции на цель. В чисто стимульных актах Халл видел неврологические основы когнитивных процессов, таких, как мысли и ожидания. Подобно Уотсону, Халл был «перифериалистом», а не «центристом», т. е. он связывал субстрат когнитивных процессов не с центральной нервной системой (например, корой больших полушарий), а с периферической эффекторной системой тела. Во всяком случае, он полагал, что чисто стимульные акты составляют основу гибкого когнитивного управления поведением. В 1930 г. он писал:
«При незначительном размышлении становится очевидным, что появление чисто стимульных актов знаменует в биологическом развитии важный этап, шаг вперед. Они сразу же Делают доступным новый и заметно расширившийся круг поведенческих возможностей. Организм уже не пассивно реагирует на стимулы, он приобретает относительную свободу и динамичность. Ограниченность привычки (в ее обычном смысле) имеет и свои преимущества, благодаря ей организм может реагировать не только в данном месте и не только в данное время... Таким образом, чисто стимульный акт можно представить как органический, физиологический (строго внутренний и индивидуальный) символизм. Самые обычные инструментальные акты благодаря естественному стремлению к процессу редукции преобразуются в нечто вроде мышления» [С. L. Hull, 1930, р. 516—517].
Рис. 5.13. Примерная схема того, как последовательности реакций от R1 до R3 (а) могут замыкаться с помощью промежуточных внутренних, т. е. вызванных реакциями, раздражителей (s1, S2) (Ь, с) и таким образом становиться в своем дальнейшем протекании независимыми (d) от вызывающих реакции внешних раздражителей
Стремясь найти в рамках теории «стимул — реакция» истоки направляющих поведение предвосхищений цели, Халл выдвинул наряду с положениями о внутренних стимулах (как результате проприоцептивной обратной связи) дополнительную концепцию, которая оказалась более значимой для дальнейшего развития теории, в особенности для учета действия привлекательности. Халл выделил особую группу чисто стимульных актов: частичную антиципирующую цель реакцию, rG — SQ-механизм. Он исходил (как до него Фрейд) из того, что состояние потребности вплоть до своего удовлетворения сопровождается раздражителем влечения (SD). Поскольку раздражитель влечения присутствует постоянно, он ассоциируется со всеми следующими друг за другом и ведущими к цели реакциями. В конце концов раздражитель влечения оказывается способным сразу, как только возникает, вызывать целевую реакцию. Но если эта реакция полностью осуществится, она, будучи преждевременной, вступит в конфликт с необходимыми инструментальными реакциями, которые при контакте с целевым объектом, и только тогда, создают предпосылки для ее успеха. Поэтому преждевременно вызванная целевая реакция в соответствии с законом эффекта быстро аннулируется. Сохраняется лишь ее фрагмент, который не мешает протеканию инструментальных реакций. Таким образом, вместо кусания, жевания и глотания (целевая реакция) наблюдаются отделение слюны, глотательные движения и тому подобные составляющие акта питания.
Решающее значение имеет то обстоятельство, что этот фрагмент целевой реакции (rG), будучи вызванным раздражителем влечения, в самом начале позволяет пропустить всю цепь реакций, которые еще только должны были бы привести к целевой реакции (RG). Как и всякая другая, реакция на цель имеет свою проприоцептивную обратную связь (SG), внутренний раздражитель, который Халл обозначил как целевой. Она репрезентирует целевое событие, удовлетворение потребности, и, подобно раздражителю влечения, присутствует на протяжении всей последовательности поведенческих актов, при каждой промежуточной реакции. Поэтому ее можно рассматривать в качестве основы того, что Толмен называл предвосхищением цели, т. е. антиципацией результата действия и тем самым основой целенаправленного управления им. Халл писал:
«Антиципирующие цель реакции представляют собой физическую основу целенаправленных идей» [С. L. Hull, 1931, р.505].
После того как в рамках теории S — R была решена проблема целенаправленности, т. е. стремление к цели было объяснено предвосхищением ее целевого состояния, Халл [С. L. Hull, 1935] предпринял попытку вообще свести все процессы мотивации к законам научения по типу выработки ассоциаций S — R. Ему нужно было дополнительно показать, что подкрепляющие события (удовлетворительное состояние дел — по Тор-ндайку) имеют врожденные потребно-стно-специфические основы, благодаря которым в онтогенезе путем научения развиваются и выкристаллизовываются определенные модификации.
Таким образом, взгляды Халла сближались с положениями Толмена. Но можно ли тем самым действительно объяснить полученные Толменом данные? Возьмем почти мгновенное улучшение достижений после введения вместо еды с ограниченной привлекательностью пищи с высокой привлекательностью. Халлу необходимо было бы допустить, что (1) использование новой пищи вызывает несколько иные целевые реакции (вполне вероятное событие, например, при замене каши из отрубей семечками, поскольку в этом случае может возникнуть другая антиципирующая цель реакция rG); (2) уже после однократного появления новой rG ассоциация раздражителя влечения SD с прежней rG исчезает. Второе предположение маловероятно, если учесть постепенный характер научения, в особенности переучивания. Совсем необъяснимым оказывается явление латентного научения, когда имеет место раздражитель влечения SD, но нет целевой реакции RG и rG — SQ-механизм сформироваться не может. Для образования последнего, как показывают результаты контрольной группы, необходимы повторные пробы. Скачкообразный характер достижений контрольной группы также остается необъяснимым при помощи новых положений Халла.
Средний и поздний этапы развития взглядов Халла
В 1943 г. Халл сформулировал свою теорию подкрепления (при этом он временно отказался от рассмотрения вопросов стимульно-реактивного объяснения когнитивных процессов стремления к цели). Единственное, что следует отметить в этой теории,—отнесение Халлом количественных и качественных характеристик подкрепляющего целевого объекта к условиям, ответственным за силу подкрепления связи S — R. Крес-пи [L. P. Crespi, 1942; 1944], опираясь на новые данные, показал невозможность решения на основе теории S—R проблемы привлекательности, поскольку последняя, скорее, указывает на своеобразие мотивации. Крес-пи менял количество корма, которое находила голодная крыса в целевой камере при успешной попытке прохождения лабиринта. При большем количестве корма скорость бега возрастала в первых 19 попытках быстрее, чем при меньшем его количестве. Как видно из рис. 5.14, максимальная скорость бега была разной при разных условиях привлекательности, но она была достигнута обеими группами животных после одинакового числа попыток, так что обе группы должны были выработать одинаковую силу привычки. Эти данные полностью согласуются с теорией подкрепления Халла. Но когда Креспи изменил у одной из групп количество получаемого корма (на рис. 5.14 показано изменение скорости бега при переходе от большего к меньшему количеству корма), скорость бега у группы, получавшей много корма, упала ниже уровня группы, до сих пор получавшей мало корма. Столь внезапное изменение поведения необъяснимо с теоретико-ассоциативной точки зрения. Данные Креспи подтвердил затем Зиман [Q. Zeaman, 1949]: увеличение количества пищи с 0,05 до 2,4 г привело к полной инверсии латентного времени по отношению к достигнутому на тот момент плато другой группы, с самого начала получавшей такое количество корма.
На заключительном этапе разработки своей теории Халл [С. L. Hull, 1951] попытался объяснить эти данные. Он уже не считал, что размер и вид подкрепления, зависящие от силы и вида привлекательности целевого объекта, влияют на образование привычки. Эта функция сохранялась теперь только за частотой и степенью отсроченности подкрепления. Размер и вид подкрепления Халл объединил в новом мотивационном факторе К. Интенсивность К зависит от силы консумматорной реакции, которая, в свою очередь, зависит от привлекательности целевого объекта. Наряду с D переменная К ответственна за силу инструментальной реакции, но не за образование привычки, т. е. не за то, какая последует реакция. D и К мультипликативно связаны друг с другом, так что формула потенциала реакции (s E R) приняла следующий вид: sER=DxKxsHR.
Рис. 5.14. Зависимость скорости бега от количества корма. До 19-й попытки одна группа получала 16 единиц корма, а другая—256. С 20-й попытки обе группы получали 16 единиц [L P. Crespi, 1942, Fig. 2, p. 488, Fig. 8, p. 508]
Достарыңызбен бөлісу: |