Sygnał braku nagrody

 

Postaram się przeanalizować czym są i jak działają tzw. Sygnały Braku Nagrody (ang. NRM, non reward markers). Nie jest to lekki tekst, na pewno będzie w nim sporo materiału do przyswojenia aby dobrze go zrozumieć.

Takich konceptów w świecie treningów jest bardzo dużo. Często nie mają uzasadnienia i są używane „z dziada pradziada”,  dlatego postaram się aby jak najszerzej wytłumaczyć zagadnienie.
Na samym początku przytoczę to czym, według autorów kilku artykułów, które znalazłam w sieci są SBN:
– „sygnał oznaczający, że pies popełnił błąd”
– „sygnał mówiący psu, żeby bardziej się postarał przy najbliższym powtórzeniu”
-„ słowa „ee”, „ooj”, „jeszcze raz”, które informują psa, że zrobił coś byle jak ”

SŁOWNIK:
Zanim przejdziemy dalej w tym akapicie wyjaśnię kilka pojęć, którymi będę operowała w artykule:

  1. Warunkowanie instrumentalne – umiejętność uczenia się poprzez konsekwencje.
  2. ABC – trójstopniowa warunkowa zależność. A (antecedent) czyli bodziec poprzedzający zachowanie, B (behavior) zachowanie, C (consequence) konsekwencja następująca po zachowaniu. Jest to zależność odnosząca się do warunkowania instrumentalnego.
  3. Wzmocnienie/kara – dwie główne konsekwencje w warunkowaniu instrumentalnym.
    zarówno kara jaki wzmocnienie dzielą się na pozytywną i negatywną, oraz na bezwarunkową i warunkową (czasami nazywane jako pierwotne i wtórne)
  4. Wygaszanie – a poprawniej, wygaszanie instrumentalne. Czyli procedura podczas, której uprzednio wzmacniane zachowanie jest osłabiane poprzez wstrzymanie wzmocnienia.(dotyczy pozytywnego jak i negatywnego wzmocnienia)
  5. Frustracja – funkcja generowana przez wygaszanie, rezultat wycofania wzmocnienia za zachowanie dotychczas wzmocnione (dotyczy pozytywnego jaki negatywnego wzmocnienia)
  6. Resurgence – ponowne pojawienie się uprzednio wygaszonego zachowania podczas procesu wygaszania innego zachowania (wzmocnionego niedawno)
  7. Sporadyczny rozkład wzmocnień – zakłada wzmacnianie niektórych, lecz nie wszystkich powtórzeń zachowań. Charakteryzuje się dużą odpornością na wygaszanie.

„Sygnał braku nagrody” – zacznijmy od słowa nagroda, napotkamy tu pierwsze trudności. Bo samo słowo nagroda zakłada bardzo potoczne podejście do tematu.
Nagroda według słownika języka polskiego to:
„dyplom, odznaczenie, pieniądze lub wartościowy przedmiot będące formą uznania lub wyróżnienia za osiągnięcia, zwycięstwo w konkursie, w zawodach itp.” Prawidłowe pojęcie jakie powinno się tu znaleźć to wzmocnienie.

Czy warto używać prawidłowej terminologii? Zdecydowanie tak, bo sposób w jaki nazywamy pewne rzeczy definiuje to jak je postrzegamy i co o nich naprawdę wiemy. Kiedy czytamy termin wzmocnienie to musimy odnieść się do nauki instrumentalnej, czy inaczej warunkowania instrumentalnego. To narzuca nam pewien tok myślenia i analizy tego czego i jak używamy w pracy z psami.

Ze względu na formę tego artykułu (post na blogu, adresowany do wszystkich pracujących z psami a nie tylko szkoleniowców) postaram się ograniczyć terminologię techniczną do minimum. Jednak pewne pojęcia i zasady będą niezbędne do wyjaśnienia tematu. W artykule będę stosowała pewne uproszczenia a w przyszłości obszary, które nie zostały dostatecznie wyjaśnione poruszę w dodatkowych artykułach.

1011286_206970846120464_1482498979_n

 

Zacznijmy od terminu wzmocnienie. Dlaczego to jest właściwe słowo?
Ponieważ pracując z psami, ucząc ich nowych zachowań w przeważającej części stosujemy prawa warunkowania instrumentalnego. Opiera się ono na założeniach, że uczymy się (my, psy, konie, świnki morskie itd.) przez konsekwencje występujące w środowisku. Konsekwencje to wzmocnienia lub kary. Jeżeli coś co następuje po zachowaniu sprawia, że w przyszłości się ono powtarza lub utrzymuje to jest to wzmocnienie. Jeżeli działanie jest odwrotne, czyli zachowanie występuje w przyszłości coraz rzadziej to mamy do czynienia z karą. Nie jest relewantne to czy dana konsekwencja sprawia nam, psu przyjemność, ból, czy jest powszechnie uznawana za coś „miłego” bądź „niemiłego”. Przykładem może być tu sytuacja gdy przewodnik krzyczy na psa za każdym razem gdy ten szczeka. Zachowanie szczekania z każdym powtórzeniem występuje częściej. Oznacza to, że krzyczenie przez przewodnika działa jako wzmocnienie pozytywne. Nie ma tu żadnego znaczenia, że powszechnie postrzegamy krzyk za karę.
Pechowo terminy wzmocnienie i kara (kara zwłaszcza) mają powszechne znaczenie, odbiegające zupełnie od ich definicji naukowych, wykorzystywanych w analizie behawioralnej, na której tak naprawdę opiera się cała nasza teoria pracy ze zwierzętami. Procesy nauki zachowań to pewne naukowo zbadane zjawiska, czy nam się to podoba czy nie zachodzą kiedy pracujemy z psem. Ich znajomość pomoże nam nie tylko zrozumieć jak uczy się nasz czworonóg ale również wytłumaczy dlaczego coś działa a dlaczego nie.

Wracając do naszych kar i wzmocnień. Kiedy pracujemy z psami, zwłaszcza będąc wszelkiej maści szkoleniowcami powinniśmy wiedzieć co i kiedy spełnia jaką funkcję. A karę i wzmocnienie rozpoznajemy między innymi przez ich podstawowy i nieodłączny atrybut jakim jest efekt na danym zachowaniu. Bez tego efektu nie ma mowy o tych pojęciach.

Na tym filmie zobaczycie podział na wzmocnienia i kary. Może być to pomocne w rozumieniu dalszej części tekstu.

Kiedy pokrótce omówiliśmy już nieścisłości w nazewnictwie możemy iść dalej.

ZACHOWANIA!
Przede wszystkim skupimy się na tym na co mamy wpływ. Zachowaniach. Nie emocjach czy wewnętrznych stanach. Jako gatunek mamy tendencję do analizowania rzeczy na które nie mamy wpływu, czyli stanów psychicznych i wewnętrznych naszego czworonoga. Zachowanie traktujemy nie jako przedmiot analizy a pochodną i objaw czegoś co dzieje się wewnątrz naszego psa. Kiedy jednak zastanowimy się, czym operujemy w pracy z psami, okazuje się, że jest to nic innego jak zachowania. To poprzez zmiany w środowisku wpływamy na zachowanie naszego ucznia. Dlatego warto aby to zachowanie stało się samodzielnym przedmiotem naszego zainteresowania. Nie będziemy domniemywać co dzieje się wewnątrz psa, bo dopóki nie jesteśmy neurochirurgami, pracując z  psami nie pracujemy na emocjach. Bo nie mamy takich możliwości. Emocje oczywiście występują ale my nie mamy bezpośredniego wpływu na nie. Nie mamy również pewności jakie to są emocje. Dlatego powinniśmy skupić się na tym co jest rzeczywistym przedmiotem naszej pracy – zachowanie!
Zadajmy sobie pytanie co kryje się pod SBN, czyli JAKI ma on wpływ na zmianę zachowania. Skoro używamy go w treningu, robimy to w jakimś celu, ma przynieść pożądany przez nas efekt na zachowaniu. Nie ma większego znaczenia to co nam się wydaje że pies „myśli” czy odczuwa. Bo tego nie wiemy. Nie możemy powiedzieć, że gdy mówimy SBN pies wie, że ma „się bardziej postarać”, „lepiej kombinuje”, „wie, że popełnił błąd”. Musimy ocenić działanie poprzez faktyczny efekt jaki przynosi.

Zrozumienie powyższych akapitów: funkcji konsekwencji, jaki i przedmiotu naszego zainteresowania (zachowania) jest kluczowe aby móc przejść do poniższej analizy równań w celu wyjaśnienia funkcji SBN.

RÓWNANIA

A-B-C

To podstawowa, trójstopniowa formuła warunkowania instrumentalnego. Pomoże nam w wyjaśnieniu funkcji sygnału braku nagrody.

A =  (S discriminatvie), czyli bodziec poprzedzający przedmiotowe zachowanie

B = przedmiotowe zachowanie

C = konsekwencja następująca po zachowaniu

 

Na przykładzie:

A = hasło wydane przez przewodnika na siad
B = pies siada
C = klik smakołyk (może być nie klik tylko inny markera, może nie być markera)

 

Teraz zastanówmy się przez chwilę gdzie umieścimy nasz SBN.
I tu pojawia się bardzo ważne pytanie. Jakie działanie ma spełniać SBN?
Bo jest tu bardzo dużo nieścisłości, bo ile osób tyle sposobów:

1. Gdy mówimy SBN; jakie zachowanie prezentuje pies?
2. Czy po SBN pada jakieś inne hasło tj. inne A1?

 

Dlatego występuje tu konieczność podzielenia SBN na przynajmniej dwa rodzaje bodźca mającego inne funkcje.

  1. SBN(-)– nie pada po nim ponowne hasło na zachowanie
  2. SBN(+) – pada po nim ponowne hasło na zachowanie

Teraz postaramy się umiejscowić w naszym równaniu pierwszy rodzaj SBN.

  1. SBN(-) – nie pada po nim ponowne hasło na zachowanie

A  hasło wydane przez przewodnika na siad
B= pies siada
C= klik smakołyk (może być nie klik tylko inny markera, może nie być markera)

RÓWNANIA Z SBN – czyli jaka jest ich funkcja na danym zachowaniu:

A1 = hasło na siad
B1 =  pies waruje
SBN(-) = S delta ( procedura wygaszenia)
B2 = pies siada
C = klik smakołyk

Ale zdecydowanie częściej jest tak:

A1 = hasło na siad
B1 =  pies waruje
SBN(-) = S delta (procedura wygaszania)
B2 = pies wstaje
SBN(-) = S delta (procedura wygaszania)
B3 = pies siada
C = klik smakołyk

Co to wszystko oznacza?

W przypadku równania  SBN(-) (nie pada po nim ponowne hasło na zachowanie), zaczyna funkcjonować jako bodziec poprzedzający i wywołujący wygaszanie.

Oznacza to, że rozpoczyna się procedura wygaszania, której jedną z funkcji jest frustracja. A co za nią idzie tzw. resurgence , wówczas mamy do czynienia z kolejnym równaniem, które występuje dużo częściej niż w wersja pierwsza. To właśnie sytuacja, o której przewodnicy mówią „pies zaczyna kombinować”, „pies bardziej się stara”, „pies ma większą „motywacje” (sic!) do podejmowania dalszych prób”, „pies zaczyna się bardziej przykładać”.

To co się dzieje to konsekwencja wycofania wzmocnienia za zachowanie, które wcześniej było wzmocnione. Podobny scenariusz możemy zaobserwować przy niewłaściwym stosowaniu kształtowania do nauki zachowań. Uczeń zaczyna cofać się albo w topografii danego zachowania albo prezentuje inne wcześniej wzmocnione zachowania.

Co wiąże się ze stosowaniem SBN w powyższy sposób?

– procedura wygaszania, która zostaje uruchomiana przy użyciu SBN, może przynieść efekt uboczny w postaci wygaszenia prezentowanego zachowania, również w innych sytuacjach.

Nieumiejętne stosowanie wygaszania, prowadzi do frustracji, o stopniu który może uniemożliwić kontynuację procesu nauki. Wygaszanie to proces polegający na wstrzymaniu wzmocnienia dla zachowania, które wcześniej zostało wzmocnione. To znaczy, że celem jest sprawienie aby zależność między zachowaniem a konsekwencją została usunięta. Chcemy aby zachowanie poddane wygaszaniu przestało występować. Problemy jaki tu się pojawiają to:

  1. Bardzo często wcale nie chcemy wygaszać tego innego zachowania. Nie chcemy bo jest to zachowanie potrzebne w innych sytuacjach. Dlatego przede wszystkim powinniśmy zastanowić się dlaczego na ten bodziec pies odpowiedział takim zachowaniem a nie poddawać je wygaszaniu.
  2. Sporadyczny rozkład wzmocnień. Ponieważ bardzo często zdarza się sytuacja, że zachowanie niepożądane, które pojawiło się na hasło A1 to zachowanie wzmacniane w innych sytuacjach. Wówczas proces wygaszania będzie skazany na niepowodzenie bo to co robimy to po prostu sporadyczny rozkład wzmocnień, czyli taki schemat wydawania wzmocnienia jak występuje np. w jednorękim bandycie. Dzięki niemu nasze zachowanie jest dużo bardziej odporne na wygaszanie.

 

  1. SBN(+) – pada po nim ponowne hasło na zachowanieA1(Sd) = hasło na siad
    B1 = pies waruje
    C1 = SBN(+) = P+
    A2 (Sd) = hasło na siad
    B2 = pies siada
    C2= klik smakołyk

Co to wszystko oznacza?

W przypadku równania z SBN(+) (pada po nim ponowne hasło na zachowanie), zaczyna funkcjonować jak kara pozytywna. Dodajemy coś do środowiska zaraz po zachowaniu, co ma sprawić, że w przyszłości to zachowanie będzie występowało rzadziej.

Co wiąże się ze stosowaniem SBN w powyższy sposób?

– kara pozytywna, którą w tej sytuacji ma być SBN, może przynieść efekt uboczny w postaci coraz rzadszego prezentowanego zachowania, również w innych sytuacjach. Ponownie jednak podstawową kwestią jaką powinniśmy poruszyć jest powód takiego a nie innego zachowania prezentowanego przez psa.

wydarzenie_zle_01

 

Koncepcja błędu

Czym jest błąd w treningu? To zagadnienie zostało szerzej omówione w tym artykule Źle! Zainteresowanych odsyłam do przeczytania go w pierwszej kolejności.

W skrócie, błąd to nic innego jak niepożądana reakcja, zachowanie na dany bodziec. Jest ona informacją zwrotną dla przewodnika, że w tym momencie, w tym środowisku, u tego psa, hasło X nie oznaczało zachowania X. Dlaczego? Powodów może być cała masa.  A jako dobrzy trenerzy powinniśmy je wyodrębnić zrozumieć i dopasować trening. Trening z psem, opiera się na nauce zachowań, w oparciu o manewrowanie zmiennymi dostępnymi dla nas, przewodników. Operujemy bodźcami poprzedzającymi (nasze A w równaniu) jak i konsekwencjami (nasze C w równaniu) występującymi w środowisku. Jeżeli reakcja na bodziec, jest niepożądana to w pierwszej kolejności powinniśmy sprawdzić dlaczego?

Taka perspektywa na błąd wyklucza stosowanie SBN.

Jak uczymy sygnału braku nagrody?
Samo powiedzenie ee, oo, jeszcze raz czy innych słów najczęściej używanych jako SBN nie sprawi że pies wykona następne powtórzenie zachowania poprawnie. Te słowa nic nie znaczą (tak jak siad, waruj itd.) Fakt, że nagle zaczniemy ich używać w treningu nie wpłynie na zmianę zachowania czy „zrozumienie” przez psa czego od niego oczekujemy.

Dużo osób mówi, że chciałoby aby ktoś im powiedział, że źle robią. Jak najbardziej ale czy chcielibyśmy aby:
– zrobił to w innym nieznanym dla nas języku?

– oprócz powiedzenia słowa nie zmienił nic w tym co robimy?

To tak jak gdybym dostała tenisową rakietę do dłoni i udałoby mi się odbić trudną piłkę za pierwszym razem. Wtedy ktoś kliknął i powiedział, że to było super! Ok ale czy to nauczyło mnie poprawnie odbijać piłkę? Czy mam teraz umiejętności które pozwolą mi na powtórzenie tego zachowania?

Następna piłka i również udało mi się ją odbić. Jednak za trzecim razem już nie trafiam, ktoś nie klika tylko mówi mi ee. Próbuję jeszcze raz ale nie wiem co mam zrobić żeby wyszło. Słyszę ee. Czy to w jakikolwiek sposób pomoże mi w wypracowaniu niezbędnych umiejętności, które pozwolą na poprawne wykonanie zachowania.
Inna wersja tej samej sytuacji. Tym razem mam już umiejętności do odbijania piłki. Jednak nie przy tym wietrze. Dlatego nie trafiam. Słyszę ee. Czy mój nauczyciel nie powinien najpierw przepracować ze mną nowej okoliczności i nowego środowiska?

Pies na dużym placu wykonuje zmiany pozycji na odległość. W momencie wykonywania jednej pozycji:
– doznał skurczu mięśnia
– usłyszał dźwięk, który przykuł jego uwagę
– bodziec różnił się w topografii od bodźca, który wywołuje zachowanie pożądane
Czy gdy powiem SBN to osiągnę pożądany efekt na zachowaniu?

Skąd pies ma wiedzieć, że coś jest poprawnie wykonane a coś nie.

Kiedy pracuję z psem, uczę go zachowań. Zachowań, które często wymagają wielu umiejętności aby mogły być wykonane „poprawnie” – np. w sposób wymagany przez regulamin danego sportu.
Ich kształt, jest w dużej mierze zależny od moich umiejętności jako nauczyciela.
To jaki osiągam efekt jest wypadkową między innymi:
– mojej techniki
– mojej wiedzy
– historii nauki mojego ucznia

Gdy wezmę to wszystko pod uwagę może okazać się, że sposób nauki danego zachowania wymaga jeszcze dopracowania, ze strony mojej jako nauczyciela. Nie sztuką jest uczyć niesamowitych zachowań, sztuką jest niesamowicie uczyć prostych zachowań. Bardzo często sytuacje określane przez przewodników jako „niechlujność”, „byle jakość”, „błąd” po stronie psa, wynikają ze sposobu w jaki pracujemy. To my odpowiadamy za program treningowy nie psy.
gyhjuk

W takim razie, co zrobić gdy pojawi się niepożądana reakcja na bodziec?

Nie możemy cofnąć czasu ani zmienić zachowania, które właśnie wykonał nasz uczeń. Cytując Dr. Jesús Rosales-Ruiz „Najgorszy moment aby naprawić błąd to moment, w którym błąd występuje ”. Gdy próbujemy padamy wtedy w pułapkę z równania pierwszego lub drugiego. Najważniejsze to żeby w treningu zachować płynność. Sprawić aby to co ma nastąpić po niepożądanej reakcji, której już nie zmienimy, było reakcją pożądaną. Nie uda się przez powiedzenie SBN. Następnie to do nas jako przewodników należy wyciągniecie wniosków. Co w treningu, jaka zmienna spowodowała taką a nie inną reakcję.

Podsumowanie

To my nauczyciele a nie uczniowie jesteśmy w tym zespole od wypełniania luk w treningu. Dlatego powinniśmy sobie najpierw odpowiedzieć dlaczego stosujemy SBN. Jaki efekt ma przynieść w przyszłości, jak go osiągniemy. Być może gdy zaczniemy odpowiadać na te pytania to okaże się, że nie spełnia funkcji i tym samym nie ma powodów aby ten sygnał zastosować.

 

Agnieszka Janarek Dog Trainer