Operante conditionering

biologisch proces
Geheugen (psychologie)
Nervous tissue spinal cord motor neuron
Sensorisch geheugen
Iconisch geheugen
Echoïsch geheugen
Kortetermijngeheugen
Werkgeheugen
Langetermijngeheugen
Declaratief geheugen
Episodisch geheugen
Semantisch geheugen
Niet-declaratief geheugen
Procedureel geheugen
Priming
Conditionering
Klassieke conditionering
Operante conditionering

Portaal Portaalicoon Psychologie

Operante conditionering of instrumenteel leren is het leerproces waarbij een respons in een bepaalde context gevolgd wordt door een bekrachtiger (Engels: reinforcer) of bestraffer (Engels: punisher). Een bekrachtiger is elke gebeurtenis die de kans vergroot dat dezelfde respons in de toekomst weer zal optreden. Een bestraffer is daarentegen elke gebeurtenis die de kans verkleint dat de respons weer zal optreden. In dierexperimenten is de bekrachtiger vaak voedsel of drank, en de bestraffer een elektrisch schokje. Soms spreekt men ook wel van positieve en negatieve bekrachtigers.

Stickers worden in het onderwijs als bekrachtiger gebruikt, bijvoorbeeld in leerlingenwerk

Geschiedenis

bewerken
  • Edward L. Thorndike was de feitelijke ontdekker van operante conditionering. E.L. Thorndike maakte gebruik van de zogenaamde puzzlebox.
  • Een van de belangrijkste leerpsychologen die na E.L. Thorndike de operante conditionering heeft bestudeerd is Burrhus F. Skinner. Met de operante conditionering verschafte Skinner de psychologie een wetenschappelijk model voor het bestuderen van willekeurig gedrag (in tegenstelling tot uitgelokt of reflexmatig gedrag, de klassieke conditionering). Volgens E.L. Thorndike zal mens en dier alles in het werk stellen om heer en meester te worden van een nieuwe situatie, als hij nog niet kan steunen op vroeger opgedane ervaringen om aan zijn behoeften te voldoen. De pogingen daartoe worden probeerhandelingen genoemd, of zoals E.L. Thorndike het noemt trial and error.

Recent onderzoek toont het belang van operante conditionering aan voor zeer complex gedrag, waaronder taal en cognities. Met name de Relational Frame Theory is geënt op operante conditionering[1].

Kenmerken operant gedrag

bewerken

Bij operante conditionering wordt de kans op een bepaald gedrag in een bepaalde context vergroot door de daaropvolgend bekrachtigende gebeurtenis of prikkel. Dit gedrag is in tegenstelling tot reflexmatige reacties die door een stimulus worden uitgelokt, spontaan van aard. Dit gedrag wordt ook wel operant genoemd. Operant gedrag wordt dus niet uitgelokt, maar voortgebracht (Engels: emitted). Het is bovendien een vorm van gedrag dat een uitwerking heeft op de omgeving. De uitwerking kan bestaan uit een gebeurtenis die dit gedrag versterkt. Bijvoorbeeld het huilen van een baby 's nachts heeft een uitwerking op de ouders. Die kunnen het kind troosten of te eten geven.

Soorten bekrachtiging en correctie

bewerken

Er worden doorgaans twee soorten bekrachtigers en twee soorten bestraffers onderscheiden, die ongeveer hetzelfde effect op het leergedrag hebben:

  • Positieve bekrachtiging: het aanbieden van een positieve prikkel (bijvoorbeeld voedsel, geven van speelgoed aan kind)
  • Negatieve bekrachtiging: het wegnemen van een negatieve prikkel (bijvoorbeeld verminderde hoofdpijn door het slikken van een aspirine, het staken van een alarm bij het dragen van een autogordel)
  • Positieve correctie: het aanbieden of toedienen van een negatieve prikkel (bijvoorbeeld, met de neus tegen het schrikdraad komen)
  • Negatieve correctie: de afwezigheid of ophouden van de positieve prikkel (bijvoorbeeld onthouden van voedsel, een kind zijn speelgoed afnemen als het vervelend is).

Volgens de Engelse onderzoeker Edmund Rolls[2] kunnen veel basisemoties die bij de mens optreden, afgeleid worden uit dit schema. Positieve bekrachtigers zijn bijvoorbeeld geassocieerd met blijheid, negatieve bekrachtigers met opluchting. Positieve correcties met vrees, en negatieve correcties met frustratie en woede.

Uitdoving en partiële bekrachtiging

bewerken

Uitdoving (Engels: extinction) is het verschijnsel dat de frequentie van gedrag dat niet meer wordt beloond, geleidelijk zal afnemen. Partiële of intermitterende bekrachtiging wil zeggen dat het gewenste gedrag niet altijd wordt beloond: men beloont bijvoorbeeld maar 80% van de gevallen. In deze situatie zal het gewenste leereffect later optreden (het leerproces duurt langer). Een kenmerk van dit soort van gedrag is dat, als het eenmaal tot stand is gebracht, ook veel langer standhoudt, dus beter bestand is tegen uitdoving. Deze effecten spelen vermoedelijk ook een rol bij gokverslaving. Het gokspel heeft namelijk ook als kenmerk dat er maar zo af en toe een beloning of bonus wordt uitgekeerd.

Procedure

bewerken

Skinner-box

bewerken

B.F. Skinner onderzocht dit soort gedrag van proefdieren in zijn Skinner-box. Hierin leert het dier dat het door op een knop te drukken (of tegen een paneeltje te pikken), voedsel toegediend krijgt. Aanvankelijk treedt dit gedrag spontaan op: de rat of duif raakt toevallig het knopje aan. Als daarna voedsel in het etensbakje wordt gedeponeerd, zal een hongerig proefdier er toe neigen dezelfde handeling te herhalen. De kans dat dit specifieke gedrag optreedt, neemt dan toe boven het spontane niveau. Deze wetmatigheid wordt ook wel 'wet van het resultaat' (Engels: Law of effect) genoemd. De reacties van proefdieren worden geregistreerd op een z.g. cumulatieve recorder. Shaping wil zeggen dat men het gedrag van het dier via een aantal tussenstappen vormt, totdat het gewenste gedrag optreedt. Dit kan inhouden dat men eerst gedrag beloont dat lijkt op het gewenst gedrag (zoals kijken in de richting van een responspaneel), en dan geleidelijk de criteria aanscherpt.

Bekrachtigingsschema's

bewerken

Bij operant conditioneren kunnen verschillende schema's worden aangehouden voor het geven van bekrachtiging. Deze bestaat uit twee hoofdgroepen: continue en intermitterende bekrachtiging.

  • Continue bekrachtiging: gedrag wordt iedere keer dat het vertoond wordt beloond of bestraft.
  • Intermitterende bekrachtiging (partiële bekrachtiging) is een beloning van sommige maar niet alle responsen en wordt onderscheiden in vier vormen.
    • vast interval (FI: fixed interval): het eerste beoogde gedrag dat gesteld wordt na een vaste periode of interval, wordt bekrachtigd; gedrag dat voordien wordt gesteld, wordt niet bekrachtigd. Bijvoorbeeld: FI5" = bekrachtiging na een vast interval van 5 seconden.
    • variabel interval (VI): het eerste beoogde gedrag dat gesteld wordt na een periode die wisselt qua duur, maar met een bepaald gemiddelde, wordt bekrachtigd. Bijvoorbeeld VI5" = bekrachtiging na wisselende intervals, met een gemiddelde van 5 seconden.
    • vaste ratio (FR = fixed ratio): bekrachtiging volgt pas na een vast aantal reacties. Bijvoorbeeld FR5 = bekrachtiging na 5 reacties.
    • variabele ratio (VR): bekrachtiging volgt na een wisselend aantal reacties met een bepaald gemiddelde. Bijvoorbeeld VR5 = bekrachtiging na een wisselend aantal reacties, met een gemiddelde van 5.

Elke schema roept daarbij een specifiek leerresultaat op.

Discriminatieve stimulus

bewerken

Een discriminatieve stimulus is een prikkel die wijst op een verhoogde kans op bekrachtiging. Met een discriminatieve stimulus kan het gedrag van een proefdier in een Skinner-box verder onder controle worden gebracht. Een duif kan bijvoorbeeld geleerd worden alleen een respons te geven als een rood lichtje brandt, maar niet bij een groen lichtje. Ook kunnen op die manier verschillende soorten gedrag worden aangeleerd. Bijvoorbeeld om op een knop te pikken als op een schermpje het woord PIKKEN verschijnt, en rond te draaien bij het woord DRAAIEN.[3]

Neurale basis

bewerken

Operante conditionering is gebaseerd op mechanismen die in de hersenen zijn verankerd. Anders dan bij klassieke conditionering spelen hierbij ook gebieden en zenuwkernen die betrokken zijn bij het reguleren van motorische activiteit een rol. Dit zijn de motorische schors, het limbische systeem en het striatum. Ook is bekend dat dopamine het effect van beloning kan versterken. Stoffen die de dopaminereceptoren blokkeren, zullen bijvoorbeeld zelfstimulatiegedrag of een voorwaardelijke reactie van ratten in een instrumenteel leerparadigma onderdrukken.

Toepassing in therapie

bewerken

Operant conditioneren van gedrag is zeer vaak toegepast om ernstige gedragsproblemen of psychiatrische problemen te bestrijden. De meeste toepassingen hanteren sociale bekrachtiging (een vorm van positieve bekrachtiging). Door het gewenste gedrag te belonen, leert men dan dit te versterken. Een specifieke vorm van toegepaste operante conditionering is de token economy, waarbij bekrachtiging gebeurt via tokens die achteraf kunnen ingeruild worden voor andere zaken. Biofeedback is een andere vorm van operant conditioneren die klinisch relevant blijkt. Hierbij leert iemand gedrag te vermijden waarvan hij of zij zich niet bewust is, zoals bepaalde kleine spiercontracties.

Gerelateerde onderwerpen

bewerken

Literatuur

bewerken
  • Thorndike, E. L. (1901). Animal intelligence: An experimental study of the associative processes in animals. Psychological Review Monograph Supplement, 2, 1-109.
  • Schultz, Wolfram (1998). Predictive Reward Signal of Dopamine Neurons. The Journal of Neurophysiology, 80(1), 1-27.
  • Pryor, Karen (1984). Don't Shoot The Dog, the underlying principles of behavioral change and examples of how they apply to everyday dilemmas, such as shaping a childs behavior.
  • Pryor, Karen (2009). Reaching The Animal Mind, man kind included.
  • Pryor, Karen (2014). On My Mind, Reflections on animal behavior and learning.
  • Vargas, Julie S. (2020). Behavior Analysis For Effective Training. (Julie Vargas is B.F. Skinner's daughter).
  • Ramirez, Ken (2020). The Eye Of The Trainer.
  • Fenzi Denise, Jones Deb (2013-2016): 1 Developping Engagement. 2. Motivation. 3. Play! 4. Focus and Engage!
bewerken
Zie de categorie Operant conditioning van Wikimedia Commons voor mediabestanden over dit onderwerp.