Een knuppel in het hoenderhok. Bijna driehonderd psychologen hebben honderd studies uit hun vakgebied herhaald en wat blijkt: de helft tot tweederde van het gepubliceerde onderzoek blijkt na een paar jaar niet meer geldig. Vastgesteld door het toonaangevende tijdschrift Science. Afgelopen dagen kwamen de reacties los. NRC Handelsblad (29, 30 augustus 2015) wijdde een hele pagina aan de kwestie – ‘Je bent direct bang dat ze zeggen: psychologen zijn maar knoeiers’, stond in de kop—citaat van een Nederlandse autoriteit in het vak. Persoonlijk vond ik sommige van de verzamelde opmerkingen wel grappig. Rechtvaardigingen, excuses, diplomatie, tegenaanval: Het is allemaal niet zo erg; er is veel op het onderzoek af te dingen; kijk eerst eens naar andere vakken, daar is het allemaal nog veel erger, of het is daar hetzelfde maar dat weten we niet (wij zijn moedig en geven openheid van zaken); het is heus geen fraude. Enzovoort. Hoe er internationaal over wordt gedacht weet ik niet, maar een defensieve houding bij Nederlandse psychologen is te begrijpen, ze zijn de klap van Diederik Stapel vast nog niet te boven. En inderdaad, zoals in de krant uitdrukkelijk wordt vastgesteld: prominente psychologen reageren niet geschokt vanwege de uitkomst van het onderzoek maar vanwege de ‘commotie’ die het heeft veroorzaakt, het vak opnieuw in opspraak.

Als beoefenaar van een belendend vak kijk ik niet op van het resultaat, alhoewel de psychologie juist op het gebied van de betrouwbaarheid vaak ten voorbeeld is gesteld aan de, over het algemeen, veel bescheidener sociologen—om het over de antropologie nog maar niet te hebben. Psychologisch onderzoek zou immers vaak plaatsvinden onder experimentele omstandigheden, ‘psychologische laboratoria’, en het tellen en meten zou er aanzienlijk meer sophisticated plaatsvinden dan in andere gedragswetenschappen. Ik kan me dat zelfs nog wel herinneren uit mijn studietijd, een eeuwigheid geleden. We lazen een handboek van Duijker, Palland en Vuijk: Leerboek der psychologie, dat in mijn herinnering vol stond met fraaie proefjes en verslagen van strenge experimenten. En, uiteraard, bestudeerden we A.D. de Groot’s Methodologie. Hij was hoogleraar psychologie aan mijn universiteit, zijn boek gold als de ‘Bijbel’ van het sociaal-wetenschappelijk onderzoek. Als het ging om de academische respectabiliteit van de maatschappij- en gedragswetenschappen, werd ons als studenten altijd voorgehouden, stond de economie bovenaan, daarna kwam de psychologie, achteraan wat amechtig gevolgd door de sociologie, politicologie en antropologie en dat soort vakken. Als ik me niet vergis was het Bram de Swaan die destijds pesterig schreef over de ‘sociale zogenaamde wetenschappen’.

Inmiddels weten we wel beter hoe de verhoudingen liggen. Wat me van de kwestie Stapel is bijgebleven is uiteraard de stompzinnige fraude, daarnaast de onbegrijpelijke houding van zijn studenten en medewerkers die zich allerlei gefingeerde cijfers in de maag lieten splitsen en blijkbaar niet moedig genoeg waren om op te komen voor hun recht om zélf hun gegevens te verzamelen. Maar misschien nog wel het meest: de idiote onderwerpen waar de sociale psychologie zich mee inlaat. Het verband tussen vleeseters en hufterigheid en dat soort onzin. Die verbanden waren tot op drie cijfers achter de komma gespecificeerd (zo hoort dat blijkbaar in het vak) en maakten daardoor een uiterst betrouwbare indruk. Niemand viel over het feit dat het vak zich met trivialiteiten bezighield. Bij alle ophef over het Science-onderzoek zou ik graag willen weten wat voor soort onderzoek nu eigenlijk herhaald is en wat precies de bedoeling is geweest van die herhaling. Ik vrees dat de eerste belangstelling een methodologische was, zijn de cijfertjes goed opgeteld, en niet: waar houdt de psychologie zich eigenlijk mee bezig en schieten we daar iets mee op? In het NRC Handelsblad—artikel las ik als voorbeeld van herhaald onderzoek: ‘wat voor kijkgedrag vertonen mensen in een situatie waarin iemand wordt beledigd’ en ‘voelen vrouwen zich rond de eisprong meer aangetrokken tot vrijgezelle dan tot gebonden mannen’. Alsjeblieft! Stapel all over again!

De reproduceerbaarheid van onderzoek heeft inderdaad op zichzelf helemaal niets met fraude te maken. Het is een methodologisch toetsingscriterium. De onderdelen van het onderzoek, de omstandigheden en de gang van zaken zijn zodanig duidelijk omschreven dat anderen het kunnen herhalen en dat de kans dus groot is dat je eenzelfde soort uitkomsten krijgt. Hoe omvangrijk was je steekproef, hoe heb je die getrokken, welke vragen heb je gesteld (in welke volgorde), onder welke omstandigheden heb je proefpersonen bijeen gehaald. De betrouwbaarheid van het onderzoek zou moeten toenemen naarmate de procedures duidelijker zijn. Een zuiver formele kwestie, dus. Daar zitten nog heel wat haken en ogen aan, maar dat doet hier niet terzake–de herhaalde onderzoeken dateerden allemaal uit 2008, je kunt er vanuit gaan dat de maatschappelijke verhoudingen niet zó drastisch veranderd zijn dat er een paar jaar later totaal anders op vragen gereageerd zal worden.

Iets anders is de validiteit van wetenschappelijk onderzoek. Voor zover ik het begrepen heb, is daar bij de psychologen geen aandacht aan besteed. Dit criterium is veel ingewikkelder dan de herhaalbaarheid want het moet antwoord geven op de fundamentele vraag: heb je eigenlijk wel onderzocht wat je wilde weten? Om maar op het zojuist genoemde voorbeeld in te gaan: hoe weet je wat vrouwen voelen bij de eisprong. Voelen ze eigenlijk wel iets? Vraag je ze dat? Hoe weet je dat ze de waarheid spreken? Kennen ze de waarheid? Wat moeten ze precies zeggen voordat je besluit dat ze zich op vrijgezelle mannen richten? Hoe weten ze dat die mannen vrijgezel zijn? Of, het andere voorbeeld: hoe kun je vaststellen dat mensen anders kijken als er iemand beledigd wordt dan wanneer er niemand beledigd wordt? Hangt dat samen met de grootte van het gezelschap? Kijkt iedereen op die manier? Juist die gecompliceerdheid van het waarheidsgehalte maakt dat onderzoek dikwijls alleen op betrouwbaarheid/herhaalbaarheid wordt getoetst, voor het gemak ga je ervan uit dat het met de validiteit wel goed zal zitten.

In mijn eigen vak, de antropologie, is de herhaalbaarheid doorgaans vrijwel nihil. Het onderzoek wordt verricht door iemand die zich vestigt in een bepaalde gemeenschap en probeert deel uit te maken van het dagelijkse leven. Je weet meteen dat zoiets niet herhaald kan worden: de ene onderzoeker is de andere niet en heeft dus volstrekt andere contacten met de onderzochten. Dat heeft alles te maken met sekse, leeftijd, etnische identiteit, ervaring. Het doel is om alles mee te maken. Zoals mijn leermeester altijd zei: je kunt mensen een vragenlijst laten invullen over wat er gebeurt als er een kip gestolen wordt, maar je komt meer te weten als je er zelf getuige van bent. Overdreven kun je stellen: bij experimenteel onderzoek is de herhaalbaarheid maximaal en de validiteit omgeven met onzekerheid, bij ‘participerend’ onderzoek is de herhaalbaarheid vrijwel verwaarloosbaar, maar de validiteit in principe groot. Wat niet wil zeggen dat er nooit antropologisch onderzoek is herhaald. Een spectaculair geval is het onderzoek van Margeret Mead op Samoa, herhaald door Derek Freeman en later is ook het onderzoek van William  F. Whyte in Boston nog een keer overgedaan door Marianne Boelen. Dat heeft tot interessante discussies geleid—de uitkomst is zelden duidelijk. Antropologisch onderzoek wordt vaak afgedaan als ‘subjectief’, je ‘meet’ het resultaat aan de hand van vragen als: is het plausibel? Levensecht? Begrijpelijk? Overtuigend?

Het is mooi dat de psychologie op zo’n grote schaal eens wordt doorgelicht, maar het echte werk moet nog beginnen. We weten dat het met de herhaalbaarheid behelpen is, zou het met de validiteit beter zijn gesteld?