
Hoe maken we de medische onderzoeksliteratuur zo betrouwbaar mogelijk? Veel richtlijnen voor publiceren van medisch-wetenschappelijk onderzoek zijn erop gericht om manipulatie van uitkomsten tegen te gaan. Verschillen tussen vooraf vastgelegde uitkomstmaten (‘wat gaan we meten?’) in gepubliceerde protocollen en trialregisters en uiteindelijk gerapporteerde uitkomsten (‘wat hebben we gemeten?’) zijn een voorname bron van vertekening van resultaten (bias).
Een belangrijke rol hierbij spelen de tijdschriftredacties. Die zouden moeten controleren of auteurs zich houden aan de richtlijnen uit CONSORT. Deze trialregistratie vooraf is wettelijk verplicht in de VS en wordt ondersteund door o.a. de WHO. Sinds 2005 stelt het International Committee of Medical Journal Editors (ICMJE) trialregistratie met vooraf gespecificeerde uitkomstmaten als voorwaarde voor acceptatie van artikelen in aangesloten tijdschriften.
Onderzoek naar naleven CONSORT-regels
Nu blijken tijdschriften zich echter in 87% niet aan hun eigen regels te houden. Dit vonden Ben Goldacre en medeonderzoekers in een zeer origineel prospectief onderzoek. Daarin volgden zij op de voet of 5 toptijdschriften bij het publiceren van gerandomiseerde gecontroleerde trials (RCT’s) voldeden aan de Consolidated Standards of Reporting Trials- (of CONSORT)-regels voor transparant publiceren van uitkomstmaten. Deze regels voor uitkomstmaten zijn:
6a | Compleet gedefinieerde vooraf gespecificeerde primaire en secundaire uitkomstmaten, inclusief beschrijving hoe en wanneer deze werden beoordeeld |
6b | Alle veranderingen in trialuitkomsten nadat de trial is begonnen, met redenen |
De 5 tijdschriften waren: Annals of Internal Medicine, BMJ, JAMA, The Lancet en The New England Journal of Medicine (NEJM). (De CONSORT-regels worden overigens onderschreven door maar liefst 585 tijdschriften.) Binnen het aan Oxford Universiteit verbonden Centre for Evidence-Based Medicine Outcome Monitoring Project (COMPare) onderzochten zij prospectief alle gerandomiseerde gecontroleerde trials (RCT’s) die in de periode 19 oktober-30 november 2015 in de 5 genoemde tijdschriften verschenen. Zij keken of deze voldeden aan de genoemde CONSORT-richtlijnen voor rapportage van RCT’s.
Hoe werd dit onderzocht?
Elke RCT werd geïnspecteerd door één van de onderzoekers. Deze verzamelde de originele publicatie, eventuele bijlagen, de beschrijving in de trialregistratie en het trialprotocol. Vervolgens bekeken ze eerst de vooraf vastgelegde uitkomstmaten en of daar voor de trial begon al veranderingen in aangebracht waren. De recentste uitkomstmaten namen ze op in hun databestand. Vervolgens keken ze in het artikel of:
- onderzoekers elke primaire uitkomstmaat rapporteerden;
- zij primaire uitkomstmaten als secundaire maten rapporteerden (of omgekeerd);
- onderzoekers nieuwe, niet vooraf vastgelegde uitkomstmaten rapporteerden, zonder aan te geven dat het om latere toevoegingen ging.
Een tweede onderzoeker controleerde de bevindingen van de eerste onderzoeker. Deze gegevens werden weer voorgelegd aan de senior onderzoekers, die alles controleerden en verifieerden.
Daarna stuurde het team aan elk tijdschrift een brief waarin de junior en de senior onderzoeker verzochten een correctie te plaatsen voor ongemelde verwisselingen in uitkomstmaten (weggelaten oorspronkelijke of toegevoegde nieuwe uitkomstmaten). Daarbij zorgden ze er nauwlettend voor steeds te reageren binnen de gestelde termijn na verschijnen van een publicatie. Voor The Lancet is dat bijvoorbeeld binnen 2 weken en voor NEJM binnen 3 weken. Gedurende een jaar keken de onderzoekers hoeveel van hun brieven gepubliceerd werden en hoe snel (of beter: hoe traag).
Resultaten
In totaal beoordeelden de onderzoekers 67 RCT’s. Bij 58 (87%) vonden ze discrepanties tussen protocol en verslag die een corrigerende brief nodig maakten. De vooraf vastgelegde primaire uitkomstmaten werden gemiddeld door 76% correct gerapporteerd. Per tijdschrift verschilde dit van 25 tot 96%. De secundaire uitkomsten werden gemiddeld door 55% correct gerapporteerd (dit verschilde per tijdschrift van 31 tot 72%). Per trial waren er gemiddeld 5,4 niet-verklaarde later toegevoegde uitkomsten (uitersten 2,9-8,3).
Hoe ging het met de 58 ingezonden brieven? Hiervan werden er 23 gepubliceerd (40%). Dit varieerde per tijdschrift: JAMA en NEJM publiceerden geen enkele brief; BMJ en Annals publiceerden standaard alle brieven online (als rapid reactions) en The Lancet publiceerde 80% van de brieven. Gemiddeld duurde het 99 dagen (0-257) voordat een redactie een ingezonden publiceerde (dit gold voor ingezondens die niet direct online kwamen).
Alle gegevens over de onderzochte trials en de correspondentie met auteurs en redacties staan op COMPare-trials.org.
Reacties op bevindingen
Interessant is dat de onderzoekers ook uitgebreid ingaan op de reacties die ze kregen van tijdschriftredacties en auteurs. Zo leken niet alle redacties de CONSORT-richtlijnen goed te begrijpen: NEJM vond dat zij zélf kon bepalen welke uitkomsten gemeld moeten worden, volgens de Annals is het toegestaan om de rapportage van uitkomsten te switchen zolang de voornaamste resultaten van een studie maar niet veranderen. Anderen begrepen niet dat het volgens CONSORT wel toegestaan is om andere uitkomsten te vermelden dan vooraf geregistreerd, zolang de auteurs deze veranderingen maar verantwoorden in hun publicatie.
Sommige redacteuren deden denigrerend over de status van trialregisters (‘onbetrouwbaar en irrelevant’). De JAMA-redactie stelde dat trialregisters verantwoordelijk zijn voor discrepanties tussen vooraf vastgelegde uitkomsten en de latere rapportages. Ook suggereerden sommige redacties dat de lezers dit maar zelf zouden moeten achterhalen (Goldacre e.a. kostte dit maar liefst 1 tot 7 uur per studie). De redactie van The Lancet liet helemaal niets van zich horen en liet het aan de auteurs van de betreffende RCT’s over om met een reactie te komen.
Ook grepen sommige redacties naar retorische trucs om onder hun verantwoordelijkheid uit te komen: ze zeiden de doelen van Goldacre e.a. te steunen, geen ruimte te hebben voor dit debat of verklaarden een strenge kwaliteitscontrole erop na te houden – ondanks de gevonden discrepanties. BMJ en Annals plaatsten wél een uitgebreide correctie bij artikelen met fouten.
Voorbeelden
Een eerste voorbeeld van problematische rapportage is een in BMJ gepubliceerd onderzoek naar stepped care bij angst en depressie bij ouderen met een visuele beperking. Volgens Goldacre e.a. rapporteerden de onderzoekers in hun artikel geen enkele van de 8 vooraf gespecificeerde uitkomstmaten. Wel voegden ze 22 nieuwe uitkomstmaten toe – zonder deze te verantwoorden.
Deze auteurs ontliepen vervolgens de discussie op de ingezonden brief van de COMPare-onderzoekers op verschillende manieren: zij stelden dat andere onderwerpen belangrijker zijn, speelden uitgebreid op de man (de COMPare-onderzoekers krijgen weinig bijval of steun van financiers of redacties, ze staan niet open voor discussie, ze steunen de onderzoeksgemeenschap niet en plaatsen zich daarbuiten) en ten slotte spraken ze hun voorkeur uit voor conventionele peer-reviewmethoden.
Een tweede voorbeeld betreft een in The Lancet gepubliceerd onderzoek naar een via internet geleverde interventie om handen wassen te stimuleren om influenza-achtige ziektebeelden en luchtweginfecties terug te dringen. Volgens de COMPare-onderzoekers meldden deze auteurs geen enkele van de 12 vooraf vastgelegde uitkomstmaten, maar ze kwamen wel met 17 niet gemotiveerde nieuwe uitkomsten. Daarnaast hadden ze vooraf een intention-to-treat-analyse aangekondigd, maar ze rapporteerden uitsluitend een per-protocolanalyse.
In een andere ingezonden brief reageerden twee andere auteurs eveneens met verbazing op dit onderzoek wegens de ‘substantiële afwijkingen van het protocol en niet-geplande beslissingen tijdens het beloop van de trial, zoals toevoegen van onderzoeksarmen en veranderen van randomisatiemethode.’ Ook merken deze briefschrijvers op dat ‘de primaire uitkomstmaat niet tevoren gedefinieerd was, maar achteraf gekozen werd op logistieke gronden.’
De auteurs van deze Lancet-studie reageerden met de stelling dat ze wel hun eigen protocol gevolgd hebben, een protocol dat niet online staat en kennelijk afweek van dat in het trialregister. Verder ontkennen zij dat ze primaire uitkomsten niet gemeld zouden hebben en ze stellen dat toegevoegde uitkomstmaten niet verantwoord hoeven te worden. Ook verdedigen ze zich door te stellen dat switchen van uitkomsten geen probleem was omdat al hun uitkomsten zeer statistisch significant waren, hoe ze ook gemeten werden. De rapportage zou ‘in de geest van COMPare zijn’. De COMPare-onderzoekers wijzen er terecht op dat dit de weg vrijmaakt voor manipulatie van bevindingen. De uitsmijter van de Lancet-onderzoekers: ‘trials should not be set in stone’.
Conclusies en verbeterpunten
Goldacre e.a. concluderen dat tijdschriften die in theorie de CONSORT-richtlijnen ondersteunen, dit in de praktijk niet bleken te doen. De redacties weigerden de meerderheid van de correctiebrieven of beschouwden de gemelde tekortkomingen niet als problematisch. Twee tijdschriften weigerden zelfs alle ingezonden brieven hierover.
Als sterkste punt van hun vernieuwende onderzoek noemen de auteurs zelf dat ze prospectief geconstateerde gebreken direct proberen te corrigeren. Daarmee maken ze ook pijnlijk duidelijk hoe redacties met dergelijke peer-review na publicatie omgaan. Doordat de onderzoekers al hun data online publiceerden, bleek ook duidelijk dat ze zelf nauwelijks fouten gemaakt hebben. Slechts 2 coderingsfouten (op een aantal van 756) moesten ze achteraf corrigeren.
In een eerdere systematische review uit 2015 met een vergelijking van geregistreerde en gepubliceerde uitkomsten van RCT’s vond men een percentage van 31% van niet gerapporteerde vooraf vastgelegde primaire uitkomstmaten. Goldacre e.a. concluderen dat het in de toekomst dringend nodig blijft om nog meer te zorgen dat richtlijnen voor publicatie van RCT’s worden nageleefd. Voor onderzoekers is het nuttiger om prospectief en real-time de literatuur te corrigeren, zoals zij zelf ook gedaan hebben. Retrospectief verschenen studies analyseren levert veel minder relevante informatie op.
Verder concluderen zij dat het grote verschil tussen het publieke standpunt en de daadwerkelijke redactionele praktijk duidelijk maakt dat lezers waarschijnlijk ten onrechte een gevoel van vertrouwen zullen hebben. Lezers kunnen er helaas niet van uitgaan dat auteurs alle vooraf gespecificeerde uitkomsten correct rapporteren in onderzoeksartikelen.
De onderzoekers zouden graag zien dat redacties zich houden aan de CONSORT-regels. Redacties moeten ten minste expliciet melden of ze dat inderdaad doen. Ook moeten ze aangeven hoe ze de navolging van CONSORT-regels precies beoordelen.
Verder stellen auteurs dat tijdschriften open moeten staan voor ingezonden brieven over tekortkomingen in artikelen, bij voorkeur in de vorm van onlinereacties. Ook andere beperkingen op ingezonden brieven vinden zij onterecht: lengte, inzendtermijn en publicatietermijn moeten veel vrijer zijn. PubMed Commons noemen ze een goed alternatief.
Al met al vinden wij dit belangrijk en origineel onderzoek. Het toont dat vooral tijdschriftredacties nog veel werk te doen hebben, onder het motto: ‘practice what you preach’.
Artikel over reacties op ingezonden brieven
In een afzonderlijk artikel analyseerden Goldacre e.a. de reacties van auteurs op hun corrigerende brief. Zij delen daarbij de reacties van auteurs in in verschillende categorieën. De voornaamste categorie betreft feitelijke onjuistheden over de vereisten volgens de CONSORT-regels:
- Onjuiste beweringen over de vraag of uitkomstmaten vooraf gespecificeerd moeten worden.
- Niet erkennen dat het noodzakelijk is om veranderingen in vooraf gespecificeerde uitkomstmaten in het artikel te rapporteren.
- Onjuiste beweringen over de rol en de werking van trialregisters.
- Vergoelijken van het gelijktijdig bestaan van meerdere van elkaar verschillende beschrijvingen van vooraf vastgelegde uitkomstmaten, bijvoorbeeld door verschillen in trialregister en studieprotocol.
- Onjuiste stellingen over het vooraf vastleggen en later rapporteren van dezelfde uitkomstmaten op verschillende tijdstippen.
Daarnaast delen zij de reacties van auteurs in naar gebruikte retorische stijlen:
- Afleiding (bijv. stellen dat trials ‘erg zwaar werk’ zijn, noemen van andere onderwerpen die belangrijker zouden zijn, ingaan op andere problemen dan aan de orde of op de man spelen).
- Legitimiteit van de discussie in twijfel trekken (bijv. voorkeur voor gewone peer-review i.p.v. post-publicatiepeer-review, twijfel over de aanpak van de COMPare-onderzoekers of toejuichen van hun doelstellingen in het algemeen, maar wel met een voorbehoud komen).
- Zich beroepen op vertrouwen in eigen goede bedoelingen (ze wilden de uitkomsten niet manipuleren of ze denken niet dat hun voornaamste bevindingen erdoor beïnvloed werden).
- Onjuiste beweringen over eigen uitkomsten (ontkennen van eigen specifieke tekortkomingen of algemene ontkenning).
- Technische of retorische ontkenningen (nieuwe uitkomstmaten hoeven niet gemeld te worden, zich beroepen op beperkte ruimte voor rapportage of onjuist weergeven van COMPare-onderzoek).