Qu’est-ce qu’un niveau de preuve scientifique ?
« Quod gratis asseritur gratis negatur. »1
Le National Cancer Institute définit les niveaux de preuve comme constitutifs d’un « système de classement utilisé pour décrire la force des résultats mesurés dans un essai clinique ou une étude de recherche » [3]. Ce terme avait été utilisé en 1979 par le Canadian Task Force on the Periodic Health Examination [4] pour « évaluer l’efficacité d’une intervention en fonction de la qualité des preuves obtenues ». Ce groupe de travail avait utilisé quatre niveaux de preuve :
- niveau I : données probantes provenant d’au moins un essai contrôlé randomisé (ECR) ;
- niveau II-1 : données probantes provenant d’au moins une étude de cohorte ou d’une étude cas-témoin bien conçue (études comparatives, non randomisées) ;
- niveau II-2 : comparaisons entre les périodes et les lieux, avec ou sans intervention ;
- niveau III : avis d’experts, fondés sur l’expérience clinique, sur des études descriptives ou les rapports de comités.
Depuis, plusieurs dizaines de systèmes hiérarchiques ont été proposées pour l’évaluation des preuves. En règle générale, les ECR sont classés au-dessus des études observationnelles, tandis que les avis d’experts et les cas cliniques (« expérience anecdotique ») figurent au dernier rang. Certaines hiérarchies de preuves, comme celle du Centre for Evidence-Based Medicine, placent la revue systématique de la littérature et la méta-analyse des ECR au-dessus de ceux-ci [5]. Un guide de la Haute Autorité de santé décrit ces nombreuses méthodes d’élaboration de recommandations [6]. La méthode Grade présentée ici a été adoptée par plus d’une centaine de sociétés savantes françaises ou étrangères [7] et d’organisations internationales telles que l’OMS [8]. Notons qu’elle requiert un temps d’analyse conséquent pour chaque article analysé, pouvant aller de 30 minutes à plus de deux heures suivant l’expérience des lecteurs [6].
Comment fonctionne la méthode Grade ?
La méthode Grade [9,10,11,12]2 évalue la qualité des données scientifiques, en répondant à des questions précises sur les quatre critères du modèle « population étudiée, intervention, comparateur ou contrôle, outcome (ou critère de jugement évaluant l’efficacité de l’intervention) » (Pico) illustrés en Tableau I. Elle est orientée vers l’analyse des ECR (ou méta-analyses d’ECR), mais peut aussi être utilisée pour des études d’observation.
Les principales étapes de cette méthode sont les suivantes :
- Formuler la question (selon les critères du modèle Pico).
- Choisir le(les) critère(s) de jugement (CJ) d’intérêt pour l’analyse de la littérature, et les hiérarchiser en : « crucial », « important », ou « non important ». Ces critères peuvent concerner l’efficacité ou la sécurité (tolérance) de l’étude.
- Réaliser une revue de la littérature, débouchant sur une méta-analyse.
- Estimer l’effet de l’intervention.
- Évaluer le niveau de preuve, global pour chaque critère de jugement.
- Apprécier les balances bénéfice/risque et coût/bénéfice.
- Formuler la recommandation, en lui attribuant un « grade ».
Point de départ de la démarche, la stratégie de recherche de la littérature répondant à la question doit être systématique [13]. Sont concernées les publications indexées dans les bases de données bibliographiques, telles que PubMed [14], ScienceDirect [15], Cochrane Library [16], Institut de l’information scientifique et technique (Inist) – Centre national de la recherche scientifique (CNRS) [17], etc., mais aussi celles indexées dans les bases de données d’essais cliniques, telles que clinicaltrials.gov [18] ou EU ClinicalTrials Register [19], et enfin la littérature grise (rapports d’étude ou de recherche, actes de congrès, thèses, brevets, etc.) [20,21,22]. Cette dernière est disponible dans des bases de données bibliographiques telles que OpenGrey [23]. Des grilles d’analyse des biais des études sont disponibles et utiles : Risk of Bias (RoB) pour les études randomisées [24] et Risk Of Bias In Non-randomised Studies of Interventions (Robins) pour les études d’observation [25].
Puis on réalise une estimation globale de l’effet de l’intervention pour chaque CJ, via une méta-analyse « classique » [26,27] ou une autre méthode [28,29]. Ensuite, on évalue pour chaque CJ le niveau de preuve scientifique de l’ensemble des études retenues, qui débouche sur l’attribution de l’un des grades suivants : « élevé », « modéré », « bas » ou « très bas » ; en prenant en compte les méthodes utilisées (« design »), la cohérence des données, les critères de jugements directs ou indirects, la précision des données et les « autres » facteurs de qualité.
Concernant la méthode utilisée, l’analyse ne doit pas s’intéresser uniquement à celle-ci, mais intégrer des possibilités de « promotion » ou de « dégradation » de la cotation, par exemple en remontant le niveau de preuve d’études observationnelles de bonnes qualités ou en abaissant celui d’un ECR de mauvaise qualité.
Le niveau de preuve augmente en cas :
- d’importance de la « force de l’association » (entre un facteur et un résultat) : importante : +1 ; très importante : +2 ;
- d’existence d’une relation dose-effet (+1).
Le niveau de preuve diminue en cas :
- d’existence de biais : sérieux : -1, très sérieux : -2 ;
- d’imprécision : sérieuse : -1, très sérieuse : -2 ;
- d’hétérogénéité des résultats : sérieuse : -1, très sérieuse : -2 ;
- de mesure indirecte : sérieuse : -1, très sérieuse : -2 ;
- de biais de publication probable : sérieux : -1, très sérieux : -2.
Le niveau de preuve global de l’intervention est le niveau de preuve du CJ le plus critique, ayant le plus faible niveau de preuve.
On peut ensuite proposer une recommandation. Celle-ci peut être « forte » ou « faible », « négative » ou « positive ». La force de la recommandation reflète l’importance de l’événement traité (incidence et gravité), le niveau global de preuve, l’effet de l’intervention (importance et précision de l’estimation), les valeurs et les préférences des praticiens et des patients, la balance bénéfices/risques, le coût, et l’acceptabilité. Il faudra ensuite diffuser, appliquer et évaluer cette recommandation.
Comment lire les recommandations Grade ?
Comme pour toute recommandation, la lecture doit s’appuyer sur l’argumentaire. S’agissant de la méthode Grade, les recommandations sont intégrées au sein d’un tableau synthétique contenant au minimum les éléments suivants : question initiale, recommandation, force de la recommandation, et niveau de preuve scientifique (scoré « élevé », « modéré », « bas » ou « très bas »). Un niveau de preuve « élevé » s’appuie sur plusieurs ECR sans biais ou sur une méta-analyse d’ECR, et suggère que des études ultérieures ne changeront très probablement pas la confiance dans l’estimation de l’effet. Un niveau de preuve « très bas » suggère au contraire que l’estimation de l’effet est incertaine.
Parallèlement, la méthode Grade doit présenter, sous forme de tableaux, le détail des diverses cotations et estimations, avec une évaluation de la qualité de la littérature étudiée, un résumé des estimations d’effets et une évaluation globale des biais. On devrait y trouver :
- La méthode de l’étude : randomisée ou non (observation) ; en cas de randomisation : qualité de la randomisation, patients perdus de vue (proportion et caractéristiques), type d’analyse (en intention de traiter ou non).
- La cohérence des données : existence ou non d’une hétérogénéité (variabilité des études), du fait de facteurs tels que la population (formes cliniques, etc.) ou l’intervention (dose, durée, etc.). Dans une méta-analyse, elle est mise en évidence par des tests statistiques et des indices spécifiques, tels que le I2 de Higgins [26,30], un I2 supérieur à 50 % traduisant une hétérogénéité importante.
- Les critères de jugements directs ou indirects : par exemple la réduction d’une masse tumorale (critère indirect), la survie d’une bactérie (critère direct), une colonisation de la peau (critère direct), ou une infection (critère direct).
- L’ampleur de l’effet : mesurée via des mesures relatives comme le risque relatif (RR), l’odds ratio [31,32] ou le rapport des risques instantanés (« hazard ratio ») [33,34] ; ou mesurée via la mesure absolue du risque attribuable, ou d’autres indices d’effet [27]. On prend ici en compte l’existence d’une relation dose-effet et de facteurs de confusion. Pour une étude d’observation, il existe une « surcote » pour les effets importants, par exemple dans une étude d’observation : +1 pour un RR supérieur à 2 (ou inférieur à 0,5), ou +2 pour un RR supérieur à 5 (ou inférieur à 0,2).
- La précision des données : estimée par l’étendue de l’intervalle de confiance du CJ. Celle-ci est importante en cas de petits effectifs ou de rareté des évènements.
- Les « autres » facteurs de qualité : par exemple l’absence de biais de publication [35].
Les scores de départ sont les suivants : 4/4 pour un ECR, 4/4 pour une méta-analyse, 2/4 pour une étude d’observation (cohorte, cas-témoin, etc.). Puis on « décote » en prenant en compte les différents facteurs de qualité : 0 si pas de problème, -1 si problème sérieux, -2 si problème très sérieux. Un ECR avec de « très sérieux problèmes » peut ainsi voir son score passer de 4/4 à 2/4, qui correspond à celui d’une étude d’observation.
Exemples d’utilisation de la méthode Grade en hygiène hospitalière
La Société française d’hygiène hospitalière a partiellement mis en œuvre la méthode Grade pour deux recommandations : Mise à jour de la conférence de consensus – Gestion préopératoire du risque infectieux [36] et Quelles mesures pour maîtriser le risque infectieux chez les patients immunodéprimés ? – Recommandations formalisées d’experts [37].
Pour la première recommandation, le Tableau II présente une synthèse de sept publications concernant la préparation cutanée : détersion suivie d’antisepsie versus antisepsie seule. Les informations contenues dans ce tableau sont relatives pour chaque critère de jugement, en fonction du nombre d’études retenues, de l’évaluation de leur qualité, de la taille des échantillons, des effets (effet relatif et effet absolu) et du niveau final de preuve scientifique. Les critères de jugement retenus sont l’un clinique (infection du site opératoire), l’autre microbiologique (colonisation cutanée). Pour l’infection du site opératoire, par exemple, on dispose de trois études randomisées, tandis que pour la colonisation on dispose de trois études randomisées et d’une étude d’observation. Pour les trois études randomisées dont le critère de jugement est l’infection du site opératoire, les risques de biais sont « sérieux » et « très sérieux » du fait de l’imprécision de certains éléments. La qualité globale, c’est-à-dire le niveau de preuve scientifique, est « très bas ». Le RR global est de 1,08, mais n’est pas statistiquement différent de 1, avec un intervalle de confiance à 95 % allant de 0,57 à 2,03 (donc contenant 1). Il n’y a donc pas de différence statistique entre la stratégie de détersion suivie d’une antisepsie et celle de l’antisepsie seule pour la prévention des infections du site opératoire.
Le Tableau III est extrait de deuxième la recommandation [37] et concerne les interventions étudiées sur l’« Alimentation à faible inoculum bactérien pour la prévention des infections chez les patients immunodéprimés ». Les informations contenues dans ce tableau sont relatives pour chaque critère de jugement, en fonction du nombre d’études retenues, de leur taille, du niveau de preuve scientifique (sans le détail de l’évaluation de la qualité des études, contrairement au tableau précédant) et des effets (effet relatif et effet absolu). Les critères de jugement retenus sont l’un microbiologique (colonisation) et les autres cliniques (bactériémie, bactériémie et/ou fongémie, pneumonie). Pour la bactériémie, par exemple, on ne dispose que d’une étude incluant 46 patients. Le niveau de preuve scientifique est « bas », lié aux biais et à l’imprécision de certains éléments, avec un intervalle de confiance à 95 % assez large puisqu’il va de 0,39 à 2,47. Le RR est de 0,98 et donc non statistiquement différent de 1. Il n’y a pas donc pas de différence statistique entre la stratégie alimentation « pauvre en bactérie » et une alimentation « conventionnelle » pour la prévention des bactériémies chez les patients immunodéprimés.
Conclusion
Pour telles ou telles raisons, la méthode Grade figure parmi les méthodes les plus rigoureuses pour l’élaboration des recommandations. Elle requiert néanmoins un certain entraînement des experts avant son utilisation.
Notes:
1- Ce qui est affirmé sans preuve peut être nié sans preuve. Ce précepte du droit romain s’applique bien à la science et à la médecine.
2- Le manuel Gradepro [39] et le logiciel Gradepro [38] ont été spécifiquement conçus pour l’élaboration de recommandations basées sur l’utilisation de la méthode Grade. Ils peuvent être utilisés seuls ou en complément d’autres outils, tels que RevMan [40], outil Cochrane dédié à la méta-analyse.
Pour en savoir plus :
- Hajjar J. Élaborer les outils de la prévention. Hygiènes 2018 ; 26(4): 43-45.
- Laurence M. Construire les référentiels : forces et limites de l’evidence-based medicine. Hygiènes 2018; 26(4): 47-52.