Méta-analyse sur données individuelles
Ce type de MA est réalisé directement à partir des informations concernant les individus et non pas à partir de données agrégées [1,2]. C’est la méthode de référence, par rapport à la MA sur données agrégées (MA-DA). La méta-analyse sur données individuelles (MA-DI) est plus longue à mettre en œuvre qu’une MA-DA. Il est en effet nécessaire de récupérer la totalité des données individuelles (en prenant contact avec les auteurs des différentes études que l’on souhaite inclure dans la MA). Mais les résultats sont plus fiables et procurent des réponses plus détaillées. Les principaux avantages sont : un contrôle de la qualité des données ; une standardisation des analyses de toutes les études ; une analyse statistique plus approfondie, y compris l’exploration des facteurs de confusion potentiels dans les études d’observation et les facteurs pronostiques ; une augmentation de la puissance statistique ; une actualisation possible des données (par exemple, date des dernières nouvelles des patients). Dans de nombreux cas, les résultats et les conclusions des deux types de MA sont similaires. Ainsi, Tudur Smith et al. [13] ont noté que des conclusions similaires pouvaient être obtenues, quatre fois sur cinq. Ces résultats sont conformes à ceux retrouvés par Tierney et al. [14], plus récemment (2020). Ils ont constaté que les hazard ratios (HR) estimés par les MA-DA publiés étaient susceptibles d’être concordants avec ceux des MA-DI, lorsque la taille de l’information était importante. En particulier, les différences entre MA-DA et MA-DI se réduisaient avec l’augmentation du nombre de participants ou d’événements dans la MA-DA. En moyenne, les HR des MA-DA avaient légèrement tendance à favoriser les interventions de recherche. Tudur Smith et al. [13] recommandent qu’une MA-DA soit réalisée, avant de réaliser une MA-DI. Lorsque la MA-DA a des lacunes, il faut considérer les éventuels bénéfices liés à la réalisation d’une MA-DI, en prenant en compte le travail supplémentaire nécessaire. Le détail des conditions de mises en œuvre des MA-DI figure dans les articles de Riley et al. [1] et Tierney et al. [15].
Méta-analyse multivariée
La MA multivariée ou MA-MV [3,4] n’est pas une méta-régression multivariée… (i. e. un seul critère de jugement et plusieurs facteurs potentiellement explicatifs d’une hétérogénéité). Dans de nombreux domaines cliniques, il n’existe pas de critère de jugement (CJ) unique largement accepté. La MA-MV permet de prendre en compte simultanément plusieurs CJ (en pratique deux). On peut, par exemple, prendre simultanément en compte colonisation et infection, infection et mortalité, etc. Il est possible de déterminer l’importance de la corrélation des deux CJ. La MA diagnostiques4 ou la MA en réseau5 sont analysées statistiquement par l’intermédiaire d’une MA-MV. Une des difficultés de la MA-MV est que les covariances intra études (corrélations intra études)6 ne sont pas souvent disponibles dans les études. Il est possible de réaliser une analyse de sensibilité, en faisant varier les coefficients de corrélation entre les CJ. D’autres méthodes, telles que celle de Hong [16] ont été proposées. La prise en compte de la corrélation des CJ peut conduire à des estimations plus précises C’est ce qu’on appelle l’emprunt de force (Borrowing of strength ou BoS) [17] : sous réserve des hypothèses de modélisation, il est possible d’utiliser des informations supplémentaires pour chaque CJ en utilisant des informations connexes (ou indirectes) provenant d’autres CJ corrélés dans la même analyse. Ceci est particulièrement important lorsque certaines des études disponibles ne rapportent pas tous les CJ inclus dans la MA-MV. Ce type d’information indirecte s’est avéré utile pour réduire l’impact du biais de déclaration.
Méta-analyse en réseau (ou Network Meta-analysis) Définition et principe
De nombreux synonymes existent : Network Meta-Analysis (NMA) ; Multiple Treatments Comparison (MTC) ; Mixed Treatment Comparison (MTC, également) ; Indirect Treatment Comparison (ITC)… Historiquement, la méta-analyse en réseau (MA-R) a été développée dans le cadre des essais médicamenteux. Dans certaines pathologies, il est fréquent de disposer de nombreux essais traitement versus placebo et de peu de comparaisons de traitements entre eux. La MA-R [6] a pour objectif d’estimer l’effet d’une intervention A par rapport à une intervention B, à partir des résultats des essais de A et de B versus un même contrôle. L’hypothèse fondamentale est que les effets qu’auraient A et B versus l’intervention contrôle dans les conditions d’un essai « face à face » (i.e. comparaison directe) sont identiques à ceux observés dans les essais à la base de la comparaison indirecte. Les résultats des comparaisons directes sont combinés avec ceux des comparaisons indirectes via approche mixte (Mixed Treatment Comparison ou MTC).
Étapes pour réaliser une méta-analyse en réseau
Elles figurent dans le Tableau I.
Analyse statistique
Une méthode simple de comparaison indirecte de traitements a été introduite pour la première fois par Bucher et al. en 1997 [21]. Elle peut être utilisée lorsque toutes les études ne comparent que deux interventions. Des méthodes bayésiennes ont été publiées par Lu et Ades en 2004 [22]. Elles permettent de prendre en compte les études comportant plus de deux interventions. Depuis, l’utilisation de la MA-R a augmenté régulièrement et de nombreuses agences d’évaluation des technologies de la santé acceptent désormais la MA-R, notamment le National Institute of Health and Care Excellence (NICE) au Royaume Uni, mais aussi l’Organisation mondiale de la santé [23] dans le cadre du développement de recommandations. On peut utiliser l’approche « contrast-based » ou l’approche « arm-based ». Différentes méthodes d’estimation sont disponibles7 : MCMC8 ou INLA9. Des méthodes fréquentistes ont aussi été proposées. Elles sont basées sur un modèle de MA-MV [3,24] ou sur un modèle dérivé des réseaux électriques [25]. La NMA est un cas particulier des modèles linéaires mixtes généralisés [26]. Il est possible de réaliser une MA, sur données individuelles, en réseau [27]. En pratique, le score Sucra10 (ou son équivalent dans l’approche fréquentiste) permet de classer les interventions. La formule est décrite dans Salanti et al. [28].
Hypothèses
Hypothèses spécifiques à la méta-analyse en réseau
Les deux principales hypothèses spécifiques à la MA-R sont la transitivité et la cohérence. Dans un essai randomisé, une interprétation de l’hypothèse de transitivité est que les patients inclus dans le réseau à trois interventions (bras), auraient pu en principe être randomisés dans n’importe quel bras de traitement, A, B ou C. L’hypothèse de transitivité n’est pas respectée si les interventions ont des indications différentes (biais d’indication). La seconde hypothèse spécifique est la cohérence. Elle repose sur l’absence de discordance entre les résultats issus de comparaisons directes des interventions (i. e. deux à deux) et ceux issus de comparaisons indirectes. Plusieurs tests statistiques sont disponibles pour vérifier si le réseau est cohérent ; mais ils manquent de puissance11. Comme toujours, une violation des hypothèses sous-jacentes à un modèle, ici celui de la MA-R, risque d’entraîner des biais dans les estimations des paramètres (odds ratio, risque relatif, Tau…).
Un exemple
L’article de Lefebvre et al. [29] concerne l’efficacité des modalités de dépilation préopératoire, pour la prévention des infections du site opératoire (ISO). En résumé : une MA-R a été réalisée, afin de combiner les preuves directes et indirectes et comparer l’épilation chimique à la tonte. Des MA par paires et en réseau ont été réalisées. Dix-neuf études ont satisfait aux critères d’inclusion. Aucune étude n’a comparé la tonte à la dépilation chimique. Les MA-R avec le rasage comme référence ont montré un nombre significativement inférieur d’ISO avec la tonte, la dépilation chimique ou l’absence de dépilation [risque relatif 0,55, intervalle de confiance à 95% 0,38-0,79 ; 0,60, 0,36-0,97 ; et 0,56, 0,34-0,96, respectivement]. Aucune différence significative n’a été observée entre l’absence de dépilation et la dépilation chimique ou la tonte (1,05, 0,55-2,00 ; 0,97, 0,51-1,82, respectivement) ou entre la dépilation chimique et la tonte (1,09, 0,59-2,01). Cette MA a confirmé l’absence de tout bénéfice de la dépilation pour prévenir l’ISO, et le risque plus élevé d’ISO en cas de rasage. L’épilation chimique et la tonte ont été comparées pour la première fois. Le risque d’ISO semble être similaire avec les deux méthodes (Figure 1).
La méta-analyse séquentielle
La MA séquentielle est l’application de l’approche séquentielle des essais cliniques à la MA12. La plupart des MA, y compris celles de Cochrane, n’ont pas une puissance statistique suffisante. C’est pourquoi une MA doit être considérée comme une analyse intermédiaire. Les résultats des MA devraient mettre en relation le nombre total de participants randomisés avec la taille estimée de l’information méta-analytique requise. Lorsque le nombre de participants et le nombre correspondant d’essais dans une MA sont insuffisants, l’utilisation de l’intervalle de confiance traditionnel de 95% ou du seuil de signification statistique de 5% peuvent conduire à de fausses conclusions positives (erreurs de type I) et à de fausses conclusions négatives (erreurs de type II) [9]. La MA séquentielle met en œuvre, via une MA cumulative, un ajustement des niveaux de signification. Elle permet d’évaluer le risque d’erreurs aléatoires et de conclusions fallacieuses dû à la répétition des tests statistiques dans les MA cumulatives. La TSA13 élargit l’intervalle de confiance et quantifie le niveau de preuve, en calculant la taille des informations requise pour une MA concluante. Considérant donc que la plupart des MA ne disposent pas de la puissance ad hoc, Imberger et al. [31] ont passé en revue 4 736 revues systématiques et retenu 100 MA qui répondaient à leurs critères d’inclusion. En utilisant la MA cumulative classique, des faux positifs ont été constatés dans sept des méta-analyses (7%, 95% IC 3% à 14%), se produisant plus d’une fois sur trois. Le nombre total de faux positifs était de 14 et la TSA en a empêché 13 (93%, 95% IC 68% à 98%). Dans une analyse post hoc, ils ont constaté que les MA Cochrane qui étaient négatives avaient 1,67 fois plus de chance d’être mises à jour (95% IC 0,92 à 2,68) que celles qui sont positives. Ils concluent que, en raison des limites de la validité externe et de la probabilité réduite de mise à jour des MA positives, la proportion réelle de faux positifs dans les MA est probablement plus élevée. La TSA a permis d’éviter 93% des faux positifs (95% IC 68% à 98%).
Méta-analyse bayésienne
La MA-B est l’application de l’inférence bayésienne à la MA ! Rappelons que l’inférence « classique » est fréquentiste14. Nous n’aborderons pas les éléments épistémologiques concernant les deux approches de la statistique, bayésienne ou fréquentiste [34]. Donc, tous les domaines de la MA peuvent être abordés sous l’angle bayésien. La MA conventionnelle repose sur plusieurs hypothèses de distribution intra-étude et interétudes, des estimateurs (OR, RR…). Il est difficile de réaliser une MA avec un faible taux d’événements ou avec peu d’études, car certaines méthodes standard ne sont pas bien adaptées. Par exemple, il est difficile d’estimer l’hétérogénéité interétudes dans cette situation et une estimation inexacte de l’hétérogénéité peut conduire à des intervalles de confiance trop étroits. Différentes méthodes peuvent donner des résultats différents. En ce qui concerne la MA sur petits échantillons (nombre d’études incluses et taille des études), certains modèles fréquentistes peuvent conduire à une importante sous-estimation de la variance de l’hétérogénéité τ² [35]. La MA-B réduit ce biais et, de plus, permet la prise en compte de résultats préexistants (par exemple ceux issus d’études observationnelles, en cas de MA d’études randomisées) via les a priori informatifs concernant l’hétérogénéité de la variance.
Aspects liés aux « petits échantillons »
Il s’agit de MA incluant un faible nombre d’études, ayant de faibles effectifs ou un nombre limité d’événements (parfois, aucun événement)… Elles posent quelques problèmes méthodologiques15, notamment en présence de nombreuses « cellules vides » (zéro événement dans de nombreux bras des études incluses dans la MA). Dans l’approche statistique fréquentiste, en présence de « cellules vides », plusieurs approches ont été proposées : correction dite de continuité avec ajout d’une « petite » quantité aux cellules vides (ou non), le plus souvent 0,5 ; méthode de Peto ou de Mantel-Haenszel16, mise en œuvre d’une méthode exacte [37], etc. d’autres approches consistent à ne pas inclure les études contenant des « cellules » vides dans les bras. Rappelons que les études avec deux bras sans événement apportent de l’information via leur effectif total. L’approche bayésienne s’affranchit de tout ceci en permettant une modélisation basée sur différentes lois de probabilité autres que la loi normale. Muthukumarana et al. [38] ont montré qu’il était possible de prendre en compte la totalité de l’information procurée par ces études, par l’intermédiaire d’un modèle binomial spécifique17. D’autres approches vont dans le même sens, avec par exemple l’utilisation d’un modèle hiérarchique binomial-normal (avec des a priori peu informatifs) [39]. À titre d’exemple, on peut citer l’analyse de Aho Glélé et al. [40], relative au travail de Flynn et al. [41] concernant l’efficacité de la décontamination des connecteurs avec des lingettes imprégnées de divers désinfectants…, pour prévenir les bactériémies liées aux cathéters (voir Annexe).
Adapter la méthode selon le type d’étude : approche clinique18
Méta-analyse d’études diagnostiques
L’application de la MA aux études sur la précision des tests de diagnostic n’est pas simple [42]. La précision d’un test de diagnostic se résume le plus souvent à deux indices, par exemple la sensibilité et la spécificité, qui ne peuvent être considérés comme indépendants et doivent donc être estimés simultanément. Ceci s’apparente à une MA multivariée (cf. 1.2 Méta-analyse multivariée [MA-MV]), chaque étude incluse contenant ces deux critères. Une source notable d’hétérogénéité résulte de « l’effet de seuil » (threshold effect). De nombreux tests diagnostiques comparent un résultat ou une mesure à un seuil prédéfini. Le choix du seuil affecte à la fois la sensibilité et la spécificité du test. Afin d’examiner cette hétérogénéité, les sensibilités et spécificités estimées peuvent être représentées graphiquement les unes par rapport aux autres. Une courbe ROC19 peut alors être tracée et l’aire sous cette courbe estimée. Deux modèles statistiques sont utilisés : modèle HSROC (hierarchical summary receiver operating characteristic) de Rutter et Gatsonis [43] et le modèle bivarié de Reitsma et al. [44]. Un exemple de MA diagnostique est présenté dans l’article de Saliba et al. [45] qui ont étudié les valeurs diagnostiques de la PCR dans les infections à BHR. En résumé : les tests moléculaires sont fiables pour la détection rapide des entérobactéries productrices de carbapénémase (EPC) directement à partir d’hémocultures positives, ce qui réduit considérablement le temps d’identification. L’objectif de l’étude était d’examiner et d’évaluer la précision globale du test de diagnostic de l’amplification en chaîne par polymérase pour la détection des EPC dans les prélèvements rectaux. Au total, 143 articles ont été examinés et 16 études ont été incluses. Cinq (31%) des études ont été menées dans le contexte d’une épidémie d’EPC ; une étude (6%) a inclus des patients pré-identifiés comme présentant un EPC dans des échantillons cliniques (sang ou sécrétions trachéales), tandis que les autres (63%) ont recueilli des prélèvements rectaux sur des patients considérés comme présentant un risque élevé de colonisation. Les tests moléculaires évalués avaient une sensibilité relativement bonne de 0,95 (intervalle de confiance (IC) à 95% : 0,902-0,989), et une excellente spécificité de 0,994 (IC à 95% : 0,965-1).
Méta-analyse d’études pronostiques (« survie »)
Pour les données de survie, en cas de données agrégées, il est nécessaire d’extraire un hazard ratio (HR) ou des paramètres permettant de l’estimer [46]. En effet, l’extraction d’un simple nombre d’événements ne permettrait d’estimer qu’un odds ratio. Celui-ci est un estimateur biaisé des données de survie [47]. Différentes méthodes ont été proposées [48]. La MA sur données individuelles permet d’éviter ces difficultés d’extraction du HR.
Méta-analyse d’études de prévalence (ou d’incidence)
La MA de prévalence [49], peut poser des problèmes d’estimation lorsque les événements sont rares. Dans ce cas, l’approximation normale ne peut être utilisée. Différentes transformations ont été proposées dont la double transformation arc sinus20. Après avoir transformé les données, il faut les « retransformer » pour revenir à l’original (« backtransform ») : ce processus n’est parfois pas simple [52]. La MA bayésienne permet de s’affranchir de tout ceci, au prix d’une analyse de sensibilité sur les a priori… Un exemple de MA de prévalence est présenté dans l’article Pivot et al. [53] qui a estimé la prévalence des ISO en chirurgie ambulatoire. En résumé : l’objectif était d’estimer la prévalence globale des ISO après une chirurgie d’un jour, quel que soit le type de chirurgie. Un modèle à effets aléatoires regroupés utilisant l’approche DerSimonian et Laird a été utilisé pour estimer la prévalence globale. Une double transformation arc sinus a été utilisée pour stabiliser la variance des proportions. Des méta-régressions univariées et multivariées ont été utilisées pour tester l’effet de la date de publication, du pays d’étude, de la population étudiée, du type de spécialité, de la classe de contamination, du moment de la visite postopératoire du patient après la chirurgie de jour et de la durée des soins hospitaliers. Quatre-vingt-dix articles ont été analysés. La prévalence globale estimée des ISO chez les patients ayant subi une chirurgie d’un jour était de 1,36% (intervalle de confiance de 95% 1,1-1,6), avec une probabilité bayésienne de 1 à 2% de 96,5%. La date de publication était associée à la prévalence des ISO.
Conditions de réussite d’une méta-analyse21
Plus que le nombre d’études retenues pour une MA, c’est la qualité qui prime. Celle-ci doit être évaluée. De nombreuses grilles sont disponibles voir par exemple la méthode Grade [19]. Un appui statistique peut être utile, en raison de la sophistication croissante des modèles utilisés.
Conclusion
La méta-analyse (MA) est un outil important dans l’élaboration des recommandations, en particulier lorsque le but est d’aboutir à une gradation de celles-ci. En effet, la MA, contrairement à la revue narrative apporte une réponse quantifiée aux questions, permettant entre autres la transparence et la reproductibilité du processus22. L’objectif de la MA peut être simple, mais les techniques statistiques utilisables peuvent être complexes23.
Notes :
1- Voir la première partie de cet article, déjà publiée dans Hygiènes : Aho Glélé LS, Aho S. Méta-analyse : les bases méthodologiques – Partie I. Hygiènes 2020;28(1):61-68. Doi : 10.25329/hy_xxviii_1-6. Pour une MA d’essais randomisés dans le domaine de la prévention des infections, voir par exemple Fournel et al. [10].
2- Cf. MA et effets secondaires des thérapeutiques. Des problèmes méthodologiques peuvent survenir si les effectifs sont faibles (nombre d’études et taille d’échantillon).
3- La MA « dose-réponse » permet de prendre en compte une exposition non binaire.
4- Voir le paragraphe « Méta-analyse d’études diagnostiques ».
5- Voir le paragraphe « Méta-analyse en réseau ou Network Meta-analysis »
6- La covariance mesure la relation linéaire entre deux variables. La covariance est similaire à la corrélation entre deux variables, néanmoins : (i) les valeurs du coefficient de corrélation sont normalisées (-1 à +1) ; (ii) les valeurs de covariance ne sont pas normalisées (de -∞ à +∞).
7- Voir le paragraphe sur Méta-analyse bayésienne (MA-B).
8- Markov Chain Monte Carlo : méthodes d'échantillonnage, à partir de distributions de probabilité.
9- INLA : integrated nested Laplace approximations. MCMC est une méthode asymptotiquement exacte, alors qu'INLA est une approximation. MCMC est lent et, pour certains modèles complexes, peut échouer (le modèle ne converge pas). Des logiciels plus récents (JAGS, Stan) ont tenté de relever ces défis.
10- Sucra : surface under the cumulative ranking curve.
11- Rappel : la puissance est la probabilité de mettre en évidence une différence si elle existe.
12- « In most randomized clinical trials, patient entry is sequential so that the results become available sequentially. Both medical ethics and the natural curiosity of investigators require an ongoing assessment of the accumulating data to see if a treatment difference is sufficient to stop the trial. » Pocock (1977), in : [30], Chapter 13. A Brief Review of Sequential Testing Methods. pp. 365 et suivantes.
13- Trial sequential analysis (Essai clinique séquentiel).
14- Cf. « Ronald Aylmer Fisher », In : [32], p. 389-97.R.A. Fisher transformed the statistics of his day from a modest collection of useful and ad hoc techniques into a powerful and systematic body of theoretical concepts and pratical methods… Voir aussi « Fisher Triumphant », In : [33], p. 61-71.
15- Un exemple célèbre concerne l’évaluation des effets secondaires de la Rosiglitazone [36].
16- Cf. première partie de cet article.
17- Modèle « A zero inflated binomial model with excessive zero parameters ».
18- Quelles que soient les questions pratiques posées, l’approche clinique met en œuvre des méthodes statistiques.
19- Receiver operating characteristic (La courbe ROC permet d’évaluer les performances d’un test diagnostique, en mettant en relation sa sensibilité [en ordonnée] et sa spécificité [en abscisse]).
20- Transformation arc sinus : asin(sqrt(x / (n + 1))) + asin(sqrt((x + 1)/(n + 1))) ; avec x, effectif (numérateur) et n, effectif total (dénominateur). D’autres transformations sont possibles : log (i.e, log de la prévalence), logit (i. e., logit de la proportion)… rappelons que le logit d’une proportion p est log(p/1-p). Si p=0, log(0) n’existe pas et des approches comme la correction de continuité doivent être mises en œuvre. Quand p=0, arc sinus existe et vaut zéro. La double transformation arc sinus permet aussi de stabiliser la variance des proportions. Néanmoins, même cette transformation peut conduire à des résultats biaisés [50]. Certains proposent d’utiliser une différence de transformation arc sinus [51].
21- Voir : le chapitre « La méta-analyse : une méthode nécessaire », de la première partie de cet article : Aho Glélé LS, Aho S. Méta-analyse : les bases méthodologiques – Partie I. Hygiènes 2020;28(1):61-68. Doi : 10.25329/hy_xxviii_1-6.
22- Sans remonter à Galilée, voir par exemple Wilks, 1961 [54].
23- Tout comme l’épidémiologie, la MA ne se résume pas uniquement à une suite de tableaux 2X2…