Medicina basada en la Evidencia: Evaluación de la literatura

Evaluación de la literatura

Conseguidos los artículos que probablemente responden a nuestra pregunta y excluidos aquellos que no son relevantes para la respuesta de la misma, resulta ahora fundamental aplicar los criterios establecidos en la primera parte con el fin de detectar los artículos que realmente tienen importancia y seriedad desde el punto de vista investigativo y descartar aquellos que, aunque aparentemente intentan dar respuesta a nuestra pregunta, han sido realizados de tal forma que la respuesta no está basada en una evidencia contundente.

Por ejemplo, si el tamaño de la muestra es muy pequeño, es bastante probable que el resultado se haya debido al azar en la elección de la muestra y por tanto la respuesta no sería una buena evidencia. Por el contrario si la muestra es muy amplia es menos probable que la respuesta sea producto del azar y por lo tanto el nivel de evidencia será muchísimo mejor.

De la misma manera los estudios controlados son muchísimo mejores que los estudios en los que no hay un grupo control y, obviamente, cuando el grupo control ha recibido como intervención únicamente placebo la capacidad de encontrar realmente el efecto del tratamiento en el grupo que recibe el tratamiento es más evidente.

Por ello podríamos decir a grandes rasgos que un estudio a gran escala (es decir con un gran número de pacientes):

A largo plazo (es decir durante el tiempo suficiente de seguimiento para poder evaluar la aparición de efectos colaterales, efectos adversos, etc.), aleatorizado (es decir en el que la admisión al grupo tratamiento y al grupo placebo ha sido hecha por azar), controlado (es decir donde hay un grupo de control), con placebo (es decir el grupo control fue intervenido mediante placebo) y doble ciego (es decir ni el médico ni el paciente conocen si se esta administrando tratamiento o placebo), puede proporcionar una evidencia mucho más clara y contundente que un estudio pequeño de seguimiento de casos en el que no hay grupo control.

En este sentido, diversos grupos internacionales e instituciones se han puesto mas o menos de acuerdo con respecto a los niveles de evidencia y a los grados de recomendación deducibles de los resultados de un estudio con base en el diseño del mismo.

Esto nos facilita muchísimo nuestra tarea pues proporciona un arma bastante eficaz en el momento de evaluar los artículos que hemos conseguido mediante nuestra busqueda.

La primera tabla sobre niveles de evidencia y grados de recomendación fue creada hace ya mas de veinte años por Dave Sackett y por Zusanne Fletcher cuando trabajaban para el Canadian Task Force sobre exámenes periódicos de salud.

Ambos generaron la idea de niveles de evidencia al hacer un rango de los artículos con respecto a la validez de la evidencia sobre el valor preventivo de diversas maniobras y adhirieron a cada uno de ellos un grado de recomendación con el fin de aconsejar al lector con respecto a qué tan recomendable resultaba la intervención de acuerdo con los resultados aportados por el estudio.

A partir de esa época los niveles de evidencia:

Han evolucionado y se han extendido a tal grado que en la actualidad hay muchos libros de texto que anuncian en notas al pie de página o en los márgenes el nivel de evidencia y el grado de recomendación de cada una de las intervenciones terapeúticas o diagnósticas o pronósticas que aparecen en el texto.

Sin embargo la orientación de estos niveles de evidencia y estos grados de recomendación continúan siendo fundamentalmente de tipo terapeútico o preventivo y no aplicables a otro tipo de estudios o de interrogantes, razón por la cual los miembros del centro para la medicina basada en evidencias del reino unido, en donde trabajan en la actualidad Chris Ball, Bold Filichs, Brian Hanes, el mismo Dave Sackett y Sharon Straus, han desarrollado una nueva tabla que combina los grados de recomendación y los niveles de evidencia tanto con respecto a aspectos de terapeútica o prevención, como a etiología o riesgo, pronóstico y diagnóstico (Tabla 1).

En la tabla 1 se explica de manera más precisa cada uno de estos niveles y las distintas interacciones entre los grados de recomendación y los niveles de evidencia con modificaciones específicas para terapia, pronóstico y diagnóstico.

Esta tabla ha sido modificada y traducida de la tabla desarrollada por el centro para medicina basada en evidencia que el lector puede consultar en http:cebm.jr2.ox.ac.uk.

Tabla 1. Niveles de Eviencia y Grados de Recomendación
Grado de Recomendación
Nivel de Evidencia
Estudio sobre Terapia/prevención,
Etiología/iatrogenia
Estudios sobre Pronóstico
Estudios sobre Diagnóstico
A
1a1b1c
Revisión sistemática (con
hemogeneidad*) de estudios
controlados aleatorizados
Estudio controlado aleatorizado
individual (con intervalo de
confianza estrecho**)

Todo o nada***
Revisión sistemática (con
hemogeneidad*) de estudios de
cohorte de inicio o de guías clínicas
prácticas validadas en un conjunto de
pruebas
Estudio de cohorte de inicio, indivi
dual, con más del 80% de seguimiento
Series de casos del todo o nada***
Revisión sistemática (con hemogeneidad*) de
estudios diagnósticos del nivel 1 o guías clínicas
prácticas validadas en un conjunto de pruebas
Comparación ciega independiente de un espectro
apropiado de pacientes consecutivos de todos los
cuales se tiene tanto la prueba diagnóstica como
el patrón de oro.
“EsPCon” absolutos y “EsNEx” absolutos+
B
2a2b3a
3b
Revisión sistémica (con homogenei
dad*) de estudio de cohortes
Estudio Individual de cohortes
(incluso un estudio controlado
aleatorizado de baja calidad, es decir,
con menos de un 80% de seguimiento)
Revisión sistemática (con
hemogeneidad*) de estudios de casos
y controles
Estudio de casos y controles individual
Revisión sistemática (con homogeneidad*) bien sea de estudios de cohortes
retrospectivos o de grupos control no
tratados en estudios controlados
aleatorizados
Estudio de cohorte retrospectivo o
seguimiento de pacientes control no
tratados en un estudio controlado
aleatorizado o una guía clínica práctica
no validada en un conjunto de pruebas
Revisión sistemática (con hemogeneidad*) de
estudios diagnósticos de nivel > 2
Comparación ciega independiente pero o bien en
pacientes no consecutivos o confinados en un
espectro muy estrecho de estudios individuales (o
ambos), todos los cuales han sido sometidos a la
prueba diagnóstica y al patrón de oro; o guías
clínicas prácticas no validadas en un conjunto
de pruebas
Comparación ciega independiente de un espectro
apropiado, pero el patrón de oro no fue aplicado a
todos los pacientes estudiados
C
4
Series de casos (y cohortes y estudios de
casos y controles de mala calidad++)
Series de casos (y cohortes pronósticas
de mala calidad+++)
El patrón de oro no fue aplicado independiente-
mente o de forma cegada
D
5
Juicio de expertos sin valoración
crítica explícita, o basado en investiga
ciones fisiológicas o de laboratorio o
en “primeros principios”
Juicio de expertos sin valoración crítica
explícita, o basado en investigaciones
fisiológicas o de laboratorio o en
“primeros principios”
Juicio de expertos sin valoración crítica explícita, o
basado en investigaciones fisiológicas o de labora-
torio o en “primeros principios”

Aclaracionesen la Evaluación de la literatura

1. Estos niveles de evidencia o grados de recomendación fueron establecidos en una serie de intercambios entre los miembros del Centro de Investigaciones para la Medicina Basada en Evidencia del National Health System de Gran Bretaña (Chris Ball, Dave Sackett, Bob Phillips Brian Haynes y Sharon Straus)

2. La fuerza de las recomendaciones basadas en este enfoque se aplican a los pacientes “promedio”. Por lo tanto, pueden requerir algunas modificaciones a la luz de características biológicas exclusivas de cada paciente individual (riesgo, sensibilidad, etc.) o a partir de preferencias individuales sobre el tratamiento que van a recibir.

3. Al aplicar los niveles de evidencia se puede agregar un signo menos ”

” para denotar el nivel a partir del cual no es posible proporcionar una respuesta concluyente debido a:
  • Un solo resultado con una amplitud del intervalo de la confianza tal que, por ejemplo, un Riesgo Relativo en un Estudio Controlado Aleatorizado no sea estadísticamente significativo pero los intervalos de confianza no puedan excluir ventajas clínicas o iatrogenia importantes.
  • Una Revisión Sistemática con heterogeneidad problemática (y estadísticamente significativa).
  • La evidencia es poco concluyente, y por lo tanto puede generar solamente recomendaciones del grado D.

Notas

* Por homogeneidad se entiende una revisión sistemática (metaanálisis)que esté libre de variaciones problemáticas (heterogeneidad), tanto en la dirección como en el grado, de los resultados entre los estudios individuales.

No todas las revisiones sistemáticas con heterogeneidad estadísticamente significativa son necesariamente problemáticas, y no toda heterogeneidad problemática es necesariamente estadísticamente significativa.

Según lo observado arriba, los estudios que exhiben heterogeneidad problemática se deben marcar con “-“.

** Ver la nota 3 arriba, sobre como analizar, calificar y utilizar los estudios con intervalos de confianza muy amplios

*** Se cumple en aquellos casos en los que todos los pacientes morían antes de que la intervención estuviera disponible y en la actualidad algunos sobreviven gracias a la intervención o, también, cuando algunos pacientes morían antes de que la intervención estuviera disponible y en la actualidad no muere ninguno gracias a la intervención.

+ Un “EsPCon Absoluto” es un hallazgo diagnóstico cuya Especificidad es tan alta que un resultado Positivo Confirma el diagnóstico.

Un “EsNEx Absoluto” es un hallazgo diagnóstico cuya Especificidad es tan alta que un resultado Negativo Excluye el diagnóstico.

++ Por estudios de cohorte de mala calidad entendemos aquellos en los que no se pudieron definir claramente los grupos de comparación. O no se pudieron medir exposiciones y resultados de la misma manera objetiva (preferiblemente cegada) en individuos expuestos y no expuestos. No se pudieron identificar o controlar apropiadamente variables de confusión conocidas. O no se pudo llevar a cabo un seguímiento suficientemente largo y completo de los pacientes.

Por estudios de casos y controles de mala calidad entendemos aquellos en los que no se pudieron definir claramente los grupos en comparación. O no se pudieron medir exposiciones y resultados de la misma manera objetiva (preferiblemente cegada) tanto en los casos como en los controles. O no se pudieron identificar o controlar apropiadamente variables de confusión conocidas.

+++ Por estudios pronósticos de cohorte de mala calidad entendemos aquellos en los cuales el muestreo estuvo sesgado en favor de los pacientes que tenían ya el resultado buscado. O aquellos en que la medida de resultados fue lograda en <80% de los pacientes del estudio. O en los que los resultados fueron determinados de manera no cegada, no objetiva, o no hubo corrección para los factores de confusión.

Resultados clínicos vs. puntos finales surrogados

Clasificar los estudios conseguidos mediante la búsqueda sistemática de la literatura biomédica con base en los niveles de evidencia y en la fuerza de las recomendaciones permite, como anotábamos, seleccionar no sólo los mejores estudios que dan respuesta a nuestros interrogantes sino también seleccionar la fuerza con la que vamos a recomendar una intervención determinada, en un paciente determinado, con unas características claramente definidas, para un problema también precisamente definido.

Queda sin embargo un último punto que debe tenerse en cuenta al hacer el análisis de la literatura y que escapa de alguna manera a los análisis realizados mediante niveles de evidencia o fuerza de la recomendación. Me refiero a que, en todo estudio científico y especialmente en todo experimento clínico que incluya intervenciones (que pueden ser medicamentos o procedimientos quirúrgicos, etc.). Los puntos finales definidos como resultados clínicos para un estudio específico deben ser evaluados desde el punto de vista lógico y desde el punto de vista relación causa-efecto con el fin de definir de manera clara y precisa si se trata de verdaderos resultados clínicos o si se trata solamente de lo que en la jerga epidemiológica y estadística se conoce como puntos finales surrogados.

El que un estudio esté dirigido a evaluar el papel de una intervención con base en un punto final surrogado no lo invalida, pero sí hace que su aplicabilidad práctica a los problemas clínicos de nuestros pacientes sea muy pobre y, además, le resta fuerza de recomendación así el nivel de evidencia haya sido óptimo.

La diferencia entre resultado clínico final y punto final surrogado se entenderá mucho mejor con un ejemplo.

Para el caso:

Volvamos al paciente que nos ha acompañado en esta revisión y supongamos que, después de haber formulado la pregunta y haber realizado la búsqueda y haber analizado la literatura, nos encontramos frente al dilema de establecer la pertinencia y la relevancia de uno de los estudios que consideramos relevantes durante la búsqueda. Se trata de un estudio realizado hace ya veinte años por la OMS para evaluar el tratamiento de personas con dislipidemia mediante clofibrato.

Desde el punto de vista del nivel de la evidencia se trata un estudio doble ciego, a gran escala, aleatorizado, controlado, etc., razón por la cual estaríamos tentados a adscribirle un nivel de evidencia 1b y, en consecuencia, una fuerza de recomendación de tipo A.

Esto significaría que, de acuerdo con la pregunta que habiamos formulado para nuestro paciente, el estudio de la OMS daría una respuesta concreta que dice mas o menos así:

“en los pacientes de edad media de la vida, de sexo masculino, con antecedentes familiares de enfermedad coronaria y con colesterol ligeramente elevado, el tratamiento con clofibrato es mejor que el tratamiento solamente con dieta o modificaciones en las condiciones de vida en lo que respecta a la morbimortalidad por enfermedad coronaria”.

Sin embargo, si analizamos más a fondo el estudio de la OMS, nos daremos cuenta que el resultado clínico definido como punto final para el estudio no fue la morbimortalidad global sino solamente la morbimortalidad por enfermedad coronaria.

Es decir, en lugar de un verdadero resultado clínico (morbimortalidad global) se estaba apelando a un punto final surrogado (morbimortalidad por enfermedad coronaria).

Aunque resulta indudable que la mortalidad global va a depender en parte de la morbimortalidad por enfermedad coronaria esta no es la única causa de mortalidad.

Si se analizan los resultados a fondo, se verá que la mortalidad global fue mayor en el grupo que recibió clofibrato que en el grupo que recibió placebo a pesar de que la morbimortalidad por enfermedad coronaria fue menor en el grupo que recibió clofibrato con respecto al grupo que recibió placebo.

Estos resultados aparentemente paradójicos se explican porque el clofibrato estaba induciendo enfermedad biliar y hepática y complicaciones secundarias a cirugía de vías biliares, circunstancias que fueron responsables del aumento en las cifras de morbilidad y mortalidad globales.

Lo que pretendíamos hacer con la mano (disminuir la morbimortalidad global al disminuir la morbimortalidad coronaria mediante la intervención con clofibrato) lo estábamos borrando con el codo (al aumentar la morbimortalidad global por complicaciones secundarias al tratamiento). Este ejemplo nos demuestra a las claras que es fundamental tener siempre en mente, al analizar la literatura biomédica, si se están tomando seriamente o no en cuenta los resultados finales de los estudios.

 

Extrasístoles ventricularesFigura 1. Relación entre mortalidad y frecuencia de extrasístoles ventriculares.
Moss AJ. Prog Cardiovasc Dis 29:396, 1987. ESV/h = extrasístoles ventriculares cada hora

Morbimortalidad cardiovascular en pacientes con extrasistolia ventricularFigura 2. Morbimortalidad cardiovascular en pacientes con extrasistolia ventricular
con y sin tratamiento. Echt DS, N Engl J Med 324:784,1991.

Tal vez el ejemplo más contundente con respecto a este tipo de errores sea el estudio realizado hace unos diez años con respecto a un nuevo grupo de medicamentos antiarrítmicos que incluso estuvieron a punto de inundar el mercado durante algún tiempo.

Me refiero a los medicamentos encainida y flecainida (que siguen siendo muy buenos antiarrítmicos pero ahora con indicaciones muy precisas y contraindicaciones muy claras también). Con base en algunos estudios previos se había establecido que existía una relación directa entre la mortalidad y la frecuencia de extrasístoles ventriculares. Como se puede ver en la, la posibilidad de morir aumenta exageradamente a partir de 10 extrasístoles ventriculares por hora.

Con base en esto se estableció como criterio final de los estudios con encainida y flecainida conseguir una disminución en la frecuencia de extrasístoles ventriculares aunque por debajo de diez por hora.

Obviamente al utilizar estos excelentes antiarrítmicos el pretendido resultado clínico fue alcanzado y se dio marcha libre a la venta pública de este tipo de medicamentos.

Sin embargo, lo que queríamos hacer al dar los antiarrítmicos era disminuir la mortalidad (verdadero resultado clínico final) y, en realidad no nos importaba mucho mediante que mecanismos lo consiguiéramos si disminuyendo o no la frecuencia de extrasístoles ventriculares, teníamos la hipótesis de que al disminuir la frecuencia de extrasístoles ventriculares también iba a disminuir la mortalidad.

El error en el diseño del estudio consistió en crear un punto final surrogado (disminuir las extrasístoles por debajo de 10 por hora) y dedicar todo el estudio a demostrar que el medicamento era capaz de lograrlo, cuando en realidad el resultado clínico final debió haber sido la disminución en la morbimortalidad.

Cuando, después de algún tiempo, se evaluó (¡por fin!) el verdadero resultado clínico final (morbimortalidad):

La realidad fue muy otra, porque la morbimortalidad cardiovascular en los pacientes con extrasistolia ventricular con y sin tratamiento fue muy diferente pero a favor del placebo en el sentido de que se morían más personas que recibían el tratamiento, así tuvieran menor número de extrasístoles ventriculares, como consecuencia de otras arritmias (en especial “Torsades de Pointes”).

Este resultado se puede ver claramente en la Figura 2 e ilustra a la perfección el tipo de problemas al que nos vemos enfrentados como consecuencia de un diseño erróneo en el estudio clínico: aceptar un punto final surrogado como si fuera un verdadero resultado clínico.

Pueden existir otras posibilidades con respecto a alteraciones derivadas de establecer de manera errónea puntos surrogados en lugar de resultados clínicos finales, como por ejemplo cuando los puntos surrogados no siguen la vía causal del proceso patológico y nos dedicamos a tratar el punto final surrogado o cuando la intervención en el estudio afecta solamente una de muchas posibles vías causales y nos dedicamos a medir solo el punto final surrogado o cuando el punto final surrogado estudiado no se ve afectado por los efectos de la intervención o, al contrario, cuando la intervención tiene efectos independientes en la vía patógena de la enfermedad que pueden incluir o no el punto final surrogado.

Conclusiones en la Evaluación de la literatura

La medicina basada en evidencia es una excelente arma para el médico clínico pues busca aplicar la mejor evidencia disponible a partir de investigaciones con resultados incuestionables al tratamiento de problemas específicos en pacientes concretos en situaciones clínicas diversas.

Hacer medicina basada en evidencia no es difícil, es simplemente la mejor forma de seguir haciendo buena medicina.

Bibliografía

  • 1. Canadian Task Force on the Periodic Health Examination: The periodic health examination. CMAJ 1979; 121: 1193-1254.
  • 2. Sackett DL. Rules of evidence and clinical recommendations on use of use of antithrombotic agents. Chest 1986 Feb; 89 (2 suppl.):2S-3S.
  • 3. Cook DJ, Guyatt GH, Laupacis A, Sackett DL, Goldberg RJ. Clinical recommendations using levels of evidence for antithrombotic agents. Chest 1995 Oct; 108(4 Suppl): 227S-230S.
  • 4. Yusuf S, Cairns JA, Camm AJ, Fallen EL, Gersh BJ. Evidence-Based Cardiology. London: BMJ Publishing Group, 1998
  • 5. Moss AJ. Prog Cardiovasc Dis 1987; 29: 396.
  • 6. Echt DS. N Eng J Med 1991; 324:784.
  • 7. CAST investigators. Preliminary report: effect of encainide and flecainide on mortality in a randomized trial of arrhythmia supression after myocardial infarction. N Eng J Med 1989; 321: 406-412.
  • 8. Comittee of principal Investigators. The W.H.O. cooperative trial on primary prevention of ischemic heart disease with clofibrate to lower serum cholesterol: mortality follow-up. Lancet 1980; ii: 279-385.

CLIC AQUÍ Y DÉJANOS TU COMENTARIO

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *