¿Fue el estudio apropiado para la pregunta de investigación y se adelantó correctamente?

Establecer si el estudio reportado en un artículo fue adecuado para responder la pregunta de investigación, implica la evaluación de los métodos empleados por los autores.

Esta tarea es más sencilla si el lector tiene experiencia como investigador clínico.

Sin embargo, las guías mencionadas anteriormente no están diseñadas para quienes producen investigación sino para el grupo mucho más grande que la consume como lectores de artículos de revistas científicas (1,6-12).

Una vez que el lector tiene una idea clara de la pregunta de investigación, debe evaluar los métodos descritos por los investigadores en el artículo.

El objetivo fundamental de este ejercicio es determinar si la estrategia de investigación empleada puede tener errores que invaliden sus resultados.

En este contexto, se define validez como el grado en el que los datos obtenidos al medir un fenómeno representan la verdadera dimensión de lo medido (9). Un ejemplo clínico simple puede ayudar a aclarar el concepto.

Todos los días los clínicos que brindan cuidados en salud a niños, miden el peso de sus pacientes empleando un instrumento, en concreto una báscula. El resultado obtenido después de medir el peso de un niño será válido si corresponde al verdadero peso del niño.

Los estudios de investigación no son, en este sentido, muy diferentes de una balanza: sólo son instrumentos diseñados para medir un fenómeno complejo.

Como instrumentos de medición, son susceptibles a errores de medición que pueden producir resultados equivocados. Estos resultados erróneos (inválidos) se pueden agrupar en dos grandes categorías según la fuente primaria de error: sesgo o variación por el azar.

El ejemplo de la balanza:

También permite ilustrar la relación que, como fuentes de error, tienen el sesgo y el azar. Asumamos que queremos medir el peso de un lactante cuyo verdadero valor (que, en realidad, no conocemos) es 8,0 kg.

Habrá sesgo si utilizamos una escala que tiene un defecto mecánico que hace que los resultados sean sistemáticamente, digamos, 0,5 kg superiores al verdadero valor. En este caso, todas las veces que se emplee la escala para medir el peso de este niño o de cualquier otro se obtendrá una medida falsa que difiere del valor verdadero en la misma dirección y por el mismo valor aproximadamente.

Por otra parte, el papel del azar se hace evidente al medir el peso de un mismo niño varias veces consecutivas bajo las mismas condiciones, incluso usando una báscula en buen estado.

Es probable que cada medida obtenida difiera ligeramente del verdadero valor, arrojando resultados que, algunas veces, son superiores y otras, inferiores; es decir,que difieren de la verdad de forma no sistemática. La diferencia entre el verdadero valor y cada una de estas observaciones, debida solamente al azar, se llama error aleatorio (9).

En la vida real, por supuesto, las dos fuentes de error operan simultáneamente.

De manera similar a lo descrito para la medición del peso de un niño:

las observaciones y las medidas obtenidas durante una investigación se pueden ver afectadas por el sesgo o por el azar, lo cual haría que sus resultados sean falsos, es decir, inválidos. Varios autores amplían el concepto de validez aun más.

La validez interna es la extensión en la que los resultados del estudio son correctos para la muestra de sujetos que participaron en el estudio.

La validez interna está determinada por la calidad del diseño, de la recolección de los datos y de su análisis. Validez externa, también llamada posibilidad de generalización, es la extensión en la que los resultados de una observación en una muestra de individuos son válidos para sujetos que no participaron en el estudio.

En otras palabras, la validez externa expresa la presunción de que los sujetos del estudio son comparables a otros fuera del estudio (8,9). Por supuesto, para que se puedan aplicar a otros sujetos, los resultados del estudio deben ser válidos internamente.

Por su parte, la generalización de los resultados de un estudio, aún en caso de muy alta validez interna, se basa fundamentalmente en la opinión y, por tanto, se puede interpretar de manera diversa y en cierto grado divergente por personas racionales.

Más adelante en este artículo se discutirán los principios para establecer la validez externa de los resultados de una investigación clínica.

A pesar de ser tan importante,hay evidencia que muestra:

Que los lectores no evalúan la metodología utilizada por los investigadores en los artículos que leen y saltan directamente de la introducción a los resultados del reporte, lo que implica asumir que los resultados son válidos.

Fitzgerald distribuyó entre un grupo de estudiantes una copia falsificada de un artículo, insertando los materiales y métodos de un estudio sobre hipofisectomía en retinopatía diabética en otro artículo que describía algunos aspectos hematológicos de la retinopatía diabética.

Solamente uno de los miembros del grupo notó el cambio; los demás lectores aceptaron las conclusiones del artículo falso, sin examinar los métodos con los que se llegó a dichas conclusiones (13).

El autor especula que “la gran cantidad de material que se presenta en los años de formación, la presión por memorizarlo … y la comodidad que representa el dogmatismo frente a la incertidumbre clínica, desalientan el sano escepticismo ante la palabra escrita “.

Dado el potencial para artículos erróneos mencionado antes (3-5) es inapropiado asumir que todos los estudios se adelantaron con métodos adecuados por el sólo hecho de que han sido publicados.

La serie más voluminosa de artículos con guías de apreciación crítica de la literatura para los lectores:

Sugiere seguir varios pasos consecutivos para evaluar la validez y la posibilidad de generalización de un artículo (1). Primero, el lector debería determinar si los resultados del estudio son válidos internamente.

Como se mencionó anteriormente, esto se logra revisando los métodos utilizados por los investigadores.

Sólo si el artículo describe métodos que han manejado apropiadamente las principales fuentes de error en el diseño empleado, se justifica proceder con los pasos siguientes.

En caso contrario, o sea, si se considera que el artículo tiene errores, no es útil continuar su lectura. En segundo término, el lector debe proceder a determinar cuáles son los resultados del estudio y su impacto clínico potencial.

Finalmente, el lector debe establecer la medida en que dichos resultados le serán de utilidad para la atención de sus propios pacientes, lo cual implica el establecimiento de la validez externa.

Las siguientes secciones de este artículo:

Amplían algunos de los aspectos relacionados con estos tres pasos. Sin embargo, es conveniente mencionar dos hechos antes de continuar. Lo más frecuente es que el resultado de este proceso no sea una respuesta en “blanco o negro “.

Esto puede representar un inconveniente para la toma de decisiones clínicas, pues, al profesional de la salud le gustan las respuestas directas que le permiten saber si el artículo “está bien o mal “, si el tratamiento allí descrito “sirve o no ” y si los resultados se aplican o no a sus pacientes.

Infortunadamente, la evidencia de la literatura viene en tonos de gris y, por tanto, en muchas ocasiones, lo más que se puede decir es que los resultados pueden ser válidos, que su efecto quizás es importante y que, por tanto, podrían mejorar la atención en salud.

Finalmente, es necesario además tener en mente que no existe ningún estudio perfecto. Todos los reportes tienen defectos menores e, incluso,moderados que no necesariamente llevan a resultados inválidos.

El uso muy riguroso de los criterios de apreciación crítica puede llevar a que nunca se encuentre información de suficiente validez en la cual basar nuestras decisiones clínicas.

(Lea También: Evaluación de la generalizabilidad o la validez externa)

Evaluación de la validez interna

La Tabla 1 presenta los principales aspectos metodológicos que deberían ser bien manejados por los investigadores de cada uno de los principales tipos de publicaciones (1, 6-8, 10-12).

Como ilustración se describirán en mayor detalle las guías para evaluar un artículo que describe una intervención preventiva o terapéutica (14). Muchos de estos aspectos son aplicables a los otros tipos de publicaciones.

El primer aspecto que se debe considerar:

Para este tipo de pregunta de investigación se relaciona con el método empleado para asignar los sujetos del estudio a las intervenciones que se están comparando. El método óptimo es la asignación aleatoria o al azar, que emplea un sistema análogo a arrojar una moneda al aire.

La razón principal es que la mayor parte de las consecuencias de muchas condiciones clínicas son modificadas por muchos factores además del tratamiento, dentro de los que se cuentan la severidad de la enfermedad, la presencia de procesos patológicos asociados y otros factores que afectan su pronóstico como la edad, el género y muchos más.

Adicionalmente, pueden existir factores, aún no identificados, que también modifiquen los resultados. Con el objeto de aislar el efecto de la intervención de todos los restantes factores, el investigador busca crear grupos que sean comparables en todos estos otros aspectos que cambian el pronóstico, de modo que la única diferencia entre ellos sea el tipo de tratamiento recibido.

Si los resultados del estudio muestran que hay diferencias en los resultados finales entre los grupos, el investigador podrá atribuir con confianza dichas diferencias a los tratamientos recibidos dado que los grupos fueron idénticos entre sí en los demás aspectos.

La aleatorización contribuye a este propósito distribuyendo los factores de buen y de mal pronóstico, tanto conocidos como desconocidos, de manera similar en los dos grupos debido a que cada sujeto participante en el estudio tiene la misma probabilidad de ser tratado con cualquiera de las intervenciones que se están comparando.

Por ejemplo, se sabe bien que el bajo peso al nacer es un fuerte predictor de mortalidad en el período neonatal.

La distribución balanceada de esta variable pronóstica:

En un dio que compara un tratamiento en neonatos eliminará el bajo peso como explicación para las diferencias encontradas entre los grupos del estudio. Si éstas existen.

Al hacer esto, la aleatorización está eliminando una distribución desequilibrada de los sujetos en los grupos del estudio como fuente de sesgo.

Los estudios sin asignación al azar siempre tendrán limitaciones para separar el efecto del tratamiento del dependiente de otras variables que pueden afectar la respuesta a los tratamientos.

El segundo aspecto metodológico en los estudios que comparan las intervenciones es el número de sujetos que se perdieron durante el estudio y cómo fueron manejados en el análisis de los resultados.

Bajo condiciones ideales, todos los participantes en la investigación deberían ser seguidos hasta el final del estudio para determinar su resultado definitivo.

El problema con la pérdida de sujetos es que el investigador no puede establecer el resultado final para los individuos perdidos y es muy posible que la falla del paciente.

Para cumplir con el seguimiento programado se relacione con la presencia de uno o más desenlaces de interés, sean favorables o desfavorables. Otra analogía clínica puede ser de utilidad para aclarar este punto.

Ocasionalmente, los clínicos pierden de vista a sus pacientes luego de recomendarles un tratamiento.

En estas circunstancias, lo más probable es que la condición del sujeto haya evolucionado de forma que haga innecesario, a los ojos del paciente, regresar al centro original debido a que la condición mejoró o empeoró. En otras palabras, los pacientes desaparecen porque presentan desenlaces desfavorables (incluso, la muerte) o porque mejoran.

Adicionalmente, los individuos que permanecen en los estudios tienen un pronóstico diferente al de aquéllos que los abandonan (8-10, 14).

Por último, los sujetos del estudio deberán ser incluidos en el análisis en el mismo grupo al que fueron originalmente asignados (análisis por “intención de tratar “). Con frecuencia, los participantes en los estudios olvidan tomar los medicamentos o deciden no hacerlo.

En estas circunstancias, parecería apropiado excluir los análisis. Hacerlo, sin embargo,no sería correcto. El punto central es que usualmente hay una asociación entre las razones para no tomar el medicamento y los resultados finales.

Varios experimentos han mostrado que los sujetos que no toman el tratamiento tienen un pronóstico peor al observado en quienes toman el medicamento, aun si este tratamiento es un placebo (8, 9, 14).

Las guías para evaluar la validez interna de un estudio que describe una intervención:

Incluyen tres aspectos adicionales que no se muestran en la Tabla 1. En primer lugar, los clínicos, los pacientes y el personal del estudio deberían permanecer “ciegos ” al tratamiento recibido por cada participante.

Esto reduce la probabilidad de sesgo al establecer si un individuo presentó el desenlace de interés. Especialmente si dicho desenlace se define mediante criterios subjetivos (por ejemplo, la persistencia de signos o síntomas).

En segundo lugar, los autores deberían mencionar si los grupos del estudio fueron similares al comienzo de las intervenciones; esto permite a los lectores establecer la dirección y la magnitud de diferencias de base que pueden confundir el efecto del tratamiento, como se explicó anteriormente.

Por último, los grupos del estudio deben haber sido seguidos de la misma manera y por el mismo período de tiempo. Y deben haber recibido, en la misma medida, otros tratamientos diferentes al que se está evaluando pero que pueden afectar el desenlace.

Si el seguimiento es más frecuente en un grupo, es posible que se encuentren más eventos en este grupo.

De manera similar, la aplicación diferencial de otras intervenciones a los grupos del estudio puede contribuir a diferencias en los desenlaces. En estos dos casos, se habría presentado una forma de sesgo conocida como cointervención.

Evaluación del impacto clínico potencial de los resultados.

Luego de establecer que los métodos empleados por los investigadores fueron apropiados, es necesario evaluar el impacto potencial de los hallazgos del estudio. Este impacto potencial depende de dos factores: el tamaño y la precisión del efecto reportado en el artículo.

De nuevo, estos conceptos se explicarán en el contexto de un estudio que compara dos intervenciones pero que son aplicables a los restantes tipos de estudios.

El objetivo final del cuidado en salud es mejorar el bienestar de los individuos reduciendo la probabilidad de desarrollar enfermedades como resultado de intervenciones preventivas. O intentando reducir el riesgo de desenlaces indeseables (muerte, recaídas, complicaciones o discapacidad) por diversas formas de tratamiento, si la enfermedad ya está presente.

De esta manera, para tener un impacto positivo en la salud de los individuos un experimento aleatorio controlado. Debería demostrar que el riesgo de la enfermedad o de resultados indeseables es menor en el grupo que recibe la nueva intervención al compararlo con el riesgo del grupo que recibe el tratamiento convencional.

Los investigadores emplean diversas medidas de resumen para comparar:

Los riesgos de los grupos del estudio.

Quizás, el más común es el riesgo relativo que es la razón entre la frecuencia del desenlace indeseable observada en el grupo expuesto al nuevo tratamiento con referencia a la del grupo control (8-10, 15).

Una razón de 1 indica que los riesgos son iguales en los dos grupos.

Resultados menores de 1 sugieren que el riesgo es menor entre quienes reciben la intervención que en el grupo control. Por ejemplo, un riesgo relativo de 0,5 significa que la frecuencia de eventos indeseables en el grupo experimental fue la mitad de la observada en el grupo control (esto equivale a una reducción de 50% en el riesgo).

Por el contrario, un riesgo relativo mayor de 1 indica que el riesgo es mayor entre los expuestos a la nueva intervención. Un riesgo relativo de 1,7, por ejemplo, significa que el riesgo es 1,7 veces (o 70%) mayor entre los expuestos a la intervención cuando se compara con los no expuestos.

De esta forma, mientras más pequeño (o mayor) sea el riesgo relativo mayor será el efecto positivo (o negativo) de la exposición de interés sobre la enfermedad.

Este tamaño del efecto, sin embargo, no depende exclusivamente del resultado numérico del riesgo relativo.

Otros factores que se deben tener en cuenta incluyen la importancia clínica del desenlace y su frecuencia en los sujetos que no reciben tratamiento. Estos dos puntos se discutirán más detalladamente en otra sección de este artículo.

El segundo aspecto por considerar:

Durante la evaluación del impacto potencial de la intervención, es la precisión del resultado.

Para comprender este concepto, es necesario recordar el efecto del error aleatorio asociado con la medición repetida del peso de un niño.

De manera similar,el riesgo relativo obtenido al final del estudio podría verse afectado por la variación aleatoria: el resultado del estudio podría ser mayor o menor que el verdadero valor.

En otras palabras, es poco probable que el resultado estimado en el estudio represente exactamente el verdadero tamaño del efecto.

Una medida de la variabilidad que puede esperarse por efecto del azar es el intervalo de confianza (usualmente de 95%) alrededor del estimativo puntual.

Este intervalo se interpreta de la siguiente forma: en un estudio sin sesgos existe un 95% de probabilidad de que el verdadero tamaño del efecto esté en algún lugar entre estos límites (8-10).

Empleando uno de los ejemplos mencionados en el párrafo previo, supongamos que los límites del intervalo de confianza del 95% alrededor de un riesgo relativo de 0,5 son 0,35 y 0,8. Esto significa que se tiene un 95% de certeza de que el verdadero tamaño del efecto está en algún lugar entre estos límites.

Mientras más estrecho sea el intervalo de confianza mayor será la certeza del investigador y del lector respecto al verdadero tamaño del efecto.

Esta precisión estadística depende principalmente del poder estadístico del estudio que, a su vez, depende fundamentalmente del tamaño de la muestra.

Esto confirma algo que es correcto intuitivamente para la mayor parte de los clínicos:

Mientras mayor sea la muestra de un estudio,mayor será la credibilidad de sus resultados.

Además de medir el error aleatorio,los intervalos de confianza contienen información equivalente al de las pruebas estadísticas para hipótesis.

Si el riesgo relativo que señala que no hay diferencias entre los riesgos (un valor de 1,0) está incluido dentro de los límites del intervalo de confianza del 95%. Es muy improbable que los resultados alcancen una diferencia que sea estadísticamente significativa a un nivel de 0,05 (por ejemplo un riesgo relativo de 0,5 con intervalos de confianza del 95% entre 0,2 y 1,1).

Si el intervalo de confianza no incluye 1,0, los resultados son estadísticamente significativos (intervalo de 0,35 a 0,8).

Los intervalos de confianza son muy poderosos:

Para interpretar los resultados de la investigación porque, además, permiten que el lector evalúe el rango de posibles resultados compatibles con los hallazgos del estudio.

Esto puede ayudar al lector a definir si un tamaño del efecto considerado importante clínicamente. Es consistente con los datos o puede ser descartado por éstos (8-10).

Por ejemplo,un riesgo relativo de 0,96 sugiere una reducción de tan sólo el 4% en el riesgo del desenlace como consecuencia de la intervención.

Si el intervalo de confianza del 95% fuera 0,88 a 1,1 estaríamos seguros que el estudio ha descartado un tamaño del efecto clínicamente importante.

La interpretación sería totalmente diferente si los límites fueran de 0,3 a 2,1.

En este caso, los resultados son compatibles tanto con una reducción del 70% como con un aumento del 110% en el riesgo del desenlace en los sujetos expuestos a la intervención.

Debido a un bajo poder, este estudio no ha descartado una diferencia clínicamente importante entre los tratamientos. Por tanto, no se puede llamar un estudio “negativo “. Un mejor término para esta situación sería inconcluso.

 

 

CLIC AQUÍ Y DÉJANOS TU COMENTARIO

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *