Rincón Epidemiológico: ¿Es la Significancia Estadística Suficiente para tomar Decisiones?

Héctor José Cardona Villamizar, M.D., Internista, Gastroenterólogo, Epidemiólogo, Docente Adscrito De Gastroenterología, Universidad Nacional De Colombia. Hospital Pablo Vi, Bosa. William Otero Regino, M.D., Internista, Gastroenterólogo, Epidemiólogo, Profesor De Gastroenterología, Universidad Nacional De Colombia. Clínica Fundadores. Bogotá, D. C.

El punto de partida de todo proyecto de investigación es la formulación específica de una pregunta: 1) ¿La erradicación de Helicobacter pylori disminuye la recurrencia de úlcera duodenal a un año? El fin último de todo investigador es obtener información de la mejor calidad que le permita tomar decisiones bien sea con el paciente individual o en los grupos de población, buscando tener impacto desde el punto de vista costo/efectividad.

Validez estadística

Estadística Inferencial: Prueba de Hipótesis y Estimación

Pretender investigar con el total de la población objeto de estudio resulta, desde todo punto de vista, irrealizable; en su lugar, se ha implementado la técnica de la estadística inferencial, que tiene como objetivo fundamental obtener conclusiones útiles de una población objeto de estudio a partir de una muestra tomada de ella de manera probabilística (sin sesgos de selección).

Existen dos procedimientos para realizar dicha inferencia: la prueba de hipótesis y la estimación.

Prueba de Hipótesis

Una vez definida la pregunta de investigación:

¿La erradicación de Helicobacter pylori se asocia con cambios en la frecuencia de recurrencia de la úlcera duodenal (UD)?, la intención inicial del investigador es demostrar que los resultados observados son estadísticamente significativos; es decir, que hay asociación entre las variables estudiadas (H. pylori y recurrencia de UD).

Para ello formula una hipótesis nula (Ho) o hipótesis de no asociación: “La erradicación de Helicobacter pylori no se asocia con la disminución en la frecuencia de recurrencia de la úlcera duodenal“, y lo hace con la firme intención de refutarla o rechazarla.

Por otra parte, formula la hipótesis alternativa (Ha) la cual, bajo el respaldo de la evidencia y el conocimiento personal, el investigador desea confirmar: “La erradicación de Helicobacter pylori se asocia con la disminución en la frecuencia de recurrencia de la úlcera duodenal”.

La Ho es la que se somete a prueba y para ello se emplea la teoría de las probabilidades, evaluando el grado de signiƒOcancia estadística a través del valor p.

El valor p es la probabilidad más baja con el que se puede rechazar la Ho, representa la probabilidad de que los resultados alcanzados no sean producto del azar y correspondan a una asociación auténtica.

Existe consenso universal en definir una p<0,05 como estadísticamente significativa y esto es prueba suficiente para rechazar la Ho de no asociación y aceptar la Ha de sí asociación; por el contrario, una p>0,05 indica que la probabilidad de que los resultados logrados sean producto simplemente del azar y no de una verdadera asociación es mayor del 5%, lo cual resulta superior a los estándares admitidos y, en estos casos, la Ho debe ser aceptada.

La prueba de hipótesis como método para realizar inferencia estadística tiene serias limitaciones:

  1. Se parte de una cifra determinada de manera arbitraria (<5%) para definir el nivel de significancia estadística;
  2. En la publicación de los resultados de la investigación, la presentación del valor p>0,05 o p<0,05 simplemente señala la probabilidad de que los resultados obtenidos sean o no producto del azar, dicotomía sólo aceptable desde la perspectiva puramente matemática, lo cual se aleja de lo que sucede en el ámbito de las ciencias médicas y biológicas (grupo erradicado, recurrencia, G1=6% vs. grupo no erradicado G2=60%, p<0,05, la diferencia es estadísticamente significativa; para nuestro ejemplo indicaría que el erradicar H. pylori se asocia con la disminución de la recurrencia de UD sin importar porqué, cómo, cuánto, cuándo y dónde);
  3. El tamaño de la muestra estudiada tiene implicaciones en la significancia; así, pequeñas diferencias sin ningún valor real pueden llegar a ser significativas desde el punto de vista estadístico cuando se toman muestras grandes, mientras que diferencias con efecto clínico importante pueden no serlo sólo por el hecho de haber seleccionado un número pequeño de sujetos para estudio. Así, la significancia estadística juzgada sólo por el valor p puede conducir a dos tipos de errores: el error tipo I o alfa ocasionado cuando rechazamos una Ho que es verdadera o el error tipo II o beta ocasionado al aceptar una Ho que es falsa.

El hecho de que una asociación sea estadísticamente significativa no asegura que sea verdad; de igual manera, la ausencia de significancia estadística no excluye la probabilidad de que esta asociación exista.

En consecuencia, la prueba de hipótesis constituye una metodología débil para realizar inferencia; así, la interpretación del valor p invariablemente debe hacerse dentro del contexto clínico y su descripción debe acompañarse siempre del cálculo de los intervalos de confianza.

Estimación

Como el método para hacer inferencia permite estimar los parámetros de la población objeto de estudio (tasas, promedios, riesgos relativos, razón de disparidad, etc.), a partir de los datos obtenidos en la muestra de dicha población (estadísticos), y adopta como medida para estimar estos parámetros el cálculo de los intervalos de conƒOanza, por estandarización se acepta una confiabilidad del 95% (IC 95%).

En la presentación de los resultados de un estudio, los valores puntuales (como nuestro ejemplo de porcentaje de recurrencia en las muestras, G1=6% vs.

G2=60%) son imprecisos. El empleo de los intervalos de confianza (IC 95%) permite estimar a partir de los valores en la muestra un rango posible de valores que pueden tomar las variables en la población (G1=4-8%, G6=52-66%); en esencia, indican la imprecisión o precisión de los valores muestrales como estimadores de los valores de la población.

La precisión de los intervalos guarda una relación inversa con su amplitud: a mayor amplitud menor precisión. Esta amplitud, a su vez, va a estar afectada por tres factores:

  1. El tamaño de la muestra: muestras grandes darán intervalos estrechos o precisos; así, resulta arriesgado tomar decisiones basados en trabajos con muestras pequeñas;
  2. La variabilidad de las características estudiadas, bien sea desde el observador, el observado o en la medición: a menor variabilidad mayor precisión; 3) del grado de confiabilidad requerida: a mayor confiabilidad mayor precisión.

El valor p y los intervalos de confianza son dos elementos imprescindibles para definir la validez estadística de los resultados de una investigación; precisa si éstos se deben o no a la presencia del azar y no hacen referencia a la validez interna o la calidad del diseño.

Por lo tanto, considerados de manera aislada, son insuficientes para extrapolar o aplicar las conclusiones obtenidas en la muestra a la población. Es trascendental, en la evaluación crítica de los resultados, considerar el manejo que los investigadores dieron al control de sesgos, al azar y a los potenciales factores de confusión, antes de aventurarse a tomar decisiones con base en los conclusiones de cualquier investigación.

Conclusiones

  1. El valor p y los intervalos de confianza permiten evaluar sólo la validez estadística de los estudios; la toma de decisiones en la práctica clínica debe considerar adicionalmente aspectos imprescindibles relacionados con la metodología empleada en la ejecución del proyecto.
  2. Desconfíe de los estudios que hoy día publiquen los resultados sólo en función del valor p; la presentación de los intervalos de confianza debe hacer parte de toda publicación científica seria.

Estos debieran registrarse tanto en los textos principales como en los resúmenes.

Bibliografía

  • 1. Altman DG. Statistics and ethics in medical research; VI-Presentation of results. BMJ 1980;281:1542-4.
  • 2. Altman DG. Statistics with confidence. Second edition. London: BMJ books; 2000.
  • 3. Gardner MJ, Altman DG. Using confidence intervals. Lancet 1987; i:746.
  • 4. Goodman SN. Toward evidence-based medical statistics.Part 1.The P value fallacy. Ann Intern Med 1999;130:995-1004.
  • 5. Langman MJS. Toward estimation and confidence intervals. BMJ 1986;292:716.
  • 6. Rothman KJ. A show of confidence.N Engl J Med 1978;299:1362-3.
  • 7. Savitz DA, Tolo K-A. Statiscal significance testing in the American Journalof Epidemiology, 1970-1990. Am J Epidemiol 1994;139:1047-52.

 

CLIC AQUÍ Y DÉJANOS TU COMENTARIO

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *