Clear Sky Science · es

Propiedades e inferencia de la distribución Pareto–Lomax con aplicaciones a datos reales

2026-03-14 · Volver al índice

Por qué importan las curvas de riesgo flexibles

Cuando los médicos registran cuánto tiempo permanecen en remisión los pacientes con cáncer, o los ingenieros miden cuánto duran los materiales antes de romperse, se apoyan en curvas estadísticas para resumir el riesgo a lo largo del tiempo. Muchas de estas curvas asumen que el riesgo aumenta o disminuye de forma sostenida. Pero la vida real es más compleja: el peligro puede dispararse al inicio, estabilizarse o volver a aumentar en etapas tardías. Este artículo presenta una nueva herramienta matemática —la distribución odd Pareto–Lomax (OPLx)— diseñada para capturar estos patrones complejos con mayor fidelidad, ayudando a los investigadores a describir eventos extremos y tiempos de fallo en medicina, ingeniería, finanzas y otros campos ricos en datos.

Una nueva forma de captar eventos poco probables

En el núcleo del estudio está un modelo clásico llamado distribución Lomax, usado desde hace tiempo para representar datos de cola pesada donde los resultados raros pero muy grandes —como pérdidas de seguro enormes o tiempos de supervivencia muy prolongados— son más comunes de lo que predicen modelos simples. Los autores amplían esta base incorporando una familia más amplia de curvas conocida como la familia odd Pareto–G. Esta combinación añade dos perillas adicionales de “forma” al modelo Lomax original, creando la distribución OPLx de cuatro parámetros. Con estos grados de libertad extra, el nuevo modelo puede representar una amplia variedad de formas de curva, incluyendo riesgo que disminuye de forma sostenida, riesgo que aumenta de forma sostenida, patrones unimodales con un único pico, e incluso comportamientos en forma de J y J invertida que se observan con frecuencia en datos de duración de vida reales.

Un vistazo bajo el capó matemático

El artículo explora en profundidad cómo se comporta esta nueva distribución. Los autores derivan fórmulas que describen su función de probabilidad, la probabilidad de que una vida útil sea menor que un tiempo dado, y la tasa de riesgo —el riesgo instantáneo de fallo. Demuestran que la curva OPLx puede expresarse como una mezcla de curvas Lomax más simples, lo que les permite reutilizar muchos resultados matemáticos conocidos. Calculan resúmenes numéricos como la vida media, su variabilidad y medidas de asimetría y “apuntamiento”. Estos cálculos revelan que la distribución OPLx es especialmente buena para representar datos fuertemente sesgados a la derecha, donde la mayoría de las observaciones son pequeñas pero unas pocas muy grandes alargan la cola.

Comparando formas de estimar la curva

Para convertir la teoría en práctica, es preciso estimar los cuatro parámetros de la OPLx a partir de datos reales. Los autores comparan sistemáticamente ocho estrategias de estimación diferentes, que van desde el método de máxima verosimilitud ampliamente usado hasta enfoques basados en mínimos cuadrados, espacios entre puntos de datos y medidas de ajuste que dan peso adicional a la región central o a las colas. Usando simulaciones por ordenador extensas con miles de conjuntos de datos sintéticos bajo muchos ajustes de parámetros y tamaños muestrales, evalúan cuánto se desvían las estimaciones de cada método de los valores verdaderos y qué tan variables son. Los resultados muestran que todos los métodos mejoran a medida que hay más datos disponibles, pero los que enfatizan la cola derecha —especialmente el enfoque Anderson–Darling para cola derecha (RADE)— tienden a ser más precisos y estables, en particular cuando los conjuntos de datos son de tamaño moderado.

Poniendo el modelo a prueba con datos reales

Los autores prueban luego la distribución OPLx en tres conjuntos de datos muy distintos: tiempos de remisión de pacientes con cáncer de vejiga, tiempos de supervivencia de cobayas infectadas con tuberculosis y la vida a fatiga de un material compuesto bajo alta tensión. Para cada conjunto de datos comparan la OPLx con una batería de modelos competidores, incluidas muchas refinaciones de la distribución Lomax así como modelos habituales como Weibull y gamma. Empleando una serie de herramientas diagnósticas —criterios de información que penalizan modelos excesivamente complejos, medidas de distancia que comparan las curvas ajustadas con los datos y pruebas de Kolmogórov–Smirnov—, el modelo OPLx sale consistentemente favorecido. Ajusta mejor tanto la mayor parte de los datos como el comportamiento extremo de la cola en comparación con sus rivales, una conclusión que refuerzan verificaciones visuales como las curvas ajustadas y los diagramas cuantíl–cuantíl.

Qué significa esto para las decisiones cotidianas

En términos sencillos, este trabajo ofrece una lente más flexible y precisa para observar riesgos que se desarrollan a lo largo del tiempo, especialmente cuando los eventos raros pero de gran impacto importan. Al permitir que la curva de riesgo adopte muchas formas y al centrarse en los extremos, la distribución odd Pareto–Lomax puede mejorar estudios de fiabilidad de materiales, análisis de supervivencia en medicina, evaluaciones de pérdidas financieras e incluso tareas de aprendizaje automático que deben prestar atención a los valores atípicos, como la detección de fraude o el diagnóstico temprano de fallos. Los autores muestran que no solo esta nueva curva describe mejor los datos reales que muchas opciones existentes, sino que también existen métodos prácticos y de buen rendimiento para estimarla. Así, la distribución OPLx se presenta como una poderosa incorporación al repertorio estadístico para entender cómo y cuándo fallan las cosas.

Cita: Afify, A.Z., Mahran, H.A., Alqawba, M. et al. Properties and inference of the Pareto Lomax distribution with applications to real data. Sci Rep 16, 9082 (2026). https://doi.org/10.1038/s41598-026-43273-6

Palabras clave: datos de cola pesada, modelado de la duración de vida, riesgo y fiabilidad, análisis de supervivencia, eventos extremos