lunes, 30 de mayo de 2022

ESTADISTICA DESCRIPTIVA BASICA (PARA PYTHON)

 Fuente: https://relopezbriega.github.io/blog/2015/06/27/probabilidad-y-estadistica-con-python/

Conceptos básicos de la estadística descriptiva

En estadística descriptiva se utilizan distintas medidas para intentar describir las propiedades de nuestros datos, algunos de los conceptos básicos, son:

  • Media aritmética: La media aritmética es el valor obtenido al sumar todos los datos y dividir el resultado entre el número total elementos. Se suele representar con la letra griega
. Si tenemos una muestra de valores, , la media aritmética, , es la suma de los valores divididos por el numero de elementos; en otras palabras:
  • Desviación respecto a la media: La desviación respecto a la media es la diferencia en valor absoluto entre cada valor de la variable estadística y la media aritmética.
  • Varianza: La varianza es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística. La varianza intenta describir la dispersión de los datos. Se representa como
.
  • Desviación típica: La desviación típica es la raíz cuadrada de la varianza. Se representa con la letra griega
.
  • Moda: La moda es el valor que tiene mayor frecuencia absoluta. Se representa con
  • Mediana: La mediana es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de menor a mayor. Se representa con
  • .
  • Correlación: La correlación trata de establecer la relación o dependencia que existe entre las dos variables que intervienen en una distribución bidimensional. Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables están correlacionadas o que hay correlación entre ellas. La correlación es positiva cuando los valores de las variables aumenta juntos; y es negativa cuando un valor de una variable se reduce cuando el valor de la otra variable aumenta.
  • Covarianza: La covarianza es el equivalente de la varianza aplicado a una variable bidimensional. Es la media aritmética de los productos de las desviaciones de cada una de las variables respecto a sus medias respectivas.La covarianza indica el sentido de la correlación entre las variables; Si
la correlación es directa; Si
  • la correlación es inversa.
  • Valor atípico: Un valor atípico es una observación que se aleja demasiado de la moda; esta muy lejos de la tendencia principal del resto de los datos. Pueden ser causados por errores en la recolección de datos o medidas inusuales. Generalmente se recomienda eliminarlos del conjunto de datos.

TAREAS BASICAS DEL ANALISIS ESTADISTICO (PARA PYTHON)

 Fuente: https://relopezbriega.github.io/blog/2015/06/27/probabilidad-y-estadistica-con-python/

Actividades básicas del análisis estadístico

Las técnicas estadísticas deberían ser vistas como una parte importante de cualquier proceso de toma de decisiones, permitiendo tomar decisiones estratégicamente informadas que combinen intuición con experiencia y un entendimiento estadístico de los datos que tenemos disponibles.

Un análisis estadístico suele contener 5 actividades básicas:

  1. Diseño del análisis: Esta actividad involucra el planeamiento de los detalles para obtener los datos que necesitamos y la generación de la hipótesis a ser evaluada.

  2. Exploración de datos: En esta actividad nos dedicamos a jugar con nuestros datos, los describimos, los resumimos, realizamos gráficos para mirarlos desde distintos ángulos. Esta exploración nos ayuda a asegurarnos que los datos que obtuvimos son completos y que la etapa de diseño fue correcta.

  3. Armado del modelo: En esta actividad intentamos armar un modelo que explique el comportamiento de nuestros datos y pueda llegar a hacer predicciones sobre los mismos. La idea es que el modelo pueda describir las propiedades fundamentales de nuestros datos.

  4. Realizar estimaciones: Aquí vamos a intentar realizar estimaciones basadas en el modelo que armamos anteriormente. También vamos a intentar estimar el tamaño del error que nuestro modelo puede tener en sus predicciones.

  5. Contraste de la hipótesis: Esta actividad es la que va a producir la decisión final sobre si las predicciones del modelo son correctas y ayudarnos a concluir si los datos que poseemos confirman o rechazan la hipótesis que generamos en la actividad 1.

CONCEPTOS BASICOS DE ESTADISTICA (PARA PYTHON)

 Fuente: https://relopezbriega.github.io/blog/2015/06/27/probabilidad-y-estadistica-con-python/

¿Qué es la Estadística?

La estadística suele ser definida como la ciencia de aprender de los datos o como la ciencia de obtener conclusiones en la presencia de incertidumbre. Se relaciona principalmente con la recolección, análisis e interpretación de datos, así como también con la efectiva comunicación y presentación de los resultados basados en esos datos. Como por datos entendemos a cualquier clase de información grabada, la estadística juego un rol importante en muchas disciplinas científicas.

La estadística puede ser muy importante para una efectiva toma de decisiones. Existe una gran cantidad de valiosa información escondida entre los datos, pero esta información no suele ser fácilmente accesible, la estadística nos brinda los principios fundamentales que nos permiten extraer y entender esa información; tambien nos proporciona las herramientas necesarias para verificar la calidad de nuestros datos y nuestra información.

La estadística suele ser dividida en dos grandes ramas:

  1. La estadística descriptiva: La cual se dedica a recolectar, ordenar, analizar y representar a un conjunto de datos, con el fin de describir apropiadamente las características de este. Calcula los parámetros estadísticos que describen el conjunto estudiado. Algunas de las herramientas que utiliza son gráficos, medidas de frecuencias, medidas de centralización, medidas de posición, medidas de dispersión, entre otras.

  2. La estadistica inferencial: La cual estudia cómo sacar conclusiones generales para toda la población a partir del estudio de una muestra, y el grado de fiabilidad o significación de los resultados obtenidos. Sus principales herramientas son el muestreo, la estimación de parámetros y el contraste de hipótesis.

¿Qué es la Probabilidad?

La probabilidad mide la mayor o menor posibilidad de que se dé un determinado resultado (suceso o evento) cuando se realiza un experimento aleatorio. Para calcular la probabilidad de un evento se toma en cuenta todos los casos posibles de ocurrencia del mismo; es decir, de cuántas formas puede ocurrir determinada situación.Los casos favorables de ocurrencia de un evento serán los que cumplan con la condición que estamos buscando. La probabilidad toma valores entre 0 y 1 (o expresados en tanto por ciento, entre 0% y 100%).

La probabilidad es a la vez el inverso y complemento para la estadística. Dónde la estadística nos ayuda a ir desde los datos observados hasta hacer generalizaciones sobre como funcionan las cosas; la probabilidad funciona en la dirección inversa: si asumimos que sabemos como las cosas funcionan, entonces podemos averiguar la clase de datos que vamos a ver y cuan probable es que los veamos.

La probabilidad también funciona como complemento de la estadística cuando nos proporciona una sólida base para la estadistica inferencial. Cuando hay incertidumbre, no sabemos que puede pasar y hay alguna posibilidad de errores, utilizando probabilidades podemos aprender formas de controlar la tasa de errores para reducirlos.

domingo, 15 de mayo de 2022

ESTIMACION DE PARAMETROS DE VIDA PARA ANALISIS DE CONFIABILIDAD

 ESTIMACION DE PARAMETROS

El término estimación de parámetros se refiere al proceso de usar datos de muestra (en ingeniería de confiabilidad, por lo general datos de tiempos de falla o éxito) para estimar los parámetros de la distribución seleccionada. Hay varios métodos de estimación de parámetros disponibles. Esta sección presenta una descripción general de los métodos disponibles utilizados en el análisis de datos de vida. Más específicamente, comenzamos con el método relativamente simple de Trazado de Probabilidad y continuamos con los métodos más sofisticados de Regresión de Rango (o Mínimos Cuadrados), Estimación de Máxima Verosimilitud y Métodos de Estimación Bayesiana.

Trazado de probabilidad

El método menos intensivo desde el punto de vista matemático para la estimación de parámetros es el método de trazado de probabilidades. Como implica el término, el trazado de probabilidad implica un trazado físico de los datos en un papel de trazado de probabilidad . Este método se implementa fácilmente a mano, dado que uno puede obtener el papel de trazado de probabilidad apropiado.

El método de representación gráfica de probabilidad toma la CDF de la distribución e intenta linealizarla empleando un papel especialmente construido. Las siguientes secciones ilustran los pasos de este método usando la distribución de Weibull de 2 parámetros como ejemplo. Esto incluye:

  • Linealizar la función de falta de fiabilidad
  • Construya el papel de trazado de probabilidad
  • Determinar las posiciones X e Y de los puntos de la trama

Y luego usar la gráfica para leer cualquier tiempo en particular o valor de interés de confiabilidad/falta de confiabilidad.

Linealización de la función de falta de fiabilidad

En el caso del Weibull de 2 parámetros, la cdf (también la falta de confiabilidad q ( t ) ) es dado por:

F ( t ) = Q ( t ) = 1 - mi - ( t η ) β

Luego, esta función puede linealizarse (es decir, ponerse en la forma común de y = metro x + segundo formato) de la siguiente manera :

Q ( t ) = ln ( 1 - Q ( t ) ) = ln ( 1 - Q ( t ) ) = ln ( - ln ( 1 - Q ( t ) ) ) = ln ( ln ( 1 1 - Q ( t ) ) ) = 1 - mi - ( t η ) β ln [ mi - ( t η ) β ] - ( t η ) β β ( ln ( t η ) ) β ln t - β ln η

Luego, configurando:

y = en ( en ( 1 1 Q ( t ) ) )

y:

x = ln ( t )

la ecuación se puede reescribir como:

y = β x - β ln ( η )

que ahora es una ecuación lineal con una pendiente de:

m = β

y un intercepto de:

segundo = - β l norte ( η )

Construyendo el papel

La siguiente tarea es construir el papel de trazado de probabilidad de Weibull con los ejes y y x apropiados. La transformación del eje x es simplemente logarítmica. El eje y es un poco más complejo y requiere una transformación recíproca logarítmica doble, o:

y = en ( en ( 1 1 Q ( t ) ) ) )

donde q ( t ) es la falta de fiabilidad.

Dichos documentos han sido creados por diferentes proveedores y se denominan documentos de trazado de probabilidad . El sitio web de recursos de ingeniería de confiabilidad de ReliaSoft en www.weibull.com tiene diferentes papeles de trazado disponibles para descargar .

WeibullPaper2C.png

Para ilustrar, considere la siguiente gráfica de probabilidad en un tipo ligeramente diferente de papel de probabilidad de Weibull.

Diferente papel weibull.png

Este documento está construido en base a las transformaciones y y x mencionadas, donde el eje y representa la falta de confiabilidad y el eje x representa el tiempo. Ambos valores deben conocerse para cada punto de tiempo hasta la falla que queramos graficar.

Entonces, dada la y yx X valor para cada punto, los puntos se pueden poner fácilmente en la gráfica. Una vez que se han colocado los puntos en el gráfico, se dibuja la mejor línea recta posible a través de estos puntos. Una vez que se ha dibujado la línea, se puede obtener la pendiente de la línea (algunos documentos de probabilidad incluyen un indicador de pendiente para simplificar este cálculo). Este es el parámetro b , que es el valor de la pendiente. Para determinar el parámetro de escala, la (también llamada vida característica ), se lee el tiempo en el eje x correspondiente a Q ( t ) = 63,2 .

Tenga en cuenta que en:

Q ( t = η ) = = = = 1 - 0.632 - ( t η ) β 1 - mi - 1 mi 63.2

Por lo tanto, si ingresamos al y eje Q ( t ) = 63,2 , el valor correspondiente de t será igual a la . Así, utilizando esta sencilla metodología, se pueden estimar los parámetros de la distribución de Weibull.

Determinación de la posición X e Y de los puntos del gráfico

Los puntos en el gráfico representan nuestros datos o, más específicamente, nuestros datos de tiempos de falla. Si, por ejemplo, probamos cuatro unidades que fallaron a las 10, 20, 30 y 40 horas, entonces usaríamos estos tiempos como nuestros x o valores de tiempo.

Determinar las y , o los valores de falta de fiabilidad, es un poco más complejo. Para determinar las y , primero debemos determinar un valor que indique la falta de confiabilidad correspondiente para esa falla. En otras palabras, necesitamos obtener el porcentaje acumulado de fallas para cada tiempo hasta la falla. Por ejemplo, el porcentaje acumulativo de errores a las 10 horas puede ser del 25 %, a las 20 horas del 50 %, y así sucesivamente. Este es un método simple que ilustra la idea. El problema con este método simple es el hecho de que el punto del 100% no está definido en la mayoría de las gráficas de probabilidad; por lo tanto, se debe utilizar un enfoque alternativo y más sólido. El método más utilizado para determinar este valor es el método de obtención del rango medio para cada falla, como se analiza a continuación.

rangos medios

El método de rangos medianos se usa para obtener una estimación de la falta de confiabilidad para cada falla. El rango medio es el valor que la verdadera probabilidad de falla, Q ( T j ) , debe tener en j t h falla de una muestra de norte unidades al 50% de nivel de confianza.

El rango se puede encontrar para cualquier punto porcentual, PAG , mayor que cero y menor que uno, resolviendo la ecuación binomial acumulativa para DESDE . Esto representa el rango, o estimación de falta de confiabilidad, para el j t h falla en la siguiente ecuación para el binomio acumulativo:

PAGS = norte k = j ( norte k ) Z k ( 1 - Z ) norte - k

donde norte es el tamaño de la muestra y j el número de pedido.

El rango medio se obtiene resolviendo esta ecuación para DESDE en P = 0,50 :

0,50 = norte k = j ( norte k ) Z k ( 1 - Z ) norte - k

Por ejemplo, si norte = 4 y tenemos cuatro fallas, resolveríamos la ecuación de rango mediano para el valor de DESDE cuatro veces; una vez por cada falla con j = 1 , 2 , 3 y 4 . Este resultado se puede usar como estimación de la falta de confiabilidad para cada falla o el y posición de trazado. (Consulte también La distribución de Weibull para ver un ejemplo paso a paso de este método). La solución de la ecuación binomial acumulativa para DESDE requiere el uso de métodos numéricos.

Enfoque de distribuciones Beta y F

Un método más directo y fácil de estimar los rangos medianos es aplicar dos transformaciones a la ecuación binomial acumulativa, primero a la distribución beta y luego a la distribución F, lo que da como resultado [12, 13] :

METRO R metro norte = = = 1 1 + norte - j + 1 j F 0,50 ; metro ; norte 2 ( norte - j + 1 ) 2 j

donde F0,50 _ ; metro ; norte denota la F distribución en el punto 0,50, con metro y norte grados de libertad, por falla j de norte unidades.

Aproximación de Benard para rangos medianos

Otra aproximación rápida y menos precisa de los rangos medianos también viene dada por:

METRO R = j 0,3 norte + 0,4

Esta aproximación de los rangos medianos también se conoce como aproximación de Benard .

Kaplan Meier

El estimador de Kaplan-Meier (también conocido como estimador del límite del producto ) se usa como una alternativa al método de rangos medianos para calcular las estimaciones de la falta de confiabilidad con fines de representación gráfica de probabilidad. La ecuación del estimador viene dada por:

F ˆˆ ( t yo ) = 1 - yo j = 1 r j - norte j norte j ,  yo = 1 ,. _ . . , metro

donde:

m = n = n i = r j = s j = número total de puntos de datos el número total de unidades n j = 0 i 1 s j j = 0 i 1 r j , i = 1,. ..,m número de fallas en el jth jth grupo y número de unidades supervivientes en el datos , de grupo

Ejemplo de gráfico de probabilidad

Esta misma metodología se puede aplicar a otras distribuciones con cdf que se pueden linealizar. Existen diferentes documentos de probabilidad para cada distribución, porque diferentes distribuciones tienen diferentes CDF ecuaciones Las herramientas de software de ReliaSoft crean automáticamente estos gráficos para usted. Las escalas especiales de estos gráficos le permiten derivar las estimaciones de los parámetros directamente de los gráficos, de forma similar a b y la se obtuvieron de la gráfica de probabilidad de Weibull. El siguiente ejemplo demuestra el método nuevamente, esta vez usando la distribución exponencial de 1 parámetro.


Supongamos que se prueba la confiabilidad de seis unidades idénticas en la misma aplicación y operación niveles de estres. Todas estas unidades fallan durante la prueba después de operar durante los siguientes tiempos (en horas): 96, 257, 498, 763, 1051 y 1744.

Los pasos para usar el método de representación gráfica de probabilidad para determinar los parámetros de la función de densidad de probabilidad exponencial que representa la los datos son los siguientes:

Clasifique los tiempos de falla en orden ascendente como se muestra a continuación.

falla (h) 96 257 498 763 1,051 1,744 Número de orden de falla de un tamaño de muestra de 6 1 2 3 4 5 6

Obtenga sus posiciones de trazado de rango medio. Las posiciones de clasificación mediana se utilizan en lugar de otros métodos de clasificación porque las clasificaciones medianas están en un nivel de confianza específico (50%).

Los tiempos de falla, con sus correspondientes rangos medios, se muestran a continuación:

falla (Hr) 257 498 763 1,051 1,744 mediano Rango 96 26 .44 42 .14 57 .86 73 .56 89 .10 10 .91

En un papel de probabilidad exponencial, grafique los tiempos en el eje x y sus correspondientes valor de rango en el eje y. La siguiente figura muestra un ejemplo de un artículo de probabilidad exponencial. Él el papel es simplemente un papel log-lineal.

ALTA4.1.png

Dibuja la mejor recta posible que pase por t = 0 y ( t ) = 100 punto y a través de los puntos graficados (como se muestra en el diagrama a continuación).

En Q ( t ) = 63,2 o R ( t ) = 36,8 punto de ordenadas, dibuja un línea recta horizontal hasta que esta línea se cruza con la línea recta ajustada. Dibuja una línea vertical a través de esta intersección hasta que cruce la abscisa. El valor en la intersección de la abscisa es la estimación de la media. Para este caso, µˆ ˆ= 833 horas lo que significa que λ = 1 μ = 0,0012 (Esto siempre es del 63,2 % porque ( T ) = 1 - 0,632 - μ μ = 1 - mi - 1 = mi = 63,2 .

ALTA4.2.png

Ahora cualquier valor de confiabilidad para cualquier tiempo de misión t Puede ser obtenido. por ejemplo, el la confiabilidad para una misión de 15 horas, o cualquier otro tiempo, ahora se puede obtener ya sea de forma gráfica o analítica.

Para obtener el valor del gráfico, dibuje una línea vertical desde la abscisa, en t = 15 horas, a la línea ajustada. Trace una línea horizontal desde esta intersección hasta la ordenada y lea R ( t ) . En este caso, R ( t = 15 ) = 98.15 . Esto también se puede obtener analíticamente, a partir de la función de fiabilidad exponencial.

Comentarios sobre el método de representación gráfica de probabilidad

Además del inconveniente más obvio del trazado de probabilidades, que es la cantidad de esfuerzo necesario, el trazado manual de probabilidades no siempre es consistente en los resultados. Dos personas que trazan una línea recta a través de un conjunto de puntos no siempre dibujarán esta línea de la misma manera y, por lo tanto, obtendrán resultados ligeramente diferentes. Este método se usó principalmente antes del uso generalizado de computadoras que podían realizar fácilmente los cálculos para métodos de estimación de parámetros más complicados, como los métodos de mínimos cuadrados y máxima verosimilitud.

Mínimos cuadrados (regresión de rango)

Utilizando la idea del gráfico de probabilidad, el análisis de regresión ajusta matemáticamente la mejor línea recta a un conjunto de puntos, en un intento de estimar los parámetros. Esencialmente, esta es una versión basada matemáticamente del método de trazado de probabilidad discutido anteriormente.

El método de mínimos cuadrados lineales se utiliza para todos los análisis de regresión realizados por Weibull++, excepto para los casos de las distribuciones Weibull de 3 parámetros, Weibull mixta, gamma y gamma generalizada, donde se emplea una técnica de regresión no lineal. Los términos regresión lineal y mínimos cuadrados se usan como sinónimos en esta referencia. En Weibull++, el término regresión de rango se usa en lugar de mínimos cuadrados o regresión lineal, porque la regresión se realiza en los valores de rango, más específicamente, los valores de rango mediano (representados en el eje y). El método de los mínimos cuadrados requiere que se ajuste una línea recta a un conjunto de puntos de datos, de modo que se minimice la suma de los cuadrados de la distancia de los puntos a la línea ajustada. Esta minimización se puede realizar en dirección vertical u horizontal. Si la regresión es sobre X , luego la línea se ajusta de modo que las desviaciones horizontales de los puntos a la línea se minimicen. Si la regresión está en Y, esto significa que la distancia de las desviaciones verticales de los puntos a la línea se minimiza. Esto se ilustra en la siguiente figura.

Minimizando la distancia.png

Regresión de rango en Y

Suponga que un conjunto de pares de datos ( x 1 , y 1 ) , ( x 2 , y 2 ) ,..., ( x norte , y norte ) fueron obtenidas y graficadas, y que X -Los valores se conocen con exactitud. Entonces, según el principio de los mínimos cuadrados, que minimiza la distancia vertical entre los puntos de datos y la línea recta ajustada a los datos, la línea recta que mejor se ajusta a estos datos es la línea recta y = a ^ + b ^ x (donde el recientemente introducido ( ^ ) indica que este valor es una estimación) tal que:

yo = 1 norte ( un ^ + segundo ^ X yo - y yo ) 2 = min yo = 1 norte ( un + segundo X yo - y yo ) 2

y donde un ^ y b ^ son las estimaciones de mínimos cuadrados de un yb b , y norte es el número de puntos de datos. Estas ecuaciones se minimizan mediante estimaciones de aun y bb tal que:

un ^ = norte yo = 1 y yo norte - segundo ^ norte yo = 1 X yo norte = y ¯ - segundo ^ X ¯

y:

segundo ^ = norte yo = 1 X yo y yo - norte yo = 1 X yo norte yo = 1 y yo norte norte yo = 1 X 2 yo - ( norte yo = 1 X yo ) 2 norte

Regresión de rango en X

Suponga que un conjunto de pares de datos .., ( x 2 , y 2 ) ,..., ( x norte , y norte ) se obtuvieron y graficaron, y que los valores de y se conocen exactamente. Se aplica el mismo principio de mínimos cuadrados, pero esta vez minimizando la distancia horizontal entre los puntos de datos y la línea recta ajustada a los datos. La línea recta que mejor se ajusta a estos datos es la línea recta x = a ˆˆ + b ˆˆ y tal que:

norte yo = 1 ( un ˆˆ + segundo ˆˆ y yo X _ ) 2 = min un _ ( _ , ) segundo norte yo = 1 ( un + segundo ˆ y yo X _ ) _

De nuevo, aun y bb son las estimaciones por mínimos cuadrados de y b , y norte es el número de puntos de datos. Estas ecuaciones se minimizan mediante estimaciones de aun y bb tal que:

un ^ = norte yo = 1 X yo norte - segundo ^ norte yo = 1 y yo norte = X ¯ - segundo ^ y ¯
y:
segundo ˆˆ = norte yo = 1 X yo y yo - norte yo = 1 X yo norte yo = 1 y yo norte norte yo = 1 y 2 yo - ( norte yo = 1 y yo ) 2 norte

Las relaciones correspondientes para determinar los parámetros para distribuciones específicas (es decir, Weibull, exponencial, etc.) se presentan en los capítulos que cubren esa distribución.

Coeficiente de correlación

El coeficiente de correlación es una medida de qué tan bien se ajusta el modelo de regresión lineal a los datos y generalmente se denota por ρ . En el caso del análisis de datos de vida, es una medida de la fuerza de la relación lineal (correlación) entre los rangos medianos y los datos. El coeficiente de correlación de la población se define de la siguiente manera:

ρ = σ x y σ x σ y

donde σ x y = covarianza de X y y , x _ = desviación estándar de X , y y _ = desviación estándar de y .

El estimador de ρ es el coeficiente de correlación de la muestra, ρ ^ , dada por:

ρ ^ = norte yo = 1 X yo y yo - norte yo = 1 X yo norte yo = 1 y yo norte norte yo = 1 x 2 yo - ( 1 norte yo = yo X yo ) 2 norte norte yo = 1 y 2 yo - ( 1 norte yo = yo y yo ) 2 norte

El rango de ρ ^ es 1 ρ ^ 1 .

Coeficiente de correlación.png

Cuanto más cerca esté el valor de ± 1 , mejor será el ajuste lineal. Tenga en cuenta que +1 indica un ajuste perfecto (los valores emparejados ( x yo , y yo ) se encuentran en línea recta) con pendiente positiva, mientras que -1 indica un ajuste perfecto con pendiente negativa. Un valor de coeficiente de correlación de cero indicaría que los datos están dispersos aleatoriamente y no tienen patrón ni correlación en relación con el modelo de línea de regresión.

Comentarios sobre el método de los mínimos cuadrados

El método de estimación de mínimos cuadrados es bastante bueno para funciones que se pueden linealizar. Para estas distribuciones, los cálculos son relativamente fáciles y directos, con soluciones de forma cerrada que pueden dar una respuesta fácilmente sin tener que recurrir a técnicas numéricas o tablas. Además, esta técnica proporciona una buena medida de la bondad de ajuste de la distribución elegida en el coeficiente de correlación. Los mínimos cuadrados generalmente se usan mejor con conjuntos de datos que contienen datos completos, es decir, datos que consisten solo en tiempos únicos de falla sin datos censurados o de intervalo. (Consulte Clasificación de datos de vida para obtener información sobre los diferentes tipos de datos, incluidos datos completos, censurados por la izquierda, censurados por la derecha (o suspendidos) y de intervalo).

Ver también:

Métodos de clasificación para datos censurados

Todos los datos disponibles deben ser considerados en el análisis de los datos de tiempo hasta la falla. Esto incluye el caso cuando una unidad particular en una muestra ha sido removida de la prueba antes de fallar. Un elemento, o unidad, que se elimina de una prueba de confiabilidad antes de fallar, o una unidad que está en el campo y todavía está operando en el momento en que se determina la confiabilidad de estas unidades, se denomina elemento suspendido o censurado por la derecha observación o censurado a la derecha punto de datos . El análisis de artículos suspendidos también se consideraría cuando:

  1. Necesitamos hacer un análisis de los resultados disponibles antes de completar la prueba.
  2. Los modos de falla que están ocurriendo son diferentes a los previstos y dichas unidades se retiran de la prueba.
  3. Necesitamos analizar un solo modo y el conjunto de datos real comprende múltiples modos.
  4. Se análisis de garantía de todas las unidades en el campo (unidades no defectuosas y defectuosas). Las unidades no fallidas se consideran elementos suspendidos (o censurados por la derecha).

Esta sección describe los métodos de clasificación que se utilizan tanto en el gráfico de probabilidad como en los mínimos cuadrados (regresión de clasificación) para manejar datos censurados. Esto incluye:

  • El método de ajuste de rango para datos censurados por la derecha (suspensión).
  • El método de clasificación alternativo de ReliaSoft para datos censurados, incluidos datos censurados por la izquierda, censurados por la derecha e intervalos.

Método de ajuste de rango para datos censurados por la derecha

Cuando se utiliza el método de gráficos de probabilidad o de mínimos cuadrados (regresión de rango) para conjuntos de datos donde algunas de las unidades no fallaron o fueron suspendidas, necesitamos ajustar su probabilidad de falla o falta de confiabilidad. Como se discutió anteriormente, las estimaciones de la falta de confiabilidad de los datos completos se obtienen utilizando el enfoque de rangos medianos. La siguiente metodología ilustra cómo se calculan los rangos medianos ajustados para dar cuenta de los datos censurados por la derecha. Para ilustrar mejor la metodología, considere el siguiente ejemplo en Kececioglu [20] donde se prueban cinco elementos que dan como resultado tres fallas y dos suspensiones.

Número de artículo
(Posición)
Fracaso (F)
o Suspensión (S)
Vida útil del artículo, h
1 F 1 5,100
2 S 1 9,500
3 F 2 15,000
4 S 2 22,000
5 F3 _ 40,000


La metodología para trazar elementos suspendidos implica ajustar las posiciones de clasificación y trazar los datos en función de las nuevas posiciones, determinadas por la ubicación de las suspensiones. Si consideramos estas cinco unidades, se utilizaría la siguiente metodología: El primer elemento debe ser la primera falla; por lo tanto, se le asigna el número de orden de falla j = 1 . El número de orden de falla real (o posición) de la segunda falla, F 2 está en duda Podría estar en la posición 2 o en la posición 3. Tenía S 1 no se ha retirado de la prueba a las 9.500 horas, podría haber funcionado con éxito pasadas las 15.000 horas, por lo que F 2 en la posición 2. Alternativamente, S 1 también podría haber fallado antes de las 15.000 horas, por lo que F 2 en la posición 3. En este caso, el número de orden de falla para F 2 será algún número entre 2 y 3. Para determinar este número, considere lo siguiente:

Podemos encontrar el número de formas en que puede ocurrir la segunda falla en el orden número 2 (posición 2) o en el orden número 3 (posición 3). Las formas posibles se enumeran a continuación.


F 2 en la posición 2 O F 2 en la posición 3
1 2 3 4 5 6 1 2
F 1 F 1 F 1 F 1 F 1 F 1 F 1 F 1
F 2 F 2 F 2 F 2 F 2 F 2 S 1 S 1
S 1 S 2 F3 _ S 1 S 2 F3 _ F 2 F 2
S 2 S 1 S 1 F3 _ F3 _ S 2 S 2 F3 _
F3 _ F3 _ S 2 S 2 S 1 S 1 F3 _ S 2


Se puede ver que F 2 puede ocurrir en la segunda posición de seis maneras y en la tercera posición de dos maneras. La posición más probable es el promedio de estas formas posibles, o el número medio de orden ( MON ), dado por:

F 2 = METRO O N 2 = ( 6 x 2 ) + ( 2 x 3 ) 6 + 2 = 2.25


Siguiendo la misma lógica en el tercer fallo, se puede ubicar en las posiciones números 3, 4 y 5 de las posibles formas que se indican a continuación.

F3 _ en la posición 3 O F3 _ en la posición 4 O F3 _ en la posición 5
1 2 1 2 3 1 2 3
F 1 F 1 F 1 F 1 > F 1 F 1 F 1 F 1
F 2 F 2 S 1 F 2 F 2 S 1 F 2 F 2
F3 _ F3 _ F 2 S 1 S 2 F 2 S 1 S 2
S 1 S 2 F3 _ F3 _ F3 _ S 2 S 2 S 1
S 2 S 1 S 2 S 2 S 1 F3 _ F3 _ F3 _


Entonces, el número de orden medio para la tercera falla (ítem 5) es:

METRO O N 3 = ( 2 x 3 ) + ( 3 x 4 ) + ( 3 x 5 ) 2 + 3 + 3 = 4.125


Una vez que se ha establecido el número de orden medio para cada falla, obtenemos las posiciones de rango medio para estas fallas en su número de orden medio. Específicamente, obtenemos el rango mediano de los números de orden 1, 2.25 y 4.125 de un tamaño de muestra de 5, como se indica a continuación.

Posiciones de trazado para las fallas (tamaño de muestra = 5)
Número de falla MI Posición de clasificación mediana (%)
1: F 1 1 13%
2: F 2 2.25 36%
3: F3 _ 4.125 71%


Una vez que se han obtenido los valores del rango medio, el análisis del gráfico de probabilidad es idéntico al presentado anteriormente. Como habrás notado, esta metodología es bastante laboriosa. A lo largo de los años se han desarrollado otras técnicas y atajos para agilizar este procedimiento. Para obtener más detalles sobre este método, consulte Kececioglu [20] . Aquí, presentaremos uno de estos métodos. Este método calcula MON usando un incremento, I , que se define por:

yo yo = norte + 1 - PAGS METRO O N 1 + norte yo segundo PAGS S S


Donde

  • N = el tamaño de la muestra o el número total de elementos en la prueba
  • PMON = número de pedido medio anterior
  • NIBPSS = el número de elementos más allá del conjunto suspendido actual. Es el número de unidades (incluyendo todas las fallas y suspensiones) en el tiempo de falla actual.
  • i = el iésimo elemento de falla

MON se da como:

METRO O N yo = METRO O N yo - 1 + yo yo

Calculemos el ejemplo anterior usando el método.

Para F1:

METRO O N 1 = METRO O N 0 + yo 1 = 5 + 1 - 0 1 + 5 = 1


Para F2:

METRO O norte 2 = METRO O norte 1 + yo 2 = 1 + 5 + 1 - 1 1 + 3 = 2,25

Para F3:

METRO O N 3 = METRO O N 2 + yo 3 = 2,25 + 5 + 1 - 2,25 1 + 1 = 4,125

El MON obtenido para cada elemento de falla a través de este método es el mismo que el del primer método, por lo que los valores de rango mediano también serán los mismos.

Para datos agrupados, el incremento yo yo en cada grupo de fallas se multiplicará por el número de fallas en ese grupo.

Deficiencias del método de ajuste de rango

Aunque el método de ajuste de rango es el método más utilizado para realizar análisis de elementos suspendidos, nos gustaría señalar la siguiente deficiencia. Como habrás notado, solo se tiene en cuenta la posición donde ocurrió la falla, y no el tiempo exacto de suspensión. Por ejemplo, esta metodología produciría exactamente los mismos resultados para los próximos dos casos.

Caso 1 Caso 2
Número de artículo Estado*"F" o "S" Vida de un artículo, hr Número de artículo Estado*,"F" o "S" Vida útil del artículo, h
1 F 1 1,000 1 F 1 1,000
2 S 1 1,100 2 S 1 9,700
3 S 2 1,200 3 S 2 9,800
4 S 3 1,300 4 S 3 9,900
5 F 2 10,000 5 F 2 10,000
* F - Reprobado, S - Suspendido * F - Reprobado, S - Suspendido


Este déficit es significativo cuando el número de fallas es pequeño y el número de suspensiones es grande y no se distribuye uniformemente entre las fallas, como ocurre con estos datos. En casos como este, se recomienda encarecidamente utilizar la estimación de máxima verosimilitud (MLE) para estimar los parámetros en lugar de utilizar mínimos cuadrados, porque MLE no analiza los rangos ni las posiciones de trazado, sino que considera cada tiempo único hasta la falla o suspensión. . Para los datos dados anteriormente, los resultados son los siguientes. Los parámetros estimados utilizando el método recién descrito son los mismos para ambos casos (1 y 2):

β ˆˆ = η ˆˆ = 0 .81 11,400 h

Sin embargo, los resultados de MLE para el Caso 1 son:

β ˆˆ = η ˆˆ = 1,33 6.920 horas

Y los resultados de MLE para el Caso 2 son:

β ˆˆ = η ˆˆ = 0 .93 21,300 h

Como podemos ver, hay una diferencia considerable en los resultados de los dos conjuntos calculados usando MLE y los resultados usando la regresión con el SRM. Los resultados para ambos casos son idénticos cuando se utiliza la técnica de estimación de regresión con SRM, ya que SRM considera solo las posiciones de las suspensiones. Los resultados de MLE son bastante diferentes para los dos casos, con el segundo caso con un valor mucho mayor de la , lo que se debe a los valores más altos de los tiempos de suspensión en el Caso 2. Esto se debe a que la técnica de máxima verosimilitud, a diferencia de la regresión de rangos con SRM, considera los valores de las suspensiones al estimar los parámetros. Esto se ilustra en la discusión de MLE dada a continuación.

Una alternativa para mejorar el método de regresión es utilizar el siguiente método de clasificación de ReliaSoft (RRM) para calcular la clasificación. RRM sí considera el efecto del tiempo de censura.

Método de clasificación de ReliaSoft (RRM) para datos censurados por intervalos

Cuando se analizan datos de intervalo, es común suponer que el tiempo de falla real ocurrió en el punto medio del intervalo. Para ser más conservador, puede usar el punto inicial del intervalo o puede usar el punto final del intervalo para ser más optimista. Weibull++ le permite emplear el método de clasificación (RRM) de ReliaSoft al analizar datos de intervalo. Mediante un proceso iterativo, este método de clasificación es una mejora con respecto al método de clasificación estándar (SRM).

Al analizar datos censurados por la izquierda o la derecha, RRM también considera el efecto del tiempo de censura real. Por lo tanto, el rango resultante será más preciso que el SRM donde solo se usa la posición y no el tiempo exacto de censura.

Para obtener más detalles sobre este método, consulte Método de clasificación de ReliaSoft .

Estimación de máxima verosimilitud (MLE)

Desde un punto de vista estadístico, el método de estimación de máxima verosimilitud se considera, con algunas excepciones, como la más robusta de las técnicas de estimación de parámetros discutidas aquí. El método presentado en esta sección es para datos completos (es decir, datos que consisten solo en tiempos hasta la falla). El análisis de los datos censurados por la derecha (suspensión) y de los datos de intervalo o censurados por la izquierda se analizan en las siguientes secciones.

La idea básica detrás de MLE es obtener los valores más probables de los parámetros, para una distribución dada, que describirán mejor los datos. Como ejemplo, considere los siguientes datos (-3, 0, 4) y suponga que está tratando de estimar la media de los datos. Ahora, si tienes que elegir el valor más probable para la media entre -5, 1 y 10, ¿cuál elegirías? En este caso, el valor más probable es 1 (dado su límite de opciones). De manera similar, bajo MLE, uno determina los valores más probables para los parámetros de la distribución supuesta. Se formula matemáticamente de la siguiente manera.

Si X es una variable aleatoria continua con pdf :

F ( X ; θ 1 , θ 2 , ... , _ _ θ k )

donde θ 1 , θ 2 , _ . . , θ k son k parámetros desconocidos que necesitan ser estimados, con R observaciones independientes, X 1 , X 2 , , X R , que corresponden en el caso de análisis de datos de vida a tiempos de falla. La función de verosimilitud está dada por:

L ( θ 1 , θ 2 , . . . , θ k | X 1 , X 2 , . . . , X R ) = L = R yo = 1 F ( X yo ; θ 1 , θ 2 , . . . , θ k )
yo = 1 , 2 , . . . , R

La función de verosimilitud logarítmica viene dada por:

Λ = en L = R yo = 1 en F ( X yo ; θ 1 , θ 2 , ... , _ _ Θ k )

Los estimadores de máxima verosimilitud (o valores de parámetros) de θ 1 , θ 2 , _ . . , θ k se obtienen maximizando L o Λ .

Al maximizar Λ con el que es mucho más fácil trabajar que con L , los estimadores de máxima verosimilitud (MLE) de θ 1 , θ 2 , _ . . , θ k son las soluciones simultáneas de k ecuaciones tales que:

Λ θ j = 0 , j=1,2...,k

Aunque es una práctica común graficar las soluciones MLE usando rangos medianos (los puntos se grafican de acuerdo con los rangos medianos y la línea de acuerdo con las soluciones MLE), esto no es completamente representativo. Como se puede ver en las ecuaciones anteriores, el método MLE es independiente de cualquier tipo de rango. Por esta razón, la solución MLE a menudo parece no rastrear los datos en el gráfico de probabilidad. Esto es perfectamente aceptable porque los dos métodos son independientes entre sí y de ninguna manera sugiere que la solución sea incorrecta.

MLE para datos censurados por la derecha

Al realizar un análisis de máxima verosimilitud en datos con elementos suspendidos, la función de probabilidad debe expandirse para tener en cuenta los elementos suspendidos. La técnica general de estimación no cambia, pero se agrega otro término a la función de probabilidad para dar cuenta de los elementos suspendidos. Más allá de eso, el método para resolver las estimaciones de los parámetros sigue siendo el mismo. Por ejemplo, considere una distribución donde X es una variable aleatoria continua con pdf y cdf :

F ( X ; θ 1 , θ 2 , ... , _ _ θ k ) F ( X ; θ 1 , θ 2 , ... , _ _ θ k )

donde θ 1 , θ 2 , _ . . , θ k son los parámetros desconocidos que deben estimarse a partir de R fallas observadas en T 1 , T 2 , . . . , NIÑOS _ , y METRO suspensiones observadas en S 1 , S 2 , . . . , SM _ entonces la función de verosimilitud se formula de la siguiente manera:

L ( θ 1 , ... , _ _ Θ k | T 1 , ... , _ _ T R , S 1 , ... , _ _ S METRO ) = R yo = 1 F ( T yo ; θ 1 , θ 2 ,. _ . _ , θ k ) METRO j = 1 [ 1 - F ( S j ; θ 1 , θ 2 , ... , _ _ θ k ) ]

Los parámetros se resuelven maximizando esta ecuación. En la mayoría de los casos, no existe una solución de forma cerrada para este máximo o para los parámetros. Las soluciones específicas para cada distribución que utiliza MLE se presentan en el Apéndice D.

MLE para intervalos y datos censurados a la izquierda

La inclusión de datos censurados por intervalos y por la izquierda en una solución MLE para estimaciones de parámetros implica agregar un término a la ecuación de probabilidad para tener en cuenta los tipos de datos en cuestión. Cuando se utilizan datos de intervalo, se supone que las fallas ocurrieron en un intervalo; es decir, en el intervalo desde el tiempo UN al tiempo B (o desde el momento 0 hasta el momento B si se deja censurado), donde A < B . En el caso de datos de intervalo, y dado PAG observaciones de intervalo, la función de verosimilitud se modifica multiplicando la función de verosimilitud con un término adicional de la siguiente manera:

L ( θ 1 , θ 2 , . . . , θ k | X 1 , X 2 , . . . , X PAGS ) = PAGS yo = 1 { F ( X yo ; θ 1 , θ 2 , . . . , θ k )   - F ( X yo - 1 ; θ 1 , θ 2 , . . . , θ k ) }

Tenga en cuenta que si solo están presentes datos de intervalo, este término representará la función de probabilidad completa para la solución MLE. La siguiente sección da una formulación de la función de verosimilitud completa para todos los esquemas de censura posibles.

La función de probabilidad completa

Ahora hemos visto que obtener estimaciones de parámetros MLE para diferentes tipos de datos implica incorporar diferentes términos en la función de probabilidad para dar cuenta de datos completos, datos censurados por la derecha y datos censurados por intervalos a la izquierda. Después de incluir los términos para los diferentes tipos de datos, la función de verosimilitud ahora se puede expresar en su forma completa o:

L = R yo = 1 F ( T yo ; θ 1 , ... , _ _ Θ k ) METRO j = 1 [ 1 - F ( S j ; θ 1 , ... , _ _ Θ k ) ] PAGS l = 1 { F ( yo l U ; θ 1 , ... , _ _ θ k ) - F ( yo l L ; θ 1 , ... , _ _ θ k ) }

donde:

L L ( θ 1 , . . . , θ k | T 1 , . . . , T R , S 1 , . . . , S M , I 1 , . . . I P )

y:

  • R es el número de unidades con fallas exactas
  • METRO es el número de unidades suspendidas
  • PAG es el número de unidades con censura a la izquierda o tiempos de intervalo hasta el fallo
  • θk _ son los parámetros de la distribución
  • _ Yo es el yo t h tiempo al fracaso
  • s j es el j t h tiempo de suspensión
  • yo _ tu es el final del intervalo de tiempo de l t h grupo
  • Yo l L es el comienzo del intervalo de tiempo de l t h grupo


El número total de unidades es norte = R + M + P . Cabe señalar que en esta formulación, si R , METRO o PAG es cero, entonces se supone que el término del producto asociado con ellos es uno y no cero.

Comentarios sobre el método MLE

El método MLE tiene muchas propiedades de muestras grandes que lo hacen atractivo para su uso. Es asintóticamente consistente, lo que significa que a medida que aumenta el tamaño de la muestra, las estimaciones convergen a los valores correctos. Es asintóticamente eficiente, lo que significa que para muestras grandes, produce las estimaciones más precisas. Es asintóticamente imparcial, lo que significa que para muestras grandes, uno espera obtener el valor correcto en promedio. La distribución de las propias estimaciones es normal, si la muestra es lo suficientemente grande, y esta es la base para los límites de confianza habituales de la matriz de Fisher se analizan más adelante. Todas estas son excelentes propiedades para muestras grandes.

Desafortunadamente, el tamaño de la muestra necesaria para lograr estas propiedades puede ser bastante grande: de treinta a cincuenta a más de cien tiempos de falla exactos, dependiendo de la aplicación. Con menos puntos, los métodos pueden estar muy sesgados. Se sabe, por ejemplo, que las estimaciones MLE del parámetro de forma para la distribución de Weibull están muy sesgadas para tamaños de muestra pequeños, y el efecto puede incrementarse dependiendo de la cantidad de censura. Este sesgo puede causar importantes discrepancias en el análisis. También existen situaciones patológicas en las que no se aplican las propiedades asintóticas del MLE. Uno de ellos es estimar el parámetro de ubicación para la distribución de Weibull de tres parámetros cuando el parámetro de forma tiene un valor cercano a 1. Estos problemas también pueden causar discrepancias importantes.

Sin embargo, MLE puede manejar las suspensiones y los datos de intervalo mejor que la regresión de rango, particularmente cuando se trata de un conjunto de datos fuertemente censurado con pocos tiempos de falla exactos o cuando los tiempos de censura están distribuidos de manera desigual. También puede proporcionar estimaciones con una o ninguna falla observada, lo que la regresión de rangos no puede hacer. Como regla general, nuestra recomendación es utilizar técnicas de regresión de rangos cuando los tamaños de muestra son pequeños y sin censura intensa (la censura se analiza en Clasificaciones de datos de vida ). Cuando hay una censura fuerte o desigual, cuando hay una alta proporción de datos de intervalo y/o cuando el tamaño de la muestra es suficiente, se debe preferir MLE.

Ver también:

Métodos de estimación de parámetros bayesianos

Hasta este punto, nos hemos ocupado exclusivamente de lo que comúnmente se conoce como estadística clásica. En esta sección, se presentará otra escuela de pensamiento en el análisis estadístico, a saber, la estadística bayesiana. La premisa de las estadísticas bayesianas (dentro del contexto del análisis de datos de vida) es incorporar conocimientos previos, junto con un conjunto dado de observaciones actuales, para poder hacer inferencias estadísticas. La información previa podría provenir de datos operativos u observacionales, de experimentos previos comparables o de conocimientos de ingeniería. Este tipo de análisis puede ser particularmente útil cuando hay datos de prueba limitados para un diseño o modo de falla determinado, pero existe una sólida comprensión previa del comportamiento de la tasa de falla para ese diseño o modo. Al incorporar información previa sobre los parámetros, se puede obtener una distribución posterior para los parámetros y se pueden hacer inferencias sobre los parámetros del modelo y sus funciones. Esta sección pretende brindar una descripción general rápida y elemental de los métodos bayesianos, centrada principalmente en el material necesario para comprender los métodos de análisis bayesianos disponibles en Weibull++. Se puede encontrar una amplia cobertura del tema en numerosos libros que tratan sobre estadísticas bayesianas.

Regla de Bayes

La regla de Bayes proporciona el marco para combinar información previa con datos de muestra. En esta referencia, aplicamos la regla de Bayes para combinar información previa sobre los parámetros de la distribución supuesta con datos de muestra para hacer inferencias basadas en el modelo. El conocimiento previo sobre el(los) parámetro(s) se expresa en términos de φ ( θ ) , llamada distribución previa . La posterior distribución θ dados los datos de la muestra, utilizando la regla de Bayes, proporciona la información actualizada sobre los parámetros θ . Esto se expresa con el siguiente pdf :

F ( θ | re un t un ) = L ( re un t un | θ ) φ ( θ ) ζ L ( re un t un | θ ) φ ( θ ) re ( θ )

donde:

  • θ es un vector de los parámetros de la distribución elegida
  • gramo es el rango de θ
  • L ( D a t a | θ ) es la función de verosimilitud basada en la distribución y los datos elegidos
  • φ ( θ ) es la distribución previa para cada uno de los parámetros

La integral en la ecuación de la regla de Bayes a menudo se denomina probabilidad marginal, que es un número constante que se puede interpretar como la probabilidad de obtener los datos de la muestra dada una distribución previa. Generalmente, la integral en la ecuación de la regla de Bayes no tiene una solución de forma cerrada y se necesitan métodos numéricos para su solución.

Como se puede ver en la ecuación de la regla de Bayes, existe una diferencia significativa entre las estadísticas clásicas y bayesianas. Primero, la idea de información previa no existe en la estadística clásica. Todas las inferencias en la estadística clásica se basan en los datos de la muestra. Por otro lado, en el marco bayesiano, la información previa constituye la base de la teoría. Otra diferencia está en el enfoque general de hacer inferencias y su interpretación. Por ejemplo, en el análisis bayesiano, los parámetros de la distribución a ajustar son las variables aleatorias. En realidad, no hay una distribución ajustada a los datos en el caso bayesiano.

Por ejemplo, considere el caso en que los datos se obtienen de una prueba de confiabilidad. Con base en la experiencia previa con un producto similar, el analista cree que el parámetro de forma de la distribución de Weibull tiene un valor entre 1 _ y β2 _ y quiere utilizar esta información. Esto se puede lograr usando el teorema de Bayes. En este punto, el analista está forzando automáticamente la distribución de Weibull como modelo para los datos y con un parámetro de forma entre 1 _ y β2 _ . En este ejemplo, el rango de valores para el parámetro de forma es la distribución anterior, que en este caso es Uniforme. Aplicando la regla de Bayes se obtendrá la distribución posterior del parámetro de forma. Por lo tanto, terminamos con una distribución del parámetro en lugar de una estimación del parámetro, como en la estadística clásica.

Para ilustrar mejor el ejemplo, suponga que se proporcionó un conjunto de datos de fallas junto con una distribución para el parámetro de forma (es decir, anterior uniforme) del Weibull (suponiendo automáticamente que los datos tienen una distribución de Weibull). En base a eso, se obtiene una nueva distribución (la posterior) para ese parámetro usando la regla de Bayes. Esta distribución posterior del parámetro puede o no parecerse en forma a la distribución previa supuesta. En otras palabras, en este ejemplo la distribución previa de b se asumió que era uniforme, pero lo más probable es que la parte posterior no tenga una distribución uniforme.

La pregunta ahora es: ¿cuál es el valor del parámetro de forma? ¿Qué pasa con la confiabilidad y otros resultados de interés? Para responder a estas preguntas, debemos recordar que en el marco bayesiano todas estas métricas son variables aleatorias. Por lo tanto, para obtener una estimación, se debe especificar una probabilidad o podemos usar el valor esperado de la distribución posterior.

Para demostrar el procedimiento de obtención de resultados a partir de la distribución posterior, reescribiremos la ecuación de la regla de Bayes para un solo parámetro θ 1 :

F ( θ | re un t un ) = L ( re un t un | θ 1 ) φ ( θ 1 ) ζ L ( re un t un | θ 1 ) φ ( θ 1 ) re ( θ )

El valor esperado (o valor medio) del parámetro θ 1 se puede obtener usando la ecuación para la media y la ecuación de la regla de Bayes para un solo parámetro:

mi ( θ 1 ) = metro θ 1 = ζ θ 1 F ( θ 1 | re un t un ) re θ 1

Un resultado alternativo para θ 1 sería el valor de la mediana. Usando la ecuación para la mediana y la ecuación de la regla de Bayes para un solo parámetro:

θ 0.5 - , 0 F ( θ 1 | re un t un ) re θ 1 = 0.5

La ecuación de la mediana se resuelve para θ 0.5 el valor medio de θ 1

cualquier otro percentil de la función de densidad de probabilidad posterior . se puede calcular e informar Por ejemplo, se podría calcular el percentil 90 de θ 1 ’s posterior pdf :

θ 0.9 - , 0 F ( θ 1 | re un t un ) re θ 1 = 0.9

Este cálculo se utilizará en límites de confianza y la distribución de Weibull para obtener límites de confianza en los parámetros.

El siguiente paso será hacer inferencias sobre la confiabilidad. Dado que el parámetro θ 1 es una variable aleatoria descrita por la probabilidad posterior, todas las funciones subsiguientes de θ 1 también son variables aleatorias distribuidas y se basan completamente en la función de densidad probabilidad de θ 1 . Por lo tanto, también será necesario calcular el valor esperado, la mediana u otros valores percentiles. Por ejemplo, la confiabilidad esperada en el tiempo T es:

mi [ R ( T | re un t un ) ] = ς R ( T ) F ( θ | re un t un ) re θ

En otras palabras, en un momento dado T , existe una distribución que gobierna el valor de confiabilidad en ese momento, T , y usando la regla de Bayes se obtiene el valor esperado (o medio) de la confiabilidad. También se pueden obtener otros percentiles de esta distribución. Se sigue un procedimiento similar para otras funciones de θ 1 , como la tasa de fallas, la vida confiable, etc.

Distribuciones anteriores

Las distribuciones anteriores juegan un papel muy importante en las estadísticas bayesianas. Son esencialmente la base del análisis bayesiano. Existen diferentes tipos de distribuciones previas, a saber, informativas y no informativas . Las distribuciones previas no informativas (también conocidas como vagas , planas y difusas ) son distribuciones que no tienen una base poblacional y juegan un papel mínimo en la distribución posterior. La idea detrás del uso de distribuciones previas no informativas es hacer inferencias que no se vean muy afectadas por la información externa o cuando la información externa no esté disponible. La distribución uniforme se utiliza con frecuencia como un dato previo no informativo.

Por otro lado, los previos informativos tienen una mayor influencia en la distribución posterior. La influencia de la distribución previa sobre la posterior está relacionada con el tamaño de la muestra de los datos y la forma de la anterior. En términos generales, se requieren tamaños de muestra grandes para modificar los datos previos fuertes, mientras que los datos previos débiles se ven abrumados incluso por tamaños de muestra relativamente pequeños. Los antecedentes informativos generalmente se obtienen de datos pasados.