Open University of Catalonia**We aren't endorsed by this school
Course
ESTADISTIC INFERENCIA
Subject
Statistics
Date
Dec 19, 2024
Pages
13
Uploaded by GeneralFangMandrill48
PEC1 Inferencia estadística 2023-24 semestre 2 versión 2 Máster Bioinformática y Bioestadística Noviembre 2024 Ejercicio 1 Las probabilidades de una variable discreta X están representadas mediante uno de los siguientes gráficos: a) Sólo uno de estos gráficos es posible. Identifica cual es y justifica tu respuesta El gráfico de la izquierda (gráfico A) no corresponde a una distribución de probabilidad dado que la probabilidad del punto 2 es negativa. Así calcularemos las probabilidades a partir del gráfico de la derecha (gráfico B). A partir del gráfico deducimos P(? = 1) = 0.4, P(? = 2) = 0.2y P(? = 3) = 0.4. Así, las probabilidades que nos piden son: b) Calcula las siguientes probabilidades •𝑃(? = 2) = 0.2•𝑃(? > 1) = 𝑃(? = 2) + 𝑃(? = 3) = 0.2 + 0.4 = 0.6•𝑃(1 <= ? < 3) = 𝑃(? = 1) + 𝑃(? = 2) = 0.4 + 0.2 = 0.6•𝑃(? = 2/? >= 1) =𝑃(?=2∩?>1)𝑃(?>=1)=𝑃(?=2)𝑃(?>=1)=𝑃(?=2)𝑃(?=1)+𝑃(?=2)+𝑃(?=3)=0.20.4+0.2+0.4= 0.2Se trata de aplicar la definción de probabilidad condicional.
a) Sólo uno de estos gràficos es posible. Identifica cual es y justifica tu respuesta El gráfico de la derecha (gráfico B) no corresponde a una función de distribución acumulada dado que la función de distribución nunca puede ser decreciente. Así calcularemos las probabilidades en el gráfico de la izquierda (gráfico A). Sea F la función de distribución representada en A, observad que es una función continua. La función proporciona P(Y<=y). b) Calcula las siguientes probabilidades •P(Y=6) •P(Y<6) •P(3<Y< 6) •P(Y>3/ Y<6) •𝑃(? = 6) = 𝐹(6) − 𝐹(6−) = 0. La probabilidad de un solo valor en una variable continua siempre es 0, dado que la función de distribución es continua. Así da igual poner menor o menor e igual en el cálculo de probabilidades. •𝑃(? < 6) = 𝐹(6−) = 0.9Solo hay que mirar que valor toma la función de distribución en el 9, Por el apartado anterior daria igual menor que menor o igual. •𝑃(3 < ? < 6) = 𝑃(? < 6) − 𝑃(? ≤ 3) = 𝐹(6−) − 𝐹(3) = 0.9 − 0.4 = 0.5Sólo hay que restar las probabilidades de la función de distribución acumulada. 𝑃(? > 3/? < 6) =𝑃({?>3}∩{?<6})𝑃(?<6)=𝑃(3<?<6)𝑃(?<6)=0.50.9=59= 0.555̂Se trata de aplicar la definción de probabilidad condicional.
Ejercicio 2 Según esta publicado el 42.8% de los hombres hospitalizados por COVID fueron ingresados en la UCI durante la primera ola, mientras que en el caso de las mujeres sólo lo hacen el 30.0%. Según estos mismos datos el porcentaje de hombres ingresados en la primera ola fue del 50.8 % Lo primero en estos casos es ver que datos nos proporciona el enunciado. Se dispone de dos probabilidades condicionales y una global 𝑃(𝑈𝐶?/???𝑏??) = 0.428𝑃(𝑈𝐶?/?????) = 0.300𝑃(???𝑏??) = 0.508De aquí se puede deducir directamente 𝑃(??𝑈𝐶?/???𝑏??) = 1 − 0.428 =0.572 𝑃(??𝑈𝐶?/?????) = 1 − 0.300 =0.7 𝑃(?????) = 1 − 0.508 =0.492 Vamos con las preguntas: a) ¿Cuál es el porcentaje total de personas que fueron ingresados en la UCI durante la primera ola?Para resolver esta pregunta utilizaremos el teorema de la probabilidad total. Sabemos cuantos ingresan en la Uci si son hombres, y cuantos ingresan en la uci si son mujeres en %. También sabemos cuantos son hombres y mujeres del total. Bastará con sumar el producto de estas probabilidades es decir el área de la elipse sobre todo el rectángulo.
Ilustración sobre los conjuntos para calcular las probabilidades 𝑃(𝑈𝐶?) = 𝑃(𝑈𝐶? ∩ ???𝑏??) + 𝑃(𝑈𝐶? ∩ ?????) = 𝑃(𝑈𝐶?/???𝑏??)𝑃(???𝑏??) +𝑃(𝑈𝐶?/?????)𝑃(?????) = 0.428 ∗ 0.508 + 0.300 ∗ 0.492 =0.365024 b) ¿Si se elige al azar una persona de la UCI cual es la probabilidad de que sea mujer?Lo que nos piden es la probabilidad condicional de sabiendo que está en la UCI que sea mujer P(Mujer/UCI). En el enunciado nos dan justo la probabilidad inversa P(UCI/Mujer). En el gráfico nos están pidiendo que sabiendo que estamos en la elipse cual es la probabilidad de que sea el rojo claro. Podemos aplicar el teorema de Bayes 𝑃(?????/𝑈𝐶?) =𝑃(????? ∩ 𝑈𝐶?)𝑃(𝑈𝐶?)=𝑃(𝑈𝐶?/?????) ∗ 𝑃(?????)𝑃(𝑈𝐶?)=0.300 ∗ 0.4920.428 ∗ 0.508 + 0.300 ∗ 0.492=0.14760.365024= 0.404357Si 20 personas ingresan en el hospital y se dispone de 10 plazas libres en la UCI Por el ejercicio anterior sabemos que P(UCI)=0.365024 y el número de camas que necesitan UCI para 20 pacientes lo podemos considerar que se distribuye como una Binomial(20,0.365024). Así 𝑃(?) = 𝑃(? = ?) = (??) ?𝑘(1 − ?)𝑛−𝑘
Usando esta distribución de probabilidad calcularemos el resto de preguntas. Para calcular estas probabilidades usaremos la función dbinom de R para calcula probabilidades de un punto P(X=k) y pbinom que calcula probabilidades acumuladas P(X<=k). Es importante tener en cuenta que en una variable discreta es importante lo de menor o menor igual c) ¿Cuál es la probabilidad de que se necesiten exactamente las 10 camas?En este caso me piden la probabilidad de obtener exactamente 10 de la binomial. Este resultado me lo proporciona la densidad o función de probabilidad en R. 𝑃(? = 10) = (2010) 0.36502710(1 − 0.365027)20−10= ?𝑏????(10,20,0.365027) =0.0826772 d) ¿Cuál es la probabilidad de que se necesiten más de 10 camas?Más de 10 camas es justo el complementario del acumulado de necesitar 0,1,2,3,4,5,6,7,8,9 o 10 camas es decir 𝑃(? ≤ 10)que es el valor que directamente da la función pbinom 𝑃(? > 10) = 1 − 𝑃(? ≤ 10) = 1 − ?𝑏????(10,20,0.365024)= 0.0708458 Genera 1 muestra aleatoria de 25 personas que ingresan en el hospital Puedes simular los valores observados con el código siguiente para poder replicar los resultados si los ejecutas varias veces, ya que si no fijas la semilla(seed) cada vez que ejecutes los comandos te dará un resultado diferente set.seed(unnumero) #cambia “unnumero” por un número para que siempre genere la misma muestrarbinom(n, size, prob) # genera n muestras de tamaño “size” con una probabilidad de éxito "probe) Calcula el intervalo de confianza al 99% del porcentaje de ingresos en UCI. Interpreta los resultados.Para calcular el intervalo de confianza de una proporción podemos utilizar la aproximación normal o como el tamaño muestral no es muy grande (n=20) seria mejor utilizar la aproximación binomial exacta. Se observan diferencias entre los dos intervalos y sería preferible utilizar el tamaño exacto ya que el pequeño tamaño de la muestra no garantiza el uso de la aproximación normal. Confiamos que el 95% de los intervalos así calculados contengan la proporción de ingresos en la UCI verdadera (En el resultado mostrado sí que está incluida)
set.seed(666666666)p<- 0.365024 # Guarda la probabilidad alpha<-1-0.99 #Guarda el nivel de error alphamostra1<-rbinom(1,25 ,p) # Genera 1 muestra de tamaño 20 y prob de éxito 0.365024 y guarda el número de éxitosPmostra1<- mostra1/25 # Calcula la proporción de éxitos en cada muestra eePmostra1<-sqrt(Pmostra1*(1-Pmostra1)/25) # Calcula el error estandar de cada muestraz = qnorm(1-alpha/2)# Calcula el valor critico Pmostra1 +c(-1,1)*z*eePmostra1 # Calculate el CI al 99%## [1] 0.01998135 0.46001865# Calcula el límite inferior a partir del test binomialliPmostra1 <- binom.test(mostra1, 25,conf.level=0.99)$conf.int[1]# Calcula el límite superior a partir del test binomiallsPmostra1 <- binom.test(mostra1, 25,conf.level=0.99)$conf.int[2]cat(" Intervalo Confianza exacto al 99%", liPmostra1,";", lsPmostra1,"\n")## Intervalo Confianza exacto al 99% 0.06625219 ; 0.5135705Si en lugar de 1 muestra generaras 1000 muestras y calcularas en cada una de ellas el % de ingresados en UCI y su intervalo de confianza al 99%.¿ Cuantos intervalos esperas que contengan la verdadera % de ingresados en UCI?Por la definición de intervalo de confianza se espera que el 99% de los intervalos generados contentan la verdadera proporción de ingresados en UCI, es decir en 990 intervalos. Ejercicio 3 El número de defunciones en un año por cáncer esperadas en una población fue de 30 muertes a partir de las tasas de mortalidad. Se han observado 36 defunciones este año La variable aleatoria que genera esta probabilidad sigue una distribución Poisson con una valor promedio λ=30 ya que la Poisson es la ley límite de una binomial cuando n tiende a infinito, pero ?? = 𝜆(media) es fijo.
La probabilidad de una Poisson es 𝑃(? = ?) =𝑒−?𝜆?𝑘!La función dpois(k,lambda) proporciona la probabilidad de obtener k defunciones. La función ppois(k, lambda, lower.tail=TRUE) proporciona la 𝑃(? ≤ ?)si lower.tail=TRUE o 𝑃(? > ?)si lower.tail=FALSE. a) ¿Cuál era la probabilidad de observar exactamente 36 defunciones?library(fastGraph)# Esta librería permite dibujar distribucionesdpois(36,30)## [1] 0.03775683shadeDist( c(35,36), "dpois", 30,lower.tail=FALSE)b) ¿Cuál era la probabilidad de observar 36 o más defunciones?Para calcular esta probabilidad hay que obtener la probabilidad de que sea mayor de 36 + la probabilidad que sea exactamente 36 o bien la probabilidad de que sea mayor de 35: ppois(36,30,lower.tail=FALSE)+dpois(36,30)## [1] 0.1573835ppois(35,30,lower.tail=FALSE)
## [1] 0.1573835shadeDist( c(35), "dpois", 30,lower.tail=FALSE)Ejercicio 4 Los niveles de sodio se han considerado como un buen marcador pronóstico en población mayor de 65 años. Se sabe que el nivel de sodio sigue una distribución normal , con media μ=137.9mg / dL y desviación estándar σ=3.20mg / dL. Se define como hipernatremia a tener un sodio por encima de 145 y hiponatremia por debajo de 135. la gráfica muestra la distribución normal y usaremos la función pnorm de R para calcular probabilidades de una no library(ggplot2)ggplot(data.frame(x = c(120, 160)), aes(x)) +stat_function(fun = dnorm, args = list(mean =137.9, sd =3.2), col='red') +stat_function(fun = dnorm, args = list(mean =137.9, sd =3.2), xlim = c(120, 160),geom = "area", fill = "red")
a) ¿ Qué porcentaje de la población tiene hipernatremia?Para ver qué porcentaje tiene hipernatremia es lo mismo que obtener la probabilidad que la variable NA este por encima de 145 o lo que es lo mismo 1- la probabilidad que este por debajo que es lo que proporciona la función pnorm de R P(NA>145)=1-P(NA<145)=1-pnorm(145,137.9,3.2,lower.tail=TRUE) 0.0132519 P(NA>145)=pnorm(145,137.9,3.2,lower.tail=FALSE) 0.0132519 library(fastGraph)# Esta libreria permite dibujar distribuciones shadeDist(145, "dnorm", 137.9, 3.2, lower.tail=FALSE,col=c("red","blue") )
b) ¿Qué porcentaje tienen sus niveles normales? (No tienen ni hiper ni hiponatremia)Lo que nos piden es la probabilidad que la normal del NA este entre 135 y 145 P(135<NA<145)=P(NA<145)-P(NA<135) =pnorm(145,137.9,3.2,lower.tail=TRUE)-pnorm(135,137.9,3.2,lower.tail=TRUE)= 0.8043464 library(fastGraph)# Esta libreria permite dibujar distribuciones shadeDist(c(135,145), "dnorm", 137.9, 3.2, lower.tail=FALSE, col=c("red","blue") )
## c) Genera una muestra de 30 personas mayores de 65 años de la población. Estima la media del sodio de la muestra con su intervalo de confianza al 95%. Interpreta los resultadosPara generar la muestra utilizamos la función rnorm. Para obtener el intervalo de confianza utilizaremos la siguiente fórmula 𝑥‾ ± ?𝑛−1,1−𝛼/2?√?asumiendo que desconocemos la desviación típica poblacional. También podemos usar la función t.test que nos da el intervalo directamente. set.seed(67890)mostra1<-rnorm(30,mean=137.9,sd=3.2) # genera la muestramean1<-mean(mostra1) # calcula la medida de sodio en la muestrasd1<-sd(mostra1) # calcula la desviación típica en la muesrase1<-sd1/sqrt(length(mostra1)) # calcula el error estándar li1<- mean1-qt(.975,length(mostra1)-1)*se1 # calcula el límite inferior del ICls1<- mean1+qt(.975,length(mostra1)-1)*se1 # calcula el imite superior del ICcat("Media muestral=",mean1,"\n")
## Media muestral= 137.8534cat("Desviación típica muestral=",sd1,"\n")## Desviación típica muestral= 3.236955cat("Error Estandar=",se1,"\n")## Error Estandar= 0.5909845cat("Intervalo de confianza=(",li1,";",ls1,")","\n")## Intervalo de confianza=( 136.6447 ; 139.0621 )t.test(mostra1,conf.level=0.95 ) # Instrucción de R que calcula directamente el intervalo## ## One Sample t-test## ## data: mostra1## t = 233.26, df = 29, p-value < 2.2e-16## alternative hypothesis: true mean is not equal to 0## 95 percent confidence interval:## 136.6447 139.0621## sample estimates:## mean of x ## 137.8534El intervalo de confianza 136.6447458: 139.0621437 tiene poca precisión y el valor de la media 137.8534447 se desvía un poco del valor poblacional 137.9. El verdadero valor está dentro del intervalo e) Replica el apartado anterior con una muestra de 300 personas .Comenta los resultados y justifica las diferencias con el apartado anterior.Nota. Aplica el siguiente código para poder replicar los resultados si los ejecutas varias veces, ya que si no fijas la semilla(seed) cada vez que ejecutes los comandos te dará un resultado diferente set.seed(unnumero) #cambia “unnumero” por un número para que siempre genere la misma muestra. Así por ejemplx<-rnorm(n,mean=###, sd=####) #genera una muestra de tamaño n con las medias y desviaciones típicas que sustituyasset.seed(67890) # Fija la semillamostra2<-rnorm(300,mean=137.9,sd=3.2) # genera la muestra de 300 observacionesmean2<-mean(mostra2) # calcula la media del sodio de la muestrasd2<-sd(mostra2) # calcula la desviación se2<-sd1/sqrt(length(mostra2)) # calcula el error estándarli2<- mean2-qt(.975,length(mostra2)-1)*se2 # calcula el limite inferior
del ICls2<- mean2+qt(.975,length(mostra2)-1)*se2 # calcula del limite superior del ICcat("Media muestral=",mean2,"\n")## Media muestral= 138.2021cat("Desviación típica muestral=",sd2,"\n")## Desviación típica muestral= 3.193607cat("Error Estandar=",se2,"\n")## Error Estandar= 0.1868857cat("Intervalo de confianza=(",li2,";",ls2,")","\n")## Intervalo de confianza=( 137.8343 ; 138.5699 )t.test(mostra2,conf.level=0.95 ) # Instrucción de R que calcula directamente el intervalo## ## One Sample t-test## ## data: mostra2## t = 749.54, df = 299, p-value < 2.2e-16## alternative hypothesis: true mean is not equal to 0## 95 percent confidence interval:## 137.8392 138.5649## sample estimates:## mean of x ## 138.2021El intervalo de confianza 137.8343109: 138.5698667 tiene mucha más precisión que en el caso del apartado anterior. El valor de la media 138.2020888 se desvía mucho menos del valor poblacional 137.9. El verdadero valor está dentro del intervalo que es más estrecho.