GENERALIDADES Y ORÍGENES HISTÓRICOS DE LA DISTRIBUCIÓN CHI-CUADRADO

ISADORE NABI

FUNDAMENTOS GENERALES DEL PROCESO DE ESTIMACIÓN Y PRUEBA DE HIPÓTESIS EN R STUDIO. PARTE II, CÓDIGO EN R STUDIO CON COMENTARIOS

ISADORE NABI

##ESTABLECER EL DIRECTORIO DE TRABAJO

setwd(“(…)”)

##LEER EL ARCHIVO DE DATOS. EN ESTE CASO, SUPÓNGASE QUE LOS DATOS SON DE UNA MUESTRA ALEATORIA DE 21 TIENDAS UBICADAS EN DIFERENTES PARTES DEL PAÍS Y A LAS CUALES SE LES REALIZÓ VARIOS ESTUDIOS. PARA ELLO SE MIDIERON ALGUNAS VARIABLES QUE SE PRESENTAN A CONTINUACIÓN

###- menor16= es un indicador de limpieza del lugar, a mayor número más limpio. 

###- ipc= es un indice de producto reparado con defecto, indica el % de producto que se pudo reparar y posteriormente comercializar.

###- ventas= la cantidad de productos vendidos en el último mes.

read.table(“estudios.txt”)

## CREAR EL ARCHIVO Y AGREGAR NOMBRES A LAS COLUMNAS

estudios = read.table(“estudios.txt”, col.names=c(“menor16″,”ipc”,”ventas”))

names(estudios)

nrow(estudios)

ncol(estudios)

dim(estudios)

## REVISAR LA ESTRUCTURA DEL ARCHIVO Y CALCULAR LA MEDIA, LA DESVIACIÓN ESTÁNDAR Y LOS CUANTILES PARA LAS VARIABLES DE ESTUDIO Y, ADICIONALMENTE, CONSTRÚYASE UN HISTOGRAMA DE FRECUENCIAS PARA LA VARIABLE “VENTAS”

str(estudios)

attach(estudios)

ventas

###Nota: la función “attach” sirve para adjuntar la base de datos a la ruta de búsqueda R. Esto significa que R busca en la base de datos al evaluar una variable, por lo que se puede acceder a los objetos de la base de datos simplemente dando sus nombres.

###Nota: Al poner el comando “attach”, la base de datos se adjunta a la dirección de búsqueda de R. Entonces ahora pueden llamarse las columnas de la base de datos por su nombre sin necesidad de hacer referencia a la base de datos ventas es una columna -i.e., una variable- de la tabla estudios). Así, al escribrlo, se imprime (i.e., se genera visualmente para la lectura ocular)

## CALCULAR LOS ESTADÍSTICOS POR VARIABLE Y EN CONJUNTO

mean(ventas)

sd(ventas)

var(ventas)

apply(estudios,2,mean)

apply(estudios,2,sd)

###Nota: la función “apply” sirve para aplicar otra función a las filas o columnas de una tabla de datos

###Nota: Si en “apply” se pone un “1” significa que aplicará la función indicada sobre las filas y si se pone un “2” sobre las columnas

## APLICAR LA FUNCIÓN “quantile”.

quantile(ventas) ###El cuantil de función genérica produce cuantiles de muestra correspondientes a las probabilidades dadas. La observación más pequeña corresponde a una probabilidad de 0 y la más grande a una probabilidad de 1.

apply(estudios,2,quantile)

###Nótese que para aplicar la función “apply” debe haberse primero “llamado” (i.e., escrito en una línea de código) antes la función que se aplicará (en este caso es la función “quantile”).

(qv = quantile(ventas,probs=c(0.025,0.975)))

###Aquí se está creando un vector de valores correspondientes a determinada probabilidad (las ventas, en este caso), que para este ejemplo son probabilidades de 0.025 y 0.975 de probabilidad, que expresan determinada proporción de la unidad de estudio que cumple con una determinada característica (que en este ejemplo esta proporción es el porcentaje de tiendas que tienen determinado nivel de ventas -donde la característica es el nivel de ventas-).

## GENERAR UN HISTOGRAMA DE FRECUENCIAS PARA LA COLUMNA “ventas”

hist(ventas)

abline(v=qv,col=2)

###Aquí se indica con “v” el conjunto de valores x para los cuales se graficará una línea. Como se remite a “qv” (que es un vector numérico de dos valores, 141 y 243) en el eje de las x, entonces graficará dos líneas color rojo (una en 141 y otra en 243).

###Aquí “col” es la sintaxis conocida como parte de los “parámetros gráficos” que sirve para especificar el color de las líneas

hist(ventas, breaks=7, col=”red”, xlab=”Ventas”, ylab=”Frecuencia”,

     main=”Gráfico

   Histograma de las ventas”)

detach(estudios)

###”breaks” es la indicación de cuántas particiones tendrá la gráfica (número de rectángulos, para este caso).

## GENERAR UNA DISTRIBUCIÓN N(35,4) CON NÚMEROS PSEUDOALEATORIOS PARA UN TAMAÑO DE MUESTRA n=1000

y = rnorm(1000,35,2)

hist(y)

qy = quantile(y,probs=c(0.025,0.975))

hist(y,freq=F)

abline(v=qy,col=2)

lines(density(y),col=2) #”lines” es una función genérica que toma coordenadas dadas de varias formas y une los puntos correspondientes con segmentos de línea.

## GENERAR UNA FUNCIÓN CON LAS VARIABLES n (CANTIDAD DE DATOS), m (MEDIA MUESTRAL) y  s (DESVIACIÓN ESTÁNDAR MUESTRAL) QUE ESTIME Y GRAFIQUE, ADEMÁS DE LOS CÁLCULOS DEL INCISO ANTERIOR, LA MEDIA.

plot.m = function(n,m,s) {

  y = rnorm(n,m,s)

  qy = quantile(y,probs=c(0.025,0.975))

  hist(y,freq=F)

  abline(v=qy,col=2)

  lines(density(y),col=2) ###Aquí se agrega una densidad teórica (una curva que dibuja una distribución de probabilidad -de masa o densidad- de referencia), la cual aparece en color rojo.

  mean(y)

}

## OBTENER UNA MUESTRA DE TAMAÑO n=10 DE N(100, 15^2)

plot.m(10000,100,15)

###Nótese que formalmente la distribución normal se caracteriza siempre por su media y varianza, aunque en la sintaxis “rnorm” de R se introduzca su media y la raíz de su varianza (la desviación estándar muestral)

##Generar mil repeticiones e ingresarlas en un vector. Compárense sus medias y desviaciones estándar.

n=10000; m=100;s=15

I = 1000 ###”I” son las iteraciones

medias = numeric(I)

for(i in 1:I)           {#”for” es un bucle (sintaxis usada usualmente para crear funciones personalizadas)

  sam=rnorm(n,m,s) ###Aquí se crea una variable llamada “sam” (de “sample”, i.e., muestra) que contiene una la distribución normal creada con números pseudoaleatorios.

  medias[i]=mean(sam)   } ###”sam” se almacena en la i-ésima posición la i-ésima media generada con “rnorm” que le corresponde dentro del vector numérico de iteraciones (el que contiene las medias de cada iteración) medias[i] (que contiene los elementos generados con la función “mean(sam)”).

###Un bucle es una interrupción repetida del flujo regular de un programa; pueden concebirse como órbitas (en el contexto de los sistemas dinámicos) computacionales. Un programa está diseñado para ejecutar cada línea ordenadamente (una a una) de forma secuencial 1,2,3,…,n. En la línea m el programa entiende que tiene que ejecutar todo lo que esté entre la línea n y la línea m y repetirlo, en orden secuencial, una cantidad x de veces. Entonces el flujo del programa sería, para el caso de un flujo regular  1,2,3,(4,5,…,m),(4,5,…,m),…*x,m+1,m+2,…,n.

## UTILIZAR LA VARIABLE “medias[i]” GENERADA EN EL INCISO ANTERIOR PARA DETERMINAR LA DESVIACIÓN ESTÁNDAR DE ESE CONJUNTO DE MEDIAS (ALMACENADO EN “medias[i]”) Y DETERMINAR SU EQUIVALENCIA CON EL ERROR ESTÁNDAR DE LA MEDIA (e.e.)

###Lo anterior evidentemente implica que se está construyendo sintéticamente (a través de bucles computacionales) lo que, por ejemplo, en un laboratorio botánico se registra a nivel de datos (como en el que Karl Pearson y Student hacían sus experimentos y los registraban estadísticamente) y luego se analiza en términos de los métodos de la estadística descriptiva e inferencial (puesto que a esos dominios pertenece el e.e.).

sd(medias)     ### desviación de la distribución de las medias

(ee = s/sqrt(n)  )### equivalencia teórica

## COMPARAR LA DISTRIBUCIÓN DE MEDIAS

m

mean(medias)

## GRAFICAR LA DISTRIBUCIÓN DE MEDIAS GENERADA EN EL INCISO ANTERIOR

hist(medias)

qm = quantile(medias,probs=c(0.025,0.975))

hist(medias,freq=F)

abline(v=qm,col=2)

lines(density(medias),col=2)

## GENERAR UN INTERVALO DE CONFIANZA CON UN NIVEL DE 0.95 PARA LA MEDIA DE LAS VARIABLES SUJETAS A ESTUDIO

attach(estudios)

### Percentil 0.975 de la distribución t-student para 95% de área bajo la curva

n = length(ventas) ###Cardinalidad o módulo del conjunto de datos

t = qt(0.975,n-1) ###valor t de la distribución t de student correspondiente a un nivel de probabilidad y n-1 gl

###Se denominan pruebas t porque todos los resultados de la prueba se basan en valores t. Los valores T son un ejemplo de lo que los estadísticos llaman estadísticas de prueba. Una estadística de prueba es un valor estandarizado que se calcula a partir de datos de muestra durante una prueba de hipótesis. El procedimiento que calcula la estadística de prueba compara sus datos con lo que se espera bajo la hipótesis nula (fuente: https://blog.minitab.com/en/adventures-in-statistics-2/understanding-t-tests-t-values-and-t-distributions).

###”qt” es la sintaxis que especifica un valor t determinado de la variable aleatoria de manera que la probabilidad de que esta variable sea menor o igual a este determinado valor t es igual a la probabilidad dada (que en la sintaxis de R se designa como p)

###Para más información véase https://marxianstatistics.com/2021/09/05/analisis-teorico-de-la-funcion-cuantil-en-r-studio/

###”n-1″ son los grados de libertad de la distribución t de student.

#### Error Estándar

ee = sd(ventas)/sqrt(n)

### Intervalo

mean(ventas)-t*ee

mean(ventas)+t*ee

mean(ventas)+c(-1,1)*t*ee ###c(-1,1) es un vector que se introduce artificialmente para poder construir el intervalo de confianza al 95% (u a otro nivel de confianza deseado) en una sola línea de código.

## ELABORAR UNA FUNCIÓN QUE PERMITA CONSTRUIR UN INTERVALO DE CONFIANZA AL P% DE NIVEL DE CONFIANZA PARA LA VARIABLE X

ic = function(x,p) {

  n = length(x)

  t = qt(p+((1-p)/2),n-1)

  ee = sd(x)/sqrt(n)

  mean(x)+c(-1,1)*t*ee

}

###Intervalo de 95% confianza para ventas

ic(ventas,0.95)

ic(ventas,0.99)

###El nivel de confianza hace que el intervalo de confianza sea más grande pues esto implica que los estadísticos de prueba (las versiones muestrales de los parámetros poblacionales) son más estadísticamente más robustos, por lo que su vecindario de aplicación es más amplio.

ic(ipc,0.95)

ic(menor16,0.95)

## REALIZAR LA PRUEBA DE HIPÓTESIS (PARA UNA MUESTRA) DENTRO DEL INTERVALO DE CONFIANZA GENERADO AL P% DE NIVEL DE CONFIANZA

t.test(ventas,mu=180) ###Por defecto, salvo que se cambie tal configuración, R realiza esta prueba a un nivel de confianza de 0.95.

### Realizando manualmente el cálculo anterior:

(t2=(mean(ventas)-180)/ee) ###Aquí se calcula el valor t por separado (puesto que la sintaxis “t.test” lo estima por defecto, como puede verificarse en la consola tras correr el código). Se denota con “t2” porque anteriormente se había definido en la línea de código 106 t = qt(0.975,n-1) para la construcción manual de los intervalos de confianza.

2*(1-pt(t2,20)) ###Aquí se calcula manualmente el valor p. Se multiplica por dos para tener la probabilidad acumulada total (considerando ambas colas) al valor t (t2, siendo más precisos) definido, pues esta es la definición de valor p. Esto se justifica por el hecho de la simetría geométrica de la distribución normal, la cual hace que la probabilidad acumulada (dentro de un intervalo de igual longitud) a un lado de la media sea igual a la acumulada (bajo la condición especificada antes) a la derecha de la media.

2*(pt(-t2,20)) ###Si el signo resultante de t fuese negativo. Además, 20 es debido a n-1 = 21-1 = 20.

###La sintaxis “pt” calcula el valor de la función de densidad acumulada (cdf) de la distribución t de Student dada una determinada variable aleatoria x y grados de libertad df (degrees of freedom, equivalente a gl en español), véase https://www.statology.org/working-with-the-student-t-distribution-in-r-dt-qt-pt-rt/

## CREAR UNA VARIABLE QUE PERMITA SEPARAR ESPACIALMENTE (AL INTERIOR DE LA GRÁFICA QUE LOS REPRESENTA) AQUELLOS ipc MENORES A UN VALOR h (h=117) DE AQUELLOS QUE SON IGUALES O MAYORES QUE h (h=117)

(ipc1 = 1*(ipc<17)+2*(ipc>=17))

ipc2=factor(ipc1,levels=c(1,2),labels=c(“uno”,”dos”))

plot(ipc2,ipc)

abline(h=17,col=2)

## GENERAR GRÁFICO DE DIAMENTE CON LOS INTERVALOS DE CONFIANZA AL 0.95 DE NdC CENTRADOS EN LAS MEDIAS DE CADA GRUPO CREADO ALREDEDOR DE 17 Y UN BOX-PLOT

library(gplots)

plotmeans(ventas~ipc2) ###Intervalos del 95% alrededor de la media (GRÁFICO DE DIMANTES)

boxplot(ventas~ipc2)

## REALIZAR LA PRUEBA DE HIPÓTESIS DE QUE LA MEDIA ES LA MISMA PARA LOS DOS GRUPOS GENERADOS ALREDEDOR DE h=17

(med = tapply(ventas,ipc1,mean))

(dev = tapply(ventas,ipc1,sd))

(var = tapply(ventas,ipc1,var))

(n   = table(ipc1))

dif=med[1]-med[2]

###La sintaxis “tapply” aplica una función a cada celda de una matriz irregular (una matriz es irregular si la cantidad de elementos de cada fila varía), es decir, a cada grupo (no vacío) de valores dados por una combinación única de los niveles de ciertos factores.

### PRUEBA DE HIPÓTESIS EN ESCENARIO 1: ASUMIENDO VARIANZAS IGUALES (SUPUESTO QUE EN ESCENARIOS REALES DEBERÁ VERIFICARSE CON ANTELACIÓN)

varpond= ((n[1]-1)*var[1] + (n[2]-1)*var[2])/(n[1]+n[2]-2) ###Aquí se usa una varianza muestral ponderada como medida más precisa (dado que el tamaño de los grupos difiere) de una varianza muestral común entre los dos grupos construidos alrededor de h=17

e.e=sqrt((varpond/n[1])+(varpond/n[2]))

dif/e.e

t.test(ventas~ipc1,var.equal=T)

t.test(ventas~ipc1)  #Por defecto la sintaxis “t.test” considera las varianzas iguales, por lo que en un escenario de diferentes varianzas deberá ajustarse esto como se muestra a continuación.

### PRUEBA DE HIPÓTESIS EN ESCENARIO 2: ASUMIENDO VARIANZAS DESIGUALES (AL IGUAL QUE ANTES, ESTO DEBE VERIFICARSE)

e.e2=sqrt((var[1]/n[1])+(var[2]/n[2]))

dif/e.e2

a=((var[1]/n[1]) + (var[2]/n[2]))^2

b=(((var[1]/n[1])^2)/(n[1]-1)) +(((var[2]/n[2])^2)/(n[2]-1))

(glmod=a/b)

t.test(ventas~ipc1,var.equal=F)

###Para aceptar o rechazar la hipótesis nula el intervalo debe contener al cero (porque la Ho afirma que la verdadera diferencia en las medias -i.e., su significancia estadística- es nula).

###Conceptualmente hablando, una diferencia estadísticamente significativa expresa una variación significativa en el patrón geométrico que describe al conjunto de datos. Véase https://marxianstatistics.com/2021/08/27/modelos-lineales-generalizados/. Lo que define si una determinada variación es significativa o no está condicionado por el contexto en que se realiza la investigación y la naturaleza misma del fenómeno estudiado.

## REALIZAR PRUEBA F PARA COMPARAR LA VARIANZA DE LOS GRUPOS Y LA PROBABILIDAD ASOCIADA

(razon.2 = var[1]/var[2]) ###Ratio de varianzas (asumiendo que las varianzas poblacionales son equivalentes a la unidad, en otro caso su estimación sería matemáticamente diferente; véase https://sphweb.bumc.bu.edu/otlt/mph-modules/bs/bs704_power/bs704_power_print.html y https://stattrek.com/online-calculator/f-distribution.aspx).

pf(razon.2,n[1]-1,n[2]-1) ###Al igual que “pt” (para el caso de la t de Student que compara medias de dos grupos o muestras), “pf” en el contexto de la prueba F (que compara la varianza de dos grupos o muestras) calcula la probabilidad acumulada que existe hasta determinado valor.

###La forma general mínima (más sintética) de la sintaxis “pf” es “pf(x, df1, df2)”, en donde “x” es el vector numérico (en este caso, de un elemento), df1 son los gl del numerador y df2 son los grados de libertad del denominador de la distribución F (cuya forma matemática puede verificarse en la documentación de R; véase https://stat.ethz.ch/R-manual/R-devel/library/stats/html/Fdist.html).

(2*pf(razon.2,n[1]-1,n[2]-1)) ###Aquí se calcula el valor p manualmente.

###Realizando de forma automatizada el procedimiento anterior:

var.test(ventas~ipc1)

detach(estudios)

###Para aceptar o rechazar la hipótesis nula el intervalo debe contener al 1 porque la Ho afirma que la varianza de ambas muestras es igual (lo que implica que su cociente o razón debe ser 1), lo que equivale a afirmar que la diferencia real entre desviaciones (la significancia estadística de esta diferencia) es nula.

## EN EL ESCENARIO DEL ANÁLISIS DE MUESTRAS PAREADAS, ANALIZAR LOS DATOS SOBRE EL EFECTO DE DOS DROGAS EN LAS HORAS DE SUEÑO DE UN GRUPO DE PACIENTES (CONTENIDOS EN EL ARCHIVO “sleep” DE R)

attach(sleep) ###”sleep” es un archivo de datos nativo de R, por ello puede “llamarse” sin especificaciones de algún tipo.

plot(extra ~ group)

plotmeans(extra ~ group,connect=F)  ###Intervalos del 95% alrededor de la media. El primer insumo (entrada) de la aplicación “plotmeans” es cualquier expresión simbólica que especifique la variable dependiente o de respuesta (continuo) y la variable independiente o de agrupación (factor). En el contexto de una función lineal, como la función “lm()” que es empleada por “plotmeans” para graficar (véase la documentación de R sobre “plotmeans”), sirve para separar la variable dependiente de la o las variables independientes, las cuales en este caso de aplicación son los factores o variables de agrupación (puesto que se está en el contexto de casos clínicos y, en este contexto, las variables independientes son las variables que sirven de criterio para determinar la forma de agrupación interna del conjunto de datos; este conjunto de datos contiene las observaciones relativas al efecto de dos drogas diferentes sobre las horas de sueño del conjunto de pacientes-).

A = sleep[sleep$group == 1,] ###El símbolo “$” sirve para acceder a una variable (columna) de la matriz de datos, en este caso la número 1 (por ello el “1”).

B = sleep[sleep$group == 2,]

plot(1:10,A$extra,type=”l”,col=”red”,ylim=c(-2,7),main=”Gráfico 1

Horas de sueño entre pacientes con el tratamiento A y B”,ylab=”Horas”,xlab=”Numero de paciente”,cex.main=0.8)

lines(B$extra,col=”blue”)

legend(1,6,legend=c(“A”,”B”),col=c(“red”,”blue”),lwd=1,box.col=”black”,cex=1)

t.test(A$extra,B$extra)

t.test(A$extra,B$extra,paired=T)

t.test(A$extra-B$extra,mu=0)

###Una variable de agrupación (también llamada variable de codificación, variable de grupo o simplemente variable) clasifica las observaciones dentro de los archivos de datos en categorías o grupos. Le dice al sistema informático (sea cual fuere) cómo el usuario ha clasificado los datos en grupos. Las variables de agrupación pueden ser categóricas, binarias o numéricas.

###Cuando se desea realizar un comando dentro del texto (en un contexto de formato Rmd) se utiliza así,por ejemplo se podría decir que la media del sueño extra es `r mean(sleep$extra)` y la cantidad de datos son `r length(sleep$extra)`

## ESTIMACIÓN DE LA POTENCIA DE UNA PRUEBA DE HIPÓTESIS (PROBABILIDAD BETA DE COMETER ERROR TIPO II)

library(pwr) ###”pwr” es una base de datos nativa de R

delta=3 ###Nivel de Resolución de la prueba. Para un valor beta (probabilidad de cometer error tipo II) establecido el nivel de resolución es la distancia mínima que se desea que la prueba sea capaz de detectar, es decir, que si existe una distancia entre los promedios tal que la prueba muy probablemente rechace la hipótesis nula Ho. Para el cálculo manual de la probabilidad beta véase el complemento de este documento (FUNDAMENTOS GENERALES DEL PROCESO DE ESTIMACIÓN Y PRUEBA DE HIPÓTESIS EN R STUDIO. PARTE I, TEORÍA ESTADÍSTICA)

s=10.2 ###Desviación estándar muestral

(d=delta/s) #Tamano del efecto.

pwr.t.test(n=NULL,d=d,power =0.9,type=”one.sample”)

## ESTIMAR CON EL VALOR ÓPTIMO PARA EL NIVEL DE RESOLUCIÓN, PARTIENDO DE n=40 Y MANTENIENDO LA POTENCIA DE 0.9

(potencia=pwr.t.test(n=40,d=NULL,power =0.9,type=”one.sample”))

potencia$d*s  #Delta

## GRAFICAR LAS DIFERENTES COMBINACIONES DE TAMAÑO DE MUESTRA Y NIVEL DE RESOLUCIÓN PARA UNA POTENCIA DE LA PRUEBA FIJA

s=10.2

deltas=seq(2,6,length=30)

n=numeric(30)

for(i in 1:30) {

  (d[i]=deltas[i]/s)

  w=pwr.t.test(n=NULL,d=d[i],power =0.9,type=”one.sample”)

  n[i]=w$n

}

plot(deltas,n,type=”l”)

## SUPÓNGASE QUE SE QUIERE PROBAR SI DOS GRUPOS PRESENTAN DIFERENCIAS ESTADÍSTICAMENTE SIGNIFICATIVAS EN LOS NIVELES PROMEDIO DE AMILASA, PARA LO CUAL SE CONSIDERA IMPORTANTE DETECTAR DIFERENCIAS DE 15 UNIDADES/ML O MÁS ENTRE LOS PROMEDIOS

s2p=290.9  ###Varianza ponderada de los dos grupos

(sp=sqrt(s2p)) ###Desviación estándar ponderada de los dos grupos

delta=15

(d=delta/sp)

pwr.t.test(n=NULL,d=d,power =0.9,type=”two.sample”)

GENERALIDADES SOBRE LA TEORÍA ESTADÍSTICA DE ENCUESTAS POR MUESTREO

ISADORE NABI

ENCUESTA NACIONAL SOBRE LOS ASPECTOS DE LA VIRTUALIDAD VINCULADOS CON LA PANDEMIA DEL COVID-19 (ENAVIRPA 2021)

ISADORE NABI

VII. REFERENCIAS

Aldrich, J. H., & Nelson, F. D. (1984). Linear Probability, Logit, and Probit Models. Beverly Hills: Sage University Papers Series. Quantitative Applications in the Social Sciences.

Allen, M. (2017). The SAGE Encyclopedia of COMMUNICATION RESEARCH METHODS. London: SAGE Publications, Inc.

AMERICAN PSYCHOLOGICAL ASSOCIATION. (2021, Julio 15). level. Retrieved from APA Dictionary of Pyschology: https://dictionary.apa.org/level

AMERICAN PYSCHOLOGICAL ASSOCIATION. (2021, Julio 15). factor. Retrieved from APA Dictionary of Pyschology: https://dictionary.apa.org/factor

AMERICAN PYSCHOLOGY ASSOCIATION. (2021, Julio 15). logistic regression (LR). Retrieved from APA Dictionary of Pyschology: https://dictionary.apa.org/logistic-regression

Barrios, J. (2019, Julio 19). La matriz de confusión y sus métricas . Retrieved from Health BIG DATA: https://www.juanbarrios.com/la-matriz-de-confusion-y-sus-metricas/

Bhuptani, R. (2020, Julio 13). Quora. Retrieved from What is the difference between linear regression and least squares?: https://www.quora.com/What-is-the-difference-between-linear-regression-and-least-squares

Birnbaum, Z. W., & Sirken, M. G. (1950, Marzo). Bias Due to Non-Availability in Sampling Surveys. Journal of the American Statistical Association, 45(249), 98-111.

Burrus, C. S. (2021, Julio 7). Iterative Reweighted Least Squares. Retrieved from https://cnx.org/exports/[email protected]/iterative-reweighted-least-squares-12.pdf

Centro Centroamericano de Población. (2021, Abril 28). Variables y escalas de medición. Retrieved from Universidad de Costa Rica: https://ccp.ucr.ac.cr/cursos/epidistancia/contenido/2_escmed.html

Cochran, W. G. (1991). Técnicas de Muestreo. México, D.F.: Compañía Editorial Continental.

Departamento Administrativo Nacional de Estadística. (2003). Metodología de Diseño Muestral. Bogotá: Dirección Sistema Nacional de Información Estadística. Retrieved from https://www.dane.gov.co/files/EDI/anexos_generales/Metodologia_diseno_muestral_anexo1.pdf?phpMyAdmin=a9ticq8rv198vhk5e8cck52r11

Díaz-Narváez, V. P. (2017). Regresión logística y decisiones clínicas. Nutrición Hospitalaria, 34(6), 1505-1505. Retrieved from https://scielo.isciii.es/pdf/nh/v34n6/36_diaz.pdf

Google Developers. (2021, Julio 19). Clasificación: Exactitud. Retrieved from https://developers.google.com/machine-learning/crash-course/classification/accuracy

Greene, W. (2012). Econometric Analysis (Séptima ed.). Harlow, Essex, England: Pearson Education Limited.

Gujarati, D., & Porter, D. (2010, Julio 8). Econometría (Quinta ed.). México, D.F.: McGrawHill Educación. Retrieved from Homocedasticidad.

Haskett, D. R. (2014, Octubre 10). “Mitochondrial DNA and Human Evolution” (1987), by “Mitochondrial DNA and Human Evolution” (1987), by Rebecca Louise Cann, Mark Stoneking, and Allan Charles Wilson. Retrieved from The Embryo Project Encyclopedia: https://embryo.asu.edu/pages/mitochondrial-dna-and-human-evolution-1987-rebecca-louise-cann-mark-stoneking-and-allan

Hastie, T., Tibshirani, R., & Friedman, J. (2017). The Elements of Statistical Learning. Data Mining, Inference, and Prediction (Segunda ed.). New York: Springer.

Instituto dei Sistemi Complessi. (2021, Febrero 27). Topolical vs Metric Distance. Retrieved from Biological Systems: https://www.isc.cnr.it/research/topics/physical-biology/biological-systems/topological-vs-metric-distance/

Instituto Nacional de Estadística y Censos de Costa Rica. (2016, Julio). Manual de Clasificación Geográfica con Fines Estadísticos de Costa Rica. Retrieved from Biblioteca Virtual: https://www.inec.cr/sites/default/files/documetos-biblioteca-virtual/meinstitucionalmcgfecr.pdf

Instituto Nacional de Estadística y Censos de Costa Rica. (2019). ENIGH. 2018. Cuadros sobre ingresos de los hogares. San José: INEC. Retrieved from https://www.inec.cr/sites/default/files/documetos-biblioteca-virtual/reenigh2018-ingreso.xlsx

Instituto Nacional de Estadística y Censos de Costa Rica. (2021, 7 14). Factor de Expansión. Retrieved from INEC: https://www.inec.cr/sites/default/files/_book/F.html

Instituto Nacional de Estadística y Censos de la República Argentina. (2019). Encuesta de Actividades de Niños, Niñas y Adolescentes 2016-2017. Factores de expansión, estimación y cálculo de los errores por muestra para el dominio rural. Buenos Aires: Ministerio de Hacienda. Retrieved from https://www.indec.gob.ar/ftp/cuadros/menusuperior/eanna/anexo_bases_eanna_rural.pdf

James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning with Applications in R. New York: Springer.

Jose, K. (2020, Junio 27). Graph Theory | Isomorphic Trees. Retrieved from Towards Data Science: https://towardsdatascience.com/graph-theory-isomorphic-trees-7d48aa577e46

Köhler, T. (2016). Income and Wealth Poverty in Germany. SOEP papers on Multidisciplinary Panel Data Research, 1-48. Retrieved from https://www.diw.de/documents/publikationen/73/diw_01.c.540534.de/diw_sp0857.pdf

Kolmogórov, A. N., & Fomin, S. V. (1978). Elementos de la Teoría de Funciones y del Análisis Funcional (Tercera ed.). (q. e.-m. Traducido del ruso por Carlos Vega, Trans.) Moscú: MIR.

Liao, T. F. (1994). INTERPRETING PROBABILITY MODELS. Logit, Probit, and Other Generalized Linear Models. Iowa: Sage University Papers Series. Quantitative Applications in the Social Sciences.

Lipschutz, S. (1992). Álgebra Lineal. Madrid: McGraw-Hill.

Lohr, S. L. (2019). Sampling: Design and Analysis (Segunda ed.). Boca Raton: CRC Press.

Lohr, S. L. (2019). Sampling: Design and Analysis (Segunda ed.). Boca Raton: CRC Press.

McCullagah, P., & Nelder, J. A. (1989). Generalized Linear Models (Segunda ed.). London: Chapman and Hall.

McCullagh, P., & Nelder, J. A. (1989). Generalized Linear Models (Segunda ed.). London: Chapman and Hall.

Nelder, J. A., & Wedderburn, R. W. (1972). Generalized Linear Models. Journal of the Royal Statistical Society, 135(3), 370-384.

Online Stat Book. (2021, Julio 15). Levels of an Independent Variable. Retrieved from Independent and dependent variables: https://onlinestatbook.com/2/introduction/variables.html

Patil, G. P., & Shorrock, R. (1965). On Certain Properties of the Exponential-type Families. Journal of the Royal Statistical, 27(1), 94-99.

Perry, J. (2014, Abril 2). NORM TO/FROM METRIC. Retrieved from The University of Southern Mississippi: https://www.math.usm.edu/perry/old_classes/mat681sp14/norm_and_metric.pdf

Ritchey, F. (2002). ESTADÍSTICA PARA LAS CIENCIAS SOCIALES. El potencial de la imaginación estadística. México, D.F.: McGRAW-HILL/INTERAMERICANA EDITORES, S.A. DE C.V.

Samuels, S. (2014, 11 19). Can I get to an approximation of the population with knowledge of the expansion factor? Retrieved from Cross Validated. StackExchange: https://stats.stackexchange.com/questions/124750/can-i-get-to-an-approximation-of-the-population-with-knowledge-of-the-expansion

StackExchange Cross Validated. (2017, Febrero 2). “Least Squares” and “Linear Regression”, are they synonyms? Retrieved from What is the difference between least squares and linear regression? Is it the same thing?: https://stats.stackexchange.com/questions/259525/least-squares-and-linear-regression-are-they-synonyms

StackExchange Data Science. (2016, Junio 19). Is GLM a statistical or machine learning model? Retrieved from https://datascience.stackexchange.com/questions/488/is-glm-a-statistical-or-machine-learning-model

StackOverFlow. (2014, Marzo 15). Supervised Learning, Unsupervised Learning, Regression. Retrieved from https://stackoverflow.com/questions/22419136/supervised-learning-unsupervised-learning-regression

TalkStats. (2011, Noviembre 29). SPSS. Retrieved from Forums: http://www.talkstats.com/threads/what-is-the-difference-between-a-factor-and-a-covariate-for-multinomial-logistic-reg.21864/

UNITED NATIONS ECONOMIC COMMISSION FOR EUROPE. (2017). Guide on Poverty Measure. New York and Geneva: UNITED NATIONS. Retrieved from https://ec.europa.eu/eurostat/ramon/statmanuals/files/UNECE_Guide_on_Poverty_Measurement.pdf

van den Berg, R. G. (2021, Julio 15). Measurement Levels – What and Why? Retrieved from SPSS Tutorials: https://www.spss-tutorials.com/measurement-levels/

Weisstein, E. W. (2021, Julio 15). Sigmoid Function. Retrieved from MathWorld – A Wolfram Web Resource: https://mathworld.wolfram.com/SigmoidFunction.html

Weisstein, E. W. (2021, Mayo 21). Sigmoid Function. Retrieved from MathWorld – A Wolfram Web Resource: https://mathworld.wolfram.com/SigmoidFunction.html

Weisstein, E. W. (2021, Mayo 18). Smooth Function. Retrieved from Wolfram MathWorld – A Wolfram Web Resource: https://mathworld.wolfram.com/SmoothFunction.html

Wikimedia. (2021, Abril 6). Commons. Retrieved from Wikipedia: https://upload.wikimedia.org/wikipedia/commons/b/bf/Undirected.svg

Wikipedia. (2021, Julio 6). Graph isomorphism. Retrieved from Morphism: https://en.wikipedia.org/wiki/Graph_isomorphism

Wikipedia. (2021, Mayo 21). Iterative proportional fitting. Retrieved from Statistical algorithms: https://en.wikipedia.org/wiki/Iterative_proportional_fitting

Wikipedia. (2021, Febrero 25). Iteratively reweighted least squares. Retrieved from Least squares: https://en.wikipedia.org/wiki/Iteratively_reweighted_least_squares

Wikipedia. (2021, Julio 13). Logistic function. Retrieved from Growth curves: https://en.wikipedia.org/wiki/Logistic_function

Wikipedia. (2021, Mayo 22). Logistic regression. Retrieved from Regression models: https://en.wikipedia.org/wiki/Logistic_regression

Wikipedia. (2021, Junio 14). Logit. Retrieved from Special functions: https://en.wikipedia.org/wiki/Logistic_function

Wikipedia. (2021, Julio 8). Lp space. Retrieved from Measure theory: https://www.wikiwand.com/en/Lp_space

Wikipedia. (2021, Abril 15). Odds. Retrieved from Wagering: https://en.wikipedia.org/wiki/Odds

Wikipedia. (2021, Julio 10). Precision and recall. Retrieved from Bioinformatics: https://en.wikipedia.org/wiki/Precision_and_recall

Wooldridge, J. (2010). Econometric Analysis of Cross Section and Panel Data (Segunda ed.). Cambridge, Massachusetts: MIT Press.

GENERALIDADES DE LA TEORÍA DEL APRENDIZAJE ESTADÍSTICO

ISADORE NABI

VI. Referencias

Barrios, J. (19 de Julio de 2019). La matriz de confusión y sus métricas . Obtenido de Health BIG DATA: https://www.juanbarrios.com/la-matriz-de-confusion-y-sus-metricas/

Google Developers. (19 de Julio de 2021). Clasificación: Exactitud. Obtenido de https://developers.google.com/machine-learning/crash-course/classification/accuracy

Hastie, T., Tibshirani, R., & Friedman, J. (2017). The Elements of Statistical Learning. Data Mining, Inference, and Prediction (Segunda ed.). New York: Springer.

James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning with Applications in R. New York: Springer.

StackExchange Data Science. (19 de Junio de 2016). Is GLM a statistical or machine learning model? Obtenido de https://datascience.stackexchange.com/questions/488/is-glm-a-statistical-or-machine-learning-model

StackOverFlow. (15 de Marzo de 2014). Supervised Learning, Unsupervised Learning, Regression. Obtenido de https://stackoverflow.com/questions/22419136/supervised-learning-unsupervised-learning-regression

Wikipedia. (10 de Julio de 2021). Precision and recall. Obtenido de Bioinformatics: https://en.wikipedia.org/wiki/Precision_and_recall

MODELOS LINEALES GENERALIZADOS

isadore nabi

RESUMEN DEL FUNCIONAMIENTO DEL ALGORITMO IRLS

Fuente: https://www.semanticscholar.org/paper/Iterative-and-recursive-least-squares-estimation-Hu/1d19140f9aed669127df0302cdf16a8f3ec04c26

IV. Referencias

Allen, M. (2017). The SAGE Encyclopedia of COMMUNICATION RESEARCH METHODS. London: SAGE Publications, Inc.

AMERICAN PSYCHOLOGICAL ASSOCIATION. (15 de Julio de 2021). level. Obtenido de APA Dictionary of Pyschology: https://dictionary.apa.org/level

AMERICAN PYSCHOLOGICAL ASSOCIATION. (15 de Julio de 2021). factor. Obtenido de APA Dictionary of Pyschology: https://dictionary.apa.org/factor

AMERICAN PYSCHOLOGY ASSOCIATION. (15 de Julio de 2021). logistic regression (LR). Obtenido de APA Dictionary of Pyschology: https://dictionary.apa.org/logistic-regression

Bhuptani, R. (13 de Julio de 2020). Quora. Obtenido de What is the difference between linear regression and least squares?: https://www.quora.com/What-is-the-difference-between-linear-regression-and-least-squares

Burrus, C. S. (7 de Julio de 2021). Iterative Reweighted Least Squares. Obtenido de https://cnx.org/exports/[email protected]/iterative-reweighted-least-squares-12.pdf

Centro Centroamericano de Población. (28 de Abril de 2021). Variables y escalas de medición. Obtenido de Universidad de Costa Rica: https://ccp.ucr.ac.cr/cursos/epidistancia/contenido/2_escmed.html

Greene, W. (2012). Econometric Analysis (Séptima ed.). Harlow, Essex, England: Pearson Education Limited.

Gujarati, D., & Porter, D. (8 de Julio de 2010). Econometría (Quinta ed.). México, D.F.: McGrawHill Educación. Obtenido de Homocedasticidad.

Haskett, D. R. (10 de Octubre de 2014). “Mitochondrial DNA and Human Evolution” (1987), by “Mitochondrial DNA and Human Evolution” (1987), by Rebecca Louise Cann, Mark Stoneking, and Allan Charles Wilson. Obtenido de The Embryo Project Encyclopedia: https://embryo.asu.edu/pages/mitochondrial-dna-and-human-evolution-1987-rebecca-louise-cann-mark-stoneking-and-allan

Kolmogórov, A. N., & Fomin, S. V. (1978). Elementos de la Teoría de Funciones y del Análisis Funcional (Tercera ed.). (q. e.-m. Traducido del ruso por Carlos Vega, Trad.) Moscú: MIR.

Lipschutz, S. (1992). Álgebra Lineal. Madrid: McGraw-Hill.

McCullagh, P., & Nelder, J. A. (1989). Generalized Linear Models (Segunda ed.). London: Chapman and Hall.

Nelder, J. A., & Wedderburn, R. W. (1972). Generalized Linear Models. Journal of the Royal Statistical Society, 135(3), 370-384.

Online Stat Book. (15 de Julio de 2021). Levels of an Independent Variable. Obtenido de Independent and dependent variables: https://onlinestatbook.com/2/introduction/variables.html

Patil, G. P., & Shorrock, R. (1965). On Certain Properties of the Exponential-type Families. Journal of the Royal Statistical, 27(1), 94-99.

Perry, J. (2 de Abril de 2014). NORM TO/FROM METRIC. Obtenido de The University of Southern Mississippi: https://www.math.usm.edu/perry/old_classes/mat681sp14/norm_and_metric.pdf

Ritchey, F. (2002). ESTADÍSTICA PARA LAS CIENCIAS SOCIALES. El potencial de la imaginación estadística. México, D.F.: McGRAW-HILL/INTERAMERICANA EDITORES, S.A. DE C.V.

StackExchange Cross Validated. (2 de Febrero de 2017). “Least Squares” and “Linear Regression”, are they synonyms? Obtenido de What is the difference between least squares and linear regression? Is it the same thing?: https://stats.stackexchange.com/questions/259525/least-squares-and-linear-regression-are-they-synonyms

TalkStats. (29 de Noviembre de 2011). SPSS. Obtenido de Forums: http://www.talkstats.com/threads/what-is-the-difference-between-a-factor-and-a-covariate-for-multinomial-logistic-reg.21864/

van den Berg, R. G. (15 de Julio de 2021). Measurement Levels – What and Why? Obtenido de SPSS Tutorials: https://www.spss-tutorials.com/measurement-levels/

Wikipedia. (21 de Mayo de 2021). Iterative proportional fitting. Obtenido de Statistical algorithms: https://en.wikipedia.org/wiki/Iterative_proportional_fitting

Wikipedia. (25 de Febrero de 2021). Iteratively reweighted least squares. Obtenido de Least squares: https://en.wikipedia.org/wiki/Iteratively_reweighted_least_squares

Wikipedia. (8 de Julio de 2021). Lp space. Obtenido de Measure theory: https://www.wikiwand.com/en/Lp_space