FUNDAMENTOS GENERALES DEL PROCESO DE ESTIMACIÓN Y PRUEBA DE HIPÓTESIS EN R STUDIO. PARTE II, CÓDIGO EN R STUDIO CON COMENTARIOS

ISADORE NABI

##ESTABLECER EL DIRECTORIO DE TRABAJO

setwd(“(…)”)

##LEER EL ARCHIVO DE DATOS. EN ESTE CASO, SUPÓNGASE QUE LOS DATOS SON DE UNA MUESTRA ALEATORIA DE 21 TIENDAS UBICADAS EN DIFERENTES PARTES DEL PAÍS Y A LAS CUALES SE LES REALIZÓ VARIOS ESTUDIOS. PARA ELLO SE MIDIERON ALGUNAS VARIABLES QUE SE PRESENTAN A CONTINUACIÓN

###- menor16= es un indicador de limpieza del lugar, a mayor número más limpio. 

###- ipc= es un indice de producto reparado con defecto, indica el % de producto que se pudo reparar y posteriormente comercializar.

###- ventas= la cantidad de productos vendidos en el último mes.

read.table(“estudios.txt”)

## CREAR EL ARCHIVO Y AGREGAR NOMBRES A LAS COLUMNAS

estudios = read.table(“estudios.txt”, col.names=c(“menor16″,”ipc”,”ventas”))

names(estudios)

nrow(estudios)

ncol(estudios)

dim(estudios)

## REVISAR LA ESTRUCTURA DEL ARCHIVO Y CALCULAR LA MEDIA, LA DESVIACIÓN ESTÁNDAR Y LOS CUANTILES PARA LAS VARIABLES DE ESTUDIO Y, ADICIONALMENTE, CONSTRÚYASE UN HISTOGRAMA DE FRECUENCIAS PARA LA VARIABLE “VENTAS”

str(estudios)

attach(estudios)

ventas

###Nota: la función “attach” sirve para adjuntar la base de datos a la ruta de búsqueda R. Esto significa que R busca en la base de datos al evaluar una variable, por lo que se puede acceder a los objetos de la base de datos simplemente dando sus nombres.

###Nota: Al poner el comando “attach”, la base de datos se adjunta a la dirección de búsqueda de R. Entonces ahora pueden llamarse las columnas de la base de datos por su nombre sin necesidad de hacer referencia a la base de datos ventas es una columna -i.e., una variable- de la tabla estudios). Así, al escribrlo, se imprime (i.e., se genera visualmente para la lectura ocular)

## CALCULAR LOS ESTADÍSTICOS POR VARIABLE Y EN CONJUNTO

mean(ventas)

sd(ventas)

var(ventas)

apply(estudios,2,mean)

apply(estudios,2,sd)

###Nota: la función “apply” sirve para aplicar otra función a las filas o columnas de una tabla de datos

###Nota: Si en “apply” se pone un “1” significa que aplicará la función indicada sobre las filas y si se pone un “2” sobre las columnas

## APLICAR LA FUNCIÓN “quantile”.

quantile(ventas) ###El cuantil de función genérica produce cuantiles de muestra correspondientes a las probabilidades dadas. La observación más pequeña corresponde a una probabilidad de 0 y la más grande a una probabilidad de 1.

apply(estudios,2,quantile)

###Nótese que para aplicar la función “apply” debe haberse primero “llamado” (i.e., escrito en una línea de código) antes la función que se aplicará (en este caso es la función “quantile”).

(qv = quantile(ventas,probs=c(0.025,0.975)))

###Aquí se está creando un vector de valores correspondientes a determinada probabilidad (las ventas, en este caso), que para este ejemplo son probabilidades de 0.025 y 0.975 de probabilidad, que expresan determinada proporción de la unidad de estudio que cumple con una determinada característica (que en este ejemplo esta proporción es el porcentaje de tiendas que tienen determinado nivel de ventas -donde la característica es el nivel de ventas-).

## GENERAR UN HISTOGRAMA DE FRECUENCIAS PARA LA COLUMNA “ventas”

hist(ventas)

abline(v=qv,col=2)

###Aquí se indica con “v” el conjunto de valores x para los cuales se graficará una línea. Como se remite a “qv” (que es un vector numérico de dos valores, 141 y 243) en el eje de las x, entonces graficará dos líneas color rojo (una en 141 y otra en 243).

###Aquí “col” es la sintaxis conocida como parte de los “parámetros gráficos” que sirve para especificar el color de las líneas

hist(ventas, breaks=7, col=”red”, xlab=”Ventas”, ylab=”Frecuencia”,

     main=”Gráfico

   Histograma de las ventas”)

detach(estudios)

###”breaks” es la indicación de cuántas particiones tendrá la gráfica (número de rectángulos, para este caso).

## GENERAR UNA DISTRIBUCIÓN N(35,4) CON NÚMEROS PSEUDOALEATORIOS PARA UN TAMAÑO DE MUESTRA n=1000

y = rnorm(1000,35,2)

hist(y)

qy = quantile(y,probs=c(0.025,0.975))

hist(y,freq=F)

abline(v=qy,col=2)

lines(density(y),col=2) #”lines” es una función genérica que toma coordenadas dadas de varias formas y une los puntos correspondientes con segmentos de línea.

## GENERAR UNA FUNCIÓN CON LAS VARIABLES n (CANTIDAD DE DATOS), m (MEDIA MUESTRAL) y  s (DESVIACIÓN ESTÁNDAR MUESTRAL) QUE ESTIME Y GRAFIQUE, ADEMÁS DE LOS CÁLCULOS DEL INCISO ANTERIOR, LA MEDIA.

plot.m = function(n,m,s) {

  y = rnorm(n,m,s)

  qy = quantile(y,probs=c(0.025,0.975))

  hist(y,freq=F)

  abline(v=qy,col=2)

  lines(density(y),col=2) ###Aquí se agrega una densidad teórica (una curva que dibuja una distribución de probabilidad -de masa o densidad- de referencia), la cual aparece en color rojo.

  mean(y)

}

## OBTENER UNA MUESTRA DE TAMAÑO n=10 DE N(100, 15^2)

plot.m(10000,100,15)

###Nótese que formalmente la distribución normal se caracteriza siempre por su media y varianza, aunque en la sintaxis “rnorm” de R se introduzca su media y la raíz de su varianza (la desviación estándar muestral)

##Generar mil repeticiones e ingresarlas en un vector. Compárense sus medias y desviaciones estándar.

n=10000; m=100;s=15

I = 1000 ###”I” son las iteraciones

medias = numeric(I)

for(i in 1:I)           {#”for” es un bucle (sintaxis usada usualmente para crear funciones personalizadas)

  sam=rnorm(n,m,s) ###Aquí se crea una variable llamada “sam” (de “sample”, i.e., muestra) que contiene una la distribución normal creada con números pseudoaleatorios.

  medias[i]=mean(sam)   } ###”sam” se almacena en la i-ésima posición la i-ésima media generada con “rnorm” que le corresponde dentro del vector numérico de iteraciones (el que contiene las medias de cada iteración) medias[i] (que contiene los elementos generados con la función “mean(sam)”).

###Un bucle es una interrupción repetida del flujo regular de un programa; pueden concebirse como órbitas (en el contexto de los sistemas dinámicos) computacionales. Un programa está diseñado para ejecutar cada línea ordenadamente (una a una) de forma secuencial 1,2,3,…,n. En la línea m el programa entiende que tiene que ejecutar todo lo que esté entre la línea n y la línea m y repetirlo, en orden secuencial, una cantidad x de veces. Entonces el flujo del programa sería, para el caso de un flujo regular  1,2,3,(4,5,…,m),(4,5,…,m),…*x,m+1,m+2,…,n.

## UTILIZAR LA VARIABLE “medias[i]” GENERADA EN EL INCISO ANTERIOR PARA DETERMINAR LA DESVIACIÓN ESTÁNDAR DE ESE CONJUNTO DE MEDIAS (ALMACENADO EN “medias[i]”) Y DETERMINAR SU EQUIVALENCIA CON EL ERROR ESTÁNDAR DE LA MEDIA (e.e.)

###Lo anterior evidentemente implica que se está construyendo sintéticamente (a través de bucles computacionales) lo que, por ejemplo, en un laboratorio botánico se registra a nivel de datos (como en el que Karl Pearson y Student hacían sus experimentos y los registraban estadísticamente) y luego se analiza en términos de los métodos de la estadística descriptiva e inferencial (puesto que a esos dominios pertenece el e.e.).

sd(medias)     ### desviación de la distribución de las medias

(ee = s/sqrt(n)  )### equivalencia teórica

## COMPARAR LA DISTRIBUCIÓN DE MEDIAS

m

mean(medias)

## GRAFICAR LA DISTRIBUCIÓN DE MEDIAS GENERADA EN EL INCISO ANTERIOR

hist(medias)

qm = quantile(medias,probs=c(0.025,0.975))

hist(medias,freq=F)

abline(v=qm,col=2)

lines(density(medias),col=2)

## GENERAR UN INTERVALO DE CONFIANZA CON UN NIVEL DE 0.95 PARA LA MEDIA DE LAS VARIABLES SUJETAS A ESTUDIO

attach(estudios)

### Percentil 0.975 de la distribución t-student para 95% de área bajo la curva

n = length(ventas) ###Cardinalidad o módulo del conjunto de datos

t = qt(0.975,n-1) ###valor t de la distribución t de student correspondiente a un nivel de probabilidad y n-1 gl

###Se denominan pruebas t porque todos los resultados de la prueba se basan en valores t. Los valores T son un ejemplo de lo que los estadísticos llaman estadísticas de prueba. Una estadística de prueba es un valor estandarizado que se calcula a partir de datos de muestra durante una prueba de hipótesis. El procedimiento que calcula la estadística de prueba compara sus datos con lo que se espera bajo la hipótesis nula (fuente: https://blog.minitab.com/en/adventures-in-statistics-2/understanding-t-tests-t-values-and-t-distributions).

###”qt” es la sintaxis que especifica un valor t determinado de la variable aleatoria de manera que la probabilidad de que esta variable sea menor o igual a este determinado valor t es igual a la probabilidad dada (que en la sintaxis de R se designa como p)

###Para más información véase https://marxianstatistics.com/2021/09/05/analisis-teorico-de-la-funcion-cuantil-en-r-studio/

###”n-1″ son los grados de libertad de la distribución t de student.

#### Error Estándar

ee = sd(ventas)/sqrt(n)

### Intervalo

mean(ventas)-t*ee

mean(ventas)+t*ee

mean(ventas)+c(-1,1)*t*ee ###c(-1,1) es un vector que se introduce artificialmente para poder construir el intervalo de confianza al 95% (u a otro nivel de confianza deseado) en una sola línea de código.

## ELABORAR UNA FUNCIÓN QUE PERMITA CONSTRUIR UN INTERVALO DE CONFIANZA AL P% DE NIVEL DE CONFIANZA PARA LA VARIABLE X

ic = function(x,p) {

  n = length(x)

  t = qt(p+((1-p)/2),n-1)

  ee = sd(x)/sqrt(n)

  mean(x)+c(-1,1)*t*ee

}

###Intervalo de 95% confianza para ventas

ic(ventas,0.95)

ic(ventas,0.99)

###El nivel de confianza hace que el intervalo de confianza sea más grande pues esto implica que los estadísticos de prueba (las versiones muestrales de los parámetros poblacionales) son más estadísticamente más robustos, por lo que su vecindario de aplicación es más amplio.

ic(ipc,0.95)

ic(menor16,0.95)

## REALIZAR LA PRUEBA DE HIPÓTESIS (PARA UNA MUESTRA) DENTRO DEL INTERVALO DE CONFIANZA GENERADO AL P% DE NIVEL DE CONFIANZA

t.test(ventas,mu=180) ###Por defecto, salvo que se cambie tal configuración, R realiza esta prueba a un nivel de confianza de 0.95.

### Realizando manualmente el cálculo anterior:

(t2=(mean(ventas)-180)/ee) ###Aquí se calcula el valor t por separado (puesto que la sintaxis “t.test” lo estima por defecto, como puede verificarse en la consola tras correr el código). Se denota con “t2” porque anteriormente se había definido en la línea de código 106 t = qt(0.975,n-1) para la construcción manual de los intervalos de confianza.

2*(1-pt(t2,20)) ###Aquí se calcula manualmente el valor p. Se multiplica por dos para tener la probabilidad acumulada total (considerando ambas colas) al valor t (t2, siendo más precisos) definido, pues esta es la definición de valor p. Esto se justifica por el hecho de la simetría geométrica de la distribución normal, la cual hace que la probabilidad acumulada (dentro de un intervalo de igual longitud) a un lado de la media sea igual a la acumulada (bajo la condición especificada antes) a la derecha de la media.

2*(pt(-t2,20)) ###Si el signo resultante de t fuese negativo. Además, 20 es debido a n-1 = 21-1 = 20.

###La sintaxis “pt” calcula el valor de la función de densidad acumulada (cdf) de la distribución t de Student dada una determinada variable aleatoria x y grados de libertad df (degrees of freedom, equivalente a gl en español), véase https://www.statology.org/working-with-the-student-t-distribution-in-r-dt-qt-pt-rt/

## CREAR UNA VARIABLE QUE PERMITA SEPARAR ESPACIALMENTE (AL INTERIOR DE LA GRÁFICA QUE LOS REPRESENTA) AQUELLOS ipc MENORES A UN VALOR h (h=117) DE AQUELLOS QUE SON IGUALES O MAYORES QUE h (h=117)

(ipc1 = 1*(ipc<17)+2*(ipc>=17))

ipc2=factor(ipc1,levels=c(1,2),labels=c(“uno”,”dos”))

plot(ipc2,ipc)

abline(h=17,col=2)

## GENERAR GRÁFICO DE DIAMENTE CON LOS INTERVALOS DE CONFIANZA AL 0.95 DE NdC CENTRADOS EN LAS MEDIAS DE CADA GRUPO CREADO ALREDEDOR DE 17 Y UN BOX-PLOT

library(gplots)

plotmeans(ventas~ipc2) ###Intervalos del 95% alrededor de la media (GRÁFICO DE DIMANTES)

boxplot(ventas~ipc2)

## REALIZAR LA PRUEBA DE HIPÓTESIS DE QUE LA MEDIA ES LA MISMA PARA LOS DOS GRUPOS GENERADOS ALREDEDOR DE h=17

(med = tapply(ventas,ipc1,mean))

(dev = tapply(ventas,ipc1,sd))

(var = tapply(ventas,ipc1,var))

(n   = table(ipc1))

dif=med[1]-med[2]

###La sintaxis “tapply” aplica una función a cada celda de una matriz irregular (una matriz es irregular si la cantidad de elementos de cada fila varía), es decir, a cada grupo (no vacío) de valores dados por una combinación única de los niveles de ciertos factores.

### PRUEBA DE HIPÓTESIS EN ESCENARIO 1: ASUMIENDO VARIANZAS IGUALES (SUPUESTO QUE EN ESCENARIOS REALES DEBERÁ VERIFICARSE CON ANTELACIÓN)

varpond= ((n[1]-1)*var[1] + (n[2]-1)*var[2])/(n[1]+n[2]-2) ###Aquí se usa una varianza muestral ponderada como medida más precisa (dado que el tamaño de los grupos difiere) de una varianza muestral común entre los dos grupos construidos alrededor de h=17

e.e=sqrt((varpond/n[1])+(varpond/n[2]))

dif/e.e

t.test(ventas~ipc1,var.equal=T)

t.test(ventas~ipc1)  #Por defecto la sintaxis “t.test” considera las varianzas iguales, por lo que en un escenario de diferentes varianzas deberá ajustarse esto como se muestra a continuación.

### PRUEBA DE HIPÓTESIS EN ESCENARIO 2: ASUMIENDO VARIANZAS DESIGUALES (AL IGUAL QUE ANTES, ESTO DEBE VERIFICARSE)

e.e2=sqrt((var[1]/n[1])+(var[2]/n[2]))

dif/e.e2

a=((var[1]/n[1]) + (var[2]/n[2]))^2

b=(((var[1]/n[1])^2)/(n[1]-1)) +(((var[2]/n[2])^2)/(n[2]-1))

(glmod=a/b)

t.test(ventas~ipc1,var.equal=F)

###Para aceptar o rechazar la hipótesis nula el intervalo debe contener al cero (porque la Ho afirma que la verdadera diferencia en las medias -i.e., su significancia estadística- es nula).

###Conceptualmente hablando, una diferencia estadísticamente significativa expresa una variación significativa en el patrón geométrico que describe al conjunto de datos. Véase https://marxianstatistics.com/2021/08/27/modelos-lineales-generalizados/. Lo que define si una determinada variación es significativa o no está condicionado por el contexto en que se realiza la investigación y la naturaleza misma del fenómeno estudiado.

## REALIZAR PRUEBA F PARA COMPARAR LA VARIANZA DE LOS GRUPOS Y LA PROBABILIDAD ASOCIADA

(razon.2 = var[1]/var[2]) ###Ratio de varianzas (asumiendo que las varianzas poblacionales son equivalentes a la unidad, en otro caso su estimación sería matemáticamente diferente; véase https://sphweb.bumc.bu.edu/otlt/mph-modules/bs/bs704_power/bs704_power_print.html y https://stattrek.com/online-calculator/f-distribution.aspx).

pf(razon.2,n[1]-1,n[2]-1) ###Al igual que “pt” (para el caso de la t de Student que compara medias de dos grupos o muestras), “pf” en el contexto de la prueba F (que compara la varianza de dos grupos o muestras) calcula la probabilidad acumulada que existe hasta determinado valor.

###La forma general mínima (más sintética) de la sintaxis “pf” es “pf(x, df1, df2)”, en donde “x” es el vector numérico (en este caso, de un elemento), df1 son los gl del numerador y df2 son los grados de libertad del denominador de la distribución F (cuya forma matemática puede verificarse en la documentación de R; véase https://stat.ethz.ch/R-manual/R-devel/library/stats/html/Fdist.html).

(2*pf(razon.2,n[1]-1,n[2]-1)) ###Aquí se calcula el valor p manualmente.

###Realizando de forma automatizada el procedimiento anterior:

var.test(ventas~ipc1)

detach(estudios)

###Para aceptar o rechazar la hipótesis nula el intervalo debe contener al 1 porque la Ho afirma que la varianza de ambas muestras es igual (lo que implica que su cociente o razón debe ser 1), lo que equivale a afirmar que la diferencia real entre desviaciones (la significancia estadística de esta diferencia) es nula.

## EN EL ESCENARIO DEL ANÁLISIS DE MUESTRAS PAREADAS, ANALIZAR LOS DATOS SOBRE EL EFECTO DE DOS DROGAS EN LAS HORAS DE SUEÑO DE UN GRUPO DE PACIENTES (CONTENIDOS EN EL ARCHIVO “sleep” DE R)

attach(sleep) ###”sleep” es un archivo de datos nativo de R, por ello puede “llamarse” sin especificaciones de algún tipo.

plot(extra ~ group)

plotmeans(extra ~ group,connect=F)  ###Intervalos del 95% alrededor de la media. El primer insumo (entrada) de la aplicación “plotmeans” es cualquier expresión simbólica que especifique la variable dependiente o de respuesta (continuo) y la variable independiente o de agrupación (factor). En el contexto de una función lineal, como la función “lm()” que es empleada por “plotmeans” para graficar (véase la documentación de R sobre “plotmeans”), sirve para separar la variable dependiente de la o las variables independientes, las cuales en este caso de aplicación son los factores o variables de agrupación (puesto que se está en el contexto de casos clínicos y, en este contexto, las variables independientes son las variables que sirven de criterio para determinar la forma de agrupación interna del conjunto de datos; este conjunto de datos contiene las observaciones relativas al efecto de dos drogas diferentes sobre las horas de sueño del conjunto de pacientes-).

A = sleep[sleep$group == 1,] ###El símbolo “$” sirve para acceder a una variable (columna) de la matriz de datos, en este caso la número 1 (por ello el “1”).

B = sleep[sleep$group == 2,]

plot(1:10,A$extra,type=”l”,col=”red”,ylim=c(-2,7),main=”Gráfico 1

Horas de sueño entre pacientes con el tratamiento A y B”,ylab=”Horas”,xlab=”Numero de paciente”,cex.main=0.8)

lines(B$extra,col=”blue”)

legend(1,6,legend=c(“A”,”B”),col=c(“red”,”blue”),lwd=1,box.col=”black”,cex=1)

t.test(A$extra,B$extra)

t.test(A$extra,B$extra,paired=T)

t.test(A$extra-B$extra,mu=0)

###Una variable de agrupación (también llamada variable de codificación, variable de grupo o simplemente variable) clasifica las observaciones dentro de los archivos de datos en categorías o grupos. Le dice al sistema informático (sea cual fuere) cómo el usuario ha clasificado los datos en grupos. Las variables de agrupación pueden ser categóricas, binarias o numéricas.

###Cuando se desea realizar un comando dentro del texto (en un contexto de formato Rmd) se utiliza así,por ejemplo se podría decir que la media del sueño extra es `r mean(sleep$extra)` y la cantidad de datos son `r length(sleep$extra)`

## ESTIMACIÓN DE LA POTENCIA DE UNA PRUEBA DE HIPÓTESIS (PROBABILIDAD BETA DE COMETER ERROR TIPO II)

library(pwr) ###”pwr” es una base de datos nativa de R

delta=3 ###Nivel de Resolución de la prueba. Para un valor beta (probabilidad de cometer error tipo II) establecido el nivel de resolución es la distancia mínima que se desea que la prueba sea capaz de detectar, es decir, que si existe una distancia entre los promedios tal que la prueba muy probablemente rechace la hipótesis nula Ho. Para el cálculo manual de la probabilidad beta véase el complemento de este documento (FUNDAMENTOS GENERALES DEL PROCESO DE ESTIMACIÓN Y PRUEBA DE HIPÓTESIS EN R STUDIO. PARTE I, TEORÍA ESTADÍSTICA)

s=10.2 ###Desviación estándar muestral

(d=delta/s) #Tamano del efecto.

pwr.t.test(n=NULL,d=d,power =0.9,type=”one.sample”)

## ESTIMAR CON EL VALOR ÓPTIMO PARA EL NIVEL DE RESOLUCIÓN, PARTIENDO DE n=40 Y MANTENIENDO LA POTENCIA DE 0.9

(potencia=pwr.t.test(n=40,d=NULL,power =0.9,type=”one.sample”))

potencia$d*s  #Delta

## GRAFICAR LAS DIFERENTES COMBINACIONES DE TAMAÑO DE MUESTRA Y NIVEL DE RESOLUCIÓN PARA UNA POTENCIA DE LA PRUEBA FIJA

s=10.2

deltas=seq(2,6,length=30)

n=numeric(30)

for(i in 1:30) {

  (d[i]=deltas[i]/s)

  w=pwr.t.test(n=NULL,d=d[i],power =0.9,type=”one.sample”)

  n[i]=w$n

}

plot(deltas,n,type=”l”)

## SUPÓNGASE QUE SE QUIERE PROBAR SI DOS GRUPOS PRESENTAN DIFERENCIAS ESTADÍSTICAMENTE SIGNIFICATIVAS EN LOS NIVELES PROMEDIO DE AMILASA, PARA LO CUAL SE CONSIDERA IMPORTANTE DETECTAR DIFERENCIAS DE 15 UNIDADES/ML O MÁS ENTRE LOS PROMEDIOS

s2p=290.9  ###Varianza ponderada de los dos grupos

(sp=sqrt(s2p)) ###Desviación estándar ponderada de los dos grupos

delta=15

(d=delta/sp)

pwr.t.test(n=NULL,d=d,power =0.9,type=”two.sample”)

ENCUESTA NACIONAL SOBRE LOS ASPECTOS DE LA VIRTUALIDAD VINCULADOS CON LA PANDEMIA DEL COVID-19 (ENAVIRPA 2021)

ISADORE NABI

VII. REFERENCIAS

Aldrich, J. H., & Nelson, F. D. (1984). Linear Probability, Logit, and Probit Models. Beverly Hills: Sage University Papers Series. Quantitative Applications in the Social Sciences.

Allen, M. (2017). The SAGE Encyclopedia of COMMUNICATION RESEARCH METHODS. London: SAGE Publications, Inc.

AMERICAN PSYCHOLOGICAL ASSOCIATION. (2021, Julio 15). level. Retrieved from APA Dictionary of Pyschology: https://dictionary.apa.org/level

AMERICAN PYSCHOLOGICAL ASSOCIATION. (2021, Julio 15). factor. Retrieved from APA Dictionary of Pyschology: https://dictionary.apa.org/factor

AMERICAN PYSCHOLOGY ASSOCIATION. (2021, Julio 15). logistic regression (LR). Retrieved from APA Dictionary of Pyschology: https://dictionary.apa.org/logistic-regression

Barrios, J. (2019, Julio 19). La matriz de confusión y sus métricas . Retrieved from Health BIG DATA: https://www.juanbarrios.com/la-matriz-de-confusion-y-sus-metricas/

Bhuptani, R. (2020, Julio 13). Quora. Retrieved from What is the difference between linear regression and least squares?: https://www.quora.com/What-is-the-difference-between-linear-regression-and-least-squares

Birnbaum, Z. W., & Sirken, M. G. (1950, Marzo). Bias Due to Non-Availability in Sampling Surveys. Journal of the American Statistical Association, 45(249), 98-111.

Burrus, C. S. (2021, Julio 7). Iterative Reweighted Least Squares. Retrieved from https://cnx.org/exports/[email protected]/iterative-reweighted-least-squares-12.pdf

Centro Centroamericano de Población. (2021, Abril 28). Variables y escalas de medición. Retrieved from Universidad de Costa Rica: https://ccp.ucr.ac.cr/cursos/epidistancia/contenido/2_escmed.html

Cochran, W. G. (1991). Técnicas de Muestreo. México, D.F.: Compañía Editorial Continental.

Departamento Administrativo Nacional de Estadística. (2003). Metodología de Diseño Muestral. Bogotá: Dirección Sistema Nacional de Información Estadística. Retrieved from https://www.dane.gov.co/files/EDI/anexos_generales/Metodologia_diseno_muestral_anexo1.pdf?phpMyAdmin=a9ticq8rv198vhk5e8cck52r11

Díaz-Narváez, V. P. (2017). Regresión logística y decisiones clínicas. Nutrición Hospitalaria, 34(6), 1505-1505. Retrieved from https://scielo.isciii.es/pdf/nh/v34n6/36_diaz.pdf

Google Developers. (2021, Julio 19). Clasificación: Exactitud. Retrieved from https://developers.google.com/machine-learning/crash-course/classification/accuracy

Greene, W. (2012). Econometric Analysis (Séptima ed.). Harlow, Essex, England: Pearson Education Limited.

Gujarati, D., & Porter, D. (2010, Julio 8). Econometría (Quinta ed.). México, D.F.: McGrawHill Educación. Retrieved from Homocedasticidad.

Haskett, D. R. (2014, Octubre 10). “Mitochondrial DNA and Human Evolution” (1987), by “Mitochondrial DNA and Human Evolution” (1987), by Rebecca Louise Cann, Mark Stoneking, and Allan Charles Wilson. Retrieved from The Embryo Project Encyclopedia: https://embryo.asu.edu/pages/mitochondrial-dna-and-human-evolution-1987-rebecca-louise-cann-mark-stoneking-and-allan

Hastie, T., Tibshirani, R., & Friedman, J. (2017). The Elements of Statistical Learning. Data Mining, Inference, and Prediction (Segunda ed.). New York: Springer.

Instituto dei Sistemi Complessi. (2021, Febrero 27). Topolical vs Metric Distance. Retrieved from Biological Systems: https://www.isc.cnr.it/research/topics/physical-biology/biological-systems/topological-vs-metric-distance/

Instituto Nacional de Estadística y Censos de Costa Rica. (2016, Julio). Manual de Clasificación Geográfica con Fines Estadísticos de Costa Rica. Retrieved from Biblioteca Virtual: https://www.inec.cr/sites/default/files/documetos-biblioteca-virtual/meinstitucionalmcgfecr.pdf

Instituto Nacional de Estadística y Censos de Costa Rica. (2019). ENIGH. 2018. Cuadros sobre ingresos de los hogares. San José: INEC. Retrieved from https://www.inec.cr/sites/default/files/documetos-biblioteca-virtual/reenigh2018-ingreso.xlsx

Instituto Nacional de Estadística y Censos de Costa Rica. (2021, 7 14). Factor de Expansión. Retrieved from INEC: https://www.inec.cr/sites/default/files/_book/F.html

Instituto Nacional de Estadística y Censos de la República Argentina. (2019). Encuesta de Actividades de Niños, Niñas y Adolescentes 2016-2017. Factores de expansión, estimación y cálculo de los errores por muestra para el dominio rural. Buenos Aires: Ministerio de Hacienda. Retrieved from https://www.indec.gob.ar/ftp/cuadros/menusuperior/eanna/anexo_bases_eanna_rural.pdf

James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning with Applications in R. New York: Springer.

Jose, K. (2020, Junio 27). Graph Theory | Isomorphic Trees. Retrieved from Towards Data Science: https://towardsdatascience.com/graph-theory-isomorphic-trees-7d48aa577e46

Köhler, T. (2016). Income and Wealth Poverty in Germany. SOEP papers on Multidisciplinary Panel Data Research, 1-48. Retrieved from https://www.diw.de/documents/publikationen/73/diw_01.c.540534.de/diw_sp0857.pdf

Kolmogórov, A. N., & Fomin, S. V. (1978). Elementos de la Teoría de Funciones y del Análisis Funcional (Tercera ed.). (q. e.-m. Traducido del ruso por Carlos Vega, Trans.) Moscú: MIR.

Liao, T. F. (1994). INTERPRETING PROBABILITY MODELS. Logit, Probit, and Other Generalized Linear Models. Iowa: Sage University Papers Series. Quantitative Applications in the Social Sciences.

Lipschutz, S. (1992). Álgebra Lineal. Madrid: McGraw-Hill.

Lohr, S. L. (2019). Sampling: Design and Analysis (Segunda ed.). Boca Raton: CRC Press.

Lohr, S. L. (2019). Sampling: Design and Analysis (Segunda ed.). Boca Raton: CRC Press.

McCullagah, P., & Nelder, J. A. (1989). Generalized Linear Models (Segunda ed.). London: Chapman and Hall.

McCullagh, P., & Nelder, J. A. (1989). Generalized Linear Models (Segunda ed.). London: Chapman and Hall.

Nelder, J. A., & Wedderburn, R. W. (1972). Generalized Linear Models. Journal of the Royal Statistical Society, 135(3), 370-384.

Online Stat Book. (2021, Julio 15). Levels of an Independent Variable. Retrieved from Independent and dependent variables: https://onlinestatbook.com/2/introduction/variables.html

Patil, G. P., & Shorrock, R. (1965). On Certain Properties of the Exponential-type Families. Journal of the Royal Statistical, 27(1), 94-99.

Perry, J. (2014, Abril 2). NORM TO/FROM METRIC. Retrieved from The University of Southern Mississippi: https://www.math.usm.edu/perry/old_classes/mat681sp14/norm_and_metric.pdf

Ritchey, F. (2002). ESTADÍSTICA PARA LAS CIENCIAS SOCIALES. El potencial de la imaginación estadística. México, D.F.: McGRAW-HILL/INTERAMERICANA EDITORES, S.A. DE C.V.

Samuels, S. (2014, 11 19). Can I get to an approximation of the population with knowledge of the expansion factor? Retrieved from Cross Validated. StackExchange: https://stats.stackexchange.com/questions/124750/can-i-get-to-an-approximation-of-the-population-with-knowledge-of-the-expansion

StackExchange Cross Validated. (2017, Febrero 2). “Least Squares” and “Linear Regression”, are they synonyms? Retrieved from What is the difference between least squares and linear regression? Is it the same thing?: https://stats.stackexchange.com/questions/259525/least-squares-and-linear-regression-are-they-synonyms

StackExchange Data Science. (2016, Junio 19). Is GLM a statistical or machine learning model? Retrieved from https://datascience.stackexchange.com/questions/488/is-glm-a-statistical-or-machine-learning-model

StackOverFlow. (2014, Marzo 15). Supervised Learning, Unsupervised Learning, Regression. Retrieved from https://stackoverflow.com/questions/22419136/supervised-learning-unsupervised-learning-regression

TalkStats. (2011, Noviembre 29). SPSS. Retrieved from Forums: http://www.talkstats.com/threads/what-is-the-difference-between-a-factor-and-a-covariate-for-multinomial-logistic-reg.21864/

UNITED NATIONS ECONOMIC COMMISSION FOR EUROPE. (2017). Guide on Poverty Measure. New York and Geneva: UNITED NATIONS. Retrieved from https://ec.europa.eu/eurostat/ramon/statmanuals/files/UNECE_Guide_on_Poverty_Measurement.pdf

van den Berg, R. G. (2021, Julio 15). Measurement Levels – What and Why? Retrieved from SPSS Tutorials: https://www.spss-tutorials.com/measurement-levels/

Weisstein, E. W. (2021, Julio 15). Sigmoid Function. Retrieved from MathWorld – A Wolfram Web Resource: https://mathworld.wolfram.com/SigmoidFunction.html

Weisstein, E. W. (2021, Mayo 21). Sigmoid Function. Retrieved from MathWorld – A Wolfram Web Resource: https://mathworld.wolfram.com/SigmoidFunction.html

Weisstein, E. W. (2021, Mayo 18). Smooth Function. Retrieved from Wolfram MathWorld – A Wolfram Web Resource: https://mathworld.wolfram.com/SmoothFunction.html

Wikimedia. (2021, Abril 6). Commons. Retrieved from Wikipedia: https://upload.wikimedia.org/wikipedia/commons/b/bf/Undirected.svg

Wikipedia. (2021, Julio 6). Graph isomorphism. Retrieved from Morphism: https://en.wikipedia.org/wiki/Graph_isomorphism

Wikipedia. (2021, Mayo 21). Iterative proportional fitting. Retrieved from Statistical algorithms: https://en.wikipedia.org/wiki/Iterative_proportional_fitting

Wikipedia. (2021, Febrero 25). Iteratively reweighted least squares. Retrieved from Least squares: https://en.wikipedia.org/wiki/Iteratively_reweighted_least_squares

Wikipedia. (2021, Julio 13). Logistic function. Retrieved from Growth curves: https://en.wikipedia.org/wiki/Logistic_function

Wikipedia. (2021, Mayo 22). Logistic regression. Retrieved from Regression models: https://en.wikipedia.org/wiki/Logistic_regression

Wikipedia. (2021, Junio 14). Logit. Retrieved from Special functions: https://en.wikipedia.org/wiki/Logistic_function

Wikipedia. (2021, Julio 8). Lp space. Retrieved from Measure theory: https://www.wikiwand.com/en/Lp_space

Wikipedia. (2021, Abril 15). Odds. Retrieved from Wagering: https://en.wikipedia.org/wiki/Odds

Wikipedia. (2021, Julio 10). Precision and recall. Retrieved from Bioinformatics: https://en.wikipedia.org/wiki/Precision_and_recall

Wooldridge, J. (2010). Econometric Analysis of Cross Section and Panel Data (Segunda ed.). Cambridge, Massachusetts: MIT Press.

GENERALIDADES DE LA TEORÍA DEL APRENDIZAJE ESTADÍSTICO

ISADORE NABI

VI. Referencias

Barrios, J. (19 de Julio de 2019). La matriz de confusión y sus métricas . Obtenido de Health BIG DATA: https://www.juanbarrios.com/la-matriz-de-confusion-y-sus-metricas/

Google Developers. (19 de Julio de 2021). Clasificación: Exactitud. Obtenido de https://developers.google.com/machine-learning/crash-course/classification/accuracy

Hastie, T., Tibshirani, R., & Friedman, J. (2017). The Elements of Statistical Learning. Data Mining, Inference, and Prediction (Segunda ed.). New York: Springer.

James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning with Applications in R. New York: Springer.

StackExchange Data Science. (19 de Junio de 2016). Is GLM a statistical or machine learning model? Obtenido de https://datascience.stackexchange.com/questions/488/is-glm-a-statistical-or-machine-learning-model

StackOverFlow. (15 de Marzo de 2014). Supervised Learning, Unsupervised Learning, Regression. Obtenido de https://stackoverflow.com/questions/22419136/supervised-learning-unsupervised-learning-regression

Wikipedia. (10 de Julio de 2021). Precision and recall. Obtenido de Bioinformatics: https://en.wikipedia.org/wiki/Precision_and_recall

JUSTIFICACIÓN TEÓRICA DEL USO DE MÉTODOS DE REGRESIÓN SOBRE INSTRUMENTOS PSICOMÉTRICOS: EL CASO DE LA ENCUESTA.

ISADORE NABI

Como señala (Cochran, 1991, pág. 195), “Uno de los rasgos de la estadística teórica es la creación de una vasta teoría que discute los métodos de obtención de buenas estimaciones a partir de los datos. En el desarrollo de la teoría, específicamente para encuestas de muestreo, se han utilizado poco estos conocimientos, por dos causas principales. Primero, en las encuestas que contienen un gran número de atributos, es una gran ventaja, aunque se disponga de máquinas computadoras, el poder utilizar procedimientos de estimación que requieran poco más que simples sumas, en tanto que los métodos superiores de estimación de la estadística teórica, como lo son la máxima verosimilitud, podrían necesitar una serie de aproximaciones sucesivas antes de encontrar una estimación (…) La mayoría de los métodos de investigación de la estadística teórica suponen que se conoce la forma funcional de la distribución de frecuencia que sigue a los datos de la muestra, y el método de estimación de estimación está cuidadosamente engranado de acuerdo a este tipo de distribución. En la teoría de encuestas por muestreo se ha preferido hacer, cuando más, algunos supuestos respecto a esta distribución de frecuencia. Esta actitud resulta razonable para tratar con encuestas en las que el tipo de distribución puede variar de un atributo a otro, y cuando no deseamos detenernos a examinarlas todas, antes de decidir cómo hacer cada estimación. En consecuencia, actualmente, las técnicas de estimación para el trabajo de encuestas por muestreo son de alcances restringidos. Ahora consideraremos dos técnicas, el método de razón (…) y el método de regresión línea (…)” Así, “Al igual que la estimación de razón, la regresión lineal se ha diseñado para incrementar la precisión en el uso de una variable auxiliar  correlacionada con .” (Cochran, 1991, pág. 239).

UNA INVESTIGACIÓN HISTÓRICA, TEÓRICA Y MATEMÁTICA SOBRE EL CARÁCTER DIALÉCTICO DE LOS FUNDAMENTOS EPISTEMOLÓGICOS DE LA COMPLEJIDAD EN LOS SISTEMAS DINÁMICOS NO-LINEALES DE LARGO PLAZO

ISADORE NABI

Abstracto

Desde Pierre-Simon Laplace en 1840 con su célebre “Ensayo Filosófico Sobre Probabilidades”, los filósofos y científicos se han interesado por dicotomía, sugerida por la observación de los hechos de la realidad, entre la incertidumbre y el determinismo. Henri Poincaré en 1908 coge el testigo de Laplace, comenzando así el esfuerzo consciente por unificarlas filosóficamente y dando así nacimiento a la Teoría del Caos, para que luego Edward Lorenz en 1963 diera a luz los Sistemas Complejos en su investigación titulada “Deterministic Nonperiodic Flow” y finalmente fue Benoit Mandelbrot en 1982 quien revolucionó la Geometría con el planteamiento de las superficies fractales en su obra “La Geometría Fractal de la Naturaleza”. Así como para los sistemas complejos ha sido de vital importancia ir comprendiendo unificadamente el caos y el determinismo, también fue para los sistemas filosóficos (particularmente la Antigua Grecia y del Idealismo Clásico Alemán) alcanzar precisión en las definiciones de las categorías esencia, forma, contenido, apariencia y fenómeno. Estas categorías filosóficas fueron trabajadas por los filósofos soviéticos en su búsqueda por comprender de manera holista la realidad, siendo plasmadas en el célebre “Diccionario Filosófico” publicado en 1971. La presente investigación plantea que la forma óptima de instrumentalizar esa visión filosófica es nutriéndola de los hallazgos realizados en el campo de la Teoría del Caos y también que la forma óptima de depurar teóricamente lo relacionado a los sistemas complejos es mediante su análisis a la luz de la Lógica Dialéctica-Materialista.

Palabras Clave: Materialismo Dialéctico, Sistemas Complejos, Fractales, Teoría del Caos, Escuela de Filosofía Soviética.

REREFENCIAS

Aravindh, M., Venkatesan, A., & Lakshmanan, M. (2018). Strange nonchaotic attractors for computation. Physical Review E, 97(5), 1-10. doi:https://doi.org/10.1103/PhysRevE.97.052212

Barnet, W., & Chen, P. (1988). Deterministic Chaos and Fractal Atrractors as Tools for NonParametric Dynamical Econometric Inference: With An Application to the Divisa Monetary Aggregates. Computational Mathematics and Modeling, 275-296. Obtenido de http://www.maths.usyd.edu.au/u/gottwald/preprints/testforchaos_MPI.pdf

Bjorvand, A. (1995). A New Approach to Intelligent Systems Theory. The Norwegian Institute of Technology, The University of Trondheim, Faculty of Electrical Engineering and Computer Science. Trondheim: The University of Trondheim. Recuperado el 15 de Abril de 2020, de https://www.anderstorvillbjorvand.com/_service/53/download/id/3378/name/19950428_project_report_fractal_logic.pdf

Elert, G. (11 de Agosto de 2020). Flow Regimes – The Physics Hypertextbook. Recuperado el 11 de Agosto de 2020, de https://physics.info/turbulence/

Gottwald, G., & Melbourne, I. (2016). The 0-1 Test for Chaos: A review. En U. Parlitz, E. G. Lega, R. Barrio, P. Cincotta, C. Giordano, C. Skokos, . . . J. Laskar, & C. G. Sokos (Ed.), Chaos Detection and Predictability (págs. 221-248). Berlin: Springer.

Halperin, B. (2019). Theory of dynamic critical phenomena. Physics Today, 72(2), 42-43. doi:10.1063/PT.3.4137

Jaynes, E. (2003). Probability Theory. The Logic of Science. Cambridge University Press: New York.

Kessler, D., & Greenkorn, R. (1999). Momentum, Heat, and Mass Transfer Fundamentals. New York: Marcel Denker, Inc.

Kilifarska, N., Bakmutov, V., & Melnyk, G. (2020). The Hidden Link Between Earth’s Magnetic Field and Climate. Leiden: Elsevier.

Landau, L. (1994). Física Teórica. Física Estadística (Segunda ed., Vol. 5). (S. Velayos, Ed., & E. L. Vázquez, Trad.) Barcelona: Reverté, S.A.

Laplace, P.-S. (1902). A Philosophical Essay on Probabilities (1 ed.). (E. M. Pinto, Trad.) London: JOHN WILEY & SONS. Obtenido de http://bibliotecadigital.ilce.edu.mx/Colecciones/ReinaCiencias/_docs/EnsayoFilosoficoProbabilidades.pdf

Lesne, A. (1998). Renormalization Methods. Critical Phenomena, Chaos, Fractal Structures. Baffins Lane, Chichester, West Sussex, England: John Wiley & Sons Ltd.

Lesne, A., & Laguës, M. (2012). Scale Invariance. From Phase Transitions to Turbulence (Primera edición, traducida del francés (que cuenta con dos ediciones) ed.). New York: Springer.

Li, S., & Li, H. (2006). Parallel AMR Code for Compressible MHD or HD Equations. Los Alamos National Laboratory, Mathematical Modeling and Analysis. Nuevo México: Applied Mathematics and Plasma Physics. Obtenido de https://web.archive.org/web/20160303182548/http://math.lanl.gov/Research/Highlights/amrmhd.shtml

Linder, J., Kohar, V., Kia, B., Hippke, M., Learned, J., & Ditto, W. (4 de Febrero de 2015). Strange nonchaotic stars. Recuperado el 16 de Abril de 2020, de Nonlinear Sciences > Chaotic Dynamics: https://arxiv.org/pdf/1501.01747.pdf

Lorenz, E. (1963). Deterministic Nonperiodic Flow. JOURNAL OF THE ATMOSPHERIC SCIENCES, 20, 130-141.

Mandelbrot, B. (1983). THE FRACTAL GEOMETRY OF NATURE. New York: W.H. Freeman and Company.

Marxist.org. (21 de Junio de 2018). Formal Logic and Dialectics. Recuperado el 14 de Abril de 2020, de The Meaning of Hegel’s Logic: https://www.marxists.org/reference/archive/hegel/help/mean05.htm

McCullagah, P., & Nelder, J. (1989). Generalized Linear Models (Segunda ed.). New York, United States of America: Chapman & Hall.

Nabi, I. (18 de Marzo de 2021). Diferentes abordajes para el TCL con variables dependientes. Obtenido de La Biblioteca del Pueblo | El Blog de Isadore Nabi: https://mega.nz/folder/lERCnLxD#0RP8MLIq6vEYR5GBsA7kog/folder/UYRwHZaS

Nabi, I. (18 de Marzo de 2021). Diferentes abordajes para la LGN con variables dependientes. Obtenido de La Biblioteca del Pueblo | El Blog de Isadore Nabi: https://mega.nz/folder/lERCnLxD#0RP8MLIq6vEYR5GBsA7kog/folder/wVAiBTQZ

Oestreicher, C. (2007). A history of chaos theory. Dialogues in Clinical Neuroscience, 9(3), 279–289. Obtenido de https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3202497/pdf/DialoguesClinNeurosci-9-279.pdf

Pezard, L., & Nandrino, J. (2001). Paradigme dynamique en psychopathologie: la “Théorie du chaos”, de la physique à la psychiatrie [Dynamic paradigm in psychopathology: “chaos theory”, from physics to psychiatry]. Encephale, 27(3), 260-268. Obtenido de https://pubmed.ncbi.nlm.nih.gov/11488256/

Poincaré, H. (1908). Chance. En H. Poincaré, Science and Method (págs. 64-90). London: THOMAS NELSON AND SONS. Obtenido de https://www.stat.cmu.edu/~cshalizi/462/readings/Poincare.pdf

Princeton University. (30 de Septiembre de 2019). The Fundamental Postulate . Obtenido de http://assets.press.princeton.edu/chapters/s3_9634.pdf

ResearchGate. (3 de Mayo de 2018). When should one use Fuzzy set theory and Rough set theory? Is there any clear-cut line of difference between them? Recuperado el 6 de Julio de 2020, de https://www.researchgate.net/post/When_should_one_use_Fuzzy_set_theory_and_Rough_set_theory_Is_there_any_clear-cut_line_of_difference_between_them

ResearchGate. (2 de Mayo de 2020). What is the difference between Fuzzy rough sets and Rough fuzzy sets? Recuperado el 6 de Julio de 2020, de https://www.researchgate.net/post/What_is_the_difference_between_Fuzzy_rough_sets_and_Rough_fuzzy_sets

Rosental, M., & Iudin, P. (1971). Diccionario Filosófico. San Salvador: Tecolut.

Russell, K. (29 de Enero de 2014). Hypothesis testing. Recuperado el 15 de Abril de 2020, de Stats – Kevin Russell – University of Manitoba: http://home.cc.umanitoba.ca/~krussll/stats/hypothesis-testing.html

Sharma, V. (2003). Deterministic Chaos and Fractal Complexity in the Dynamics of Cardiovascular Behavior: Perspectives on a New Frontier. The Open Cardiovascular Medicine Journal(3), 110-123.

Stanford Encyclopedia of Philosophy. (4 de Febrero de 2002). Quantum Logic and Probability Theory. Recuperado el 6 de Julio de 2020, de https://plato.stanford.edu/entries/qt-quantlog/

Valdebenito, E. (1 de Julio de 2019). Fractales: La Geometría del Caos. Recuperado el 11 de Agosto de 2020, de viXra: https://vixra.org/pdf/1901.0152v1.pdf

Werndl, C. (2013). What Are the New Implications of Chaos for Unpredictability? The British Journal for the Philosophy of Science, 60(1), 1-25. doi:10.1093/bjps/axn053

Gráfica de Sedimentación

SOBRE EL ANÁLISIS DE COMPONENTES PRINCIPALES (PCA)

ISADORE NABI

REFERENCIAS

Adler, J. (2012). R in a Nutshell (Segunda ed.). Sebastopol, Crimea, Rusia: O’Reilly.

Alger, N. (4 de Marzo de 2013). Intuitively, what is the difference between Eigendecomposition and Singular Value Decomposition? Obtenido de StackExchange Mathematics: https://math.stackexchange.com/questions/320220/intuitively-what-is-the-difference-between-eigendecomposition-and-singular-valu

Bellman, R. (1972). Dynamic Programming (Sexta Impresión ed.). New Jersey: Princeton University Press.

Dunn, K. G. (3 de Marzo de 2021). Process Improvement Using Data. Hamilton, Ontario, Canadá: Learning Chemical Engineering. Obtenido de 6.5. Principal Component Analysis (PCA) | 6. Latent Variable Modelling: https://learnche.org/pid/PID.pdf?60da13

Jollife, I. (2002). Principal Component Analysis. New York: Springer-Verlag.

Minitab. (18 de Abril de 2019). Interpretar todos los estadísticos y gráficas para Análisis de componentes principales. Obtenido de Soporte de Minitab 18: https://support.minitab.com/es-mx/minitab/18/help-and-how-to/modeling-statistics/multivariate/how-to/principal-components/interpret-the-results/all-statistics-and-graphs/

MIT. (23 de Febrero de 2021). Linear transformations and their matrices. Obtenido de Linear Algebra: https://ocw.mit.edu/courses/mathematics/18-06sc-linear-algebra-fall-2011/positive-definite-matrices-and-applications/linear-transformations-and-their-matrices/MIT18_06SCF11_Ses3.6sum.pdf

Nabi, I. (2020). Sobre los Estimadores de Bayes, el Análisis de Grupos y las Mixturas Gaussianas. Documento inédito.

Nabi, I. (3 de Abril de 2021). ¿Por qué se realiza un ajuste por re-escalamiento, normalización o estandarización sobre los datos en el contexto del aprendizaje automático? Obtenido de El Blog de Isadore Nabi: https://marxianstatistics.com/2021/04/03/por-que-se-realiza-un-ajuste-por-re-escalamiento-normalizacion-o-estandarizacion-sobre-los-datos-en-el-contexto-del-aprendizaje-automatico/

Nabi, I. (2 de Abril de 2021). Una Interpretación Multidisciplinaria de los Espacios Característicos, Vectores Característicos y Valores Característicos. Obtenido de El Blog de Isadore Nabi: https://marxianstatistics.files.wordpress.com/2021/04/una-interpretacion-multidisciplinaria-de-los-espacios-caracteristicos-vectores-caracteristicos-y-valores-caracteristicos-isadore-nabi-1.pdf

Pearson, K. (1901). LIII. On lines and planes of closest fit to systems of points in space. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, II(11), 559-572. Obtenido de https://www.semanticscholar.org/paper/LIII.-On-lines-and-planes-of-closest-fit-to-systems-F.R.S./cac33f91e59f0a137b46176d74cee55c7010c3f8

Stack Exchange. (13 de Marzo de 2015). Understanding proof of isometry implies isomorphism. Obtenido de Mathematics: https://math.stackexchange.com/questions/1188730/understanding-proof-of-isometry-implies-isomorphism/1188732

Starmer, J. (2 de Abril de 2018). Principal Component Analysis (PCA). Obtenido de StatQuest: https://www.youtube.com/watch?v=FgakZw6K1QQ

Universidad Carlos III de Madrid. (7 de Noviembre de 2006). Análisis de Componentes Principales. Obtenido de Proceso de extracción de factores: http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/AMult/tema3am.pdf

Universitat de Girona. (24 de Enero de 2002). Número de factores a conservar. Obtenido de Análisis factorial: http://www3.udg.edu/dghha/cat/secciogeografia/prac/models/factorial(5).htm

Weisstein, E. (26 de Marzo de 2021). Projection. Obtenido de MathWorld – A Wolfram Web Resource: https://mathworld.wolfram.com/Projection.html

Weisstein, E. (26 de Marzo de 2021). Transformation. Obtenido de MathWorld – A Wolfram Web Resource: https://mathworld.wolfram.com/Transformation.html

Wikipedia. (4 de Noviembre de 2020). Curse of dimensionality. Obtenido de Numerical Analysis: https://en.wikipedia.org/wiki/Curse_of_dimensionality

Wikipedia. (25 de Octubre de 2020). Isomorfismo. Obtenido de Álgebra: https://es.wikipedia.org/wiki/Isomorfismo

Wikipedia. (26 de Marzo de 2021). Isomorphism. Obtenido de Equivalence (mathematics): https://en.wikipedia.org/wiki/Isomorphism

Wikipedia. (22 de Marzo de 2021). Transcripción genética. Obtenido de Biosíntesis: https://es.wikipedia.org/wiki/Transcripci%C3%B3n_gen%C3%A9tica

UNA METODOLOGÍA EMPÍRICA PARA LA DETERMINACIÓN DE LA MAGNITUD DE LAS INTERRELACIONES SECTORIALES DENTRO DE LA MATRIZ INSUMO-PRODUCTO DESDE LOS CUADROS DE PRODUCCIÓN Y USOS PARA EL CASO DE ESTADOS UNIDOS 1997-2019

ISADORE NABI & A.B.A.

Como es ampliamente conocido, la matriz insumo-producto (de ahora en adelante, MIP) es un cuadro estadístico de naturaleza macroeconómica y de presentación desagregada, el cual cristaliza la totalidad de la actividad económica anual de forma desagregada, que a su vez representa una especie de radiografía del sistema de economía política capitalista. En este sentido, la MIP es de importancia fundamental para estudiar el desempeño del sistema, sea en un período anual o a largo plazo. En el análisis de los fenómenos económicos, el abordaje estadístico-matemático[1] de las MIP es característico de la escuela marxista conocida como Nueva Interpretación, muy poco usado es en otras escuelas marxistas y en la ortodoxia, i.e., la escuela neomarginalista (mal llamada “neoclásica”), el análisis insumo-producto no es de especial interés desde más o menos la prehistoria de la síntesis neomarginalista, que data de la época de Paul Samuelson y Robert Solow suscitada alrededor del punto medio del epílogo del siglo pasado.

Existen investigaciones teóricas, como la de (Kuroki, 1985), en las que se afirma que existe en el largo plazo un proceso de ecualización de las tasas de ganancia industriales si y solo si los sectores del sistema de economía política están altamente interrelacionados. Al respecto, señala Kuroki que “Entonces podríamos concluir que solo el sistema en el que ambos sectores usan relativamente mucho la producción del otro como su propio insumo y, por lo tanto, el grado de interdependencia técnica es grande, tiene la tasa uniforme de ganancia estable (es decir, por ejemplo, la economía donde se necesita mucho trigo para hacer hierro y al mismo tiempo se usa mucho hierro para producir trigo).” (Kuroki, 1985, págs. 48-49). En esta investigación, se desea demostrar empíricamente que ese supuesto siempre se cumple, al menos para el caso de la economía política hegemónica a nivel planetario de las últimas décadas, puesto que se asume que es el caso representativo. Por ello, se estudiará el caso de Estados Unidos, así como en su momento por los mismos motivos metodológicos Marx estudió a Inglaterra.

Debido a lo anterior, la MIP se erige, por consiguiente, en el recurso estadístico idóneo por antonomasia para semejante tarea. Como es sabido, la MIP está compuesta en sus filas por los diferentes sectores que componen la producción de una economía, mientras que en sus columnas está compuesta por el consumo productivo (consumo intermedio) intersectorial (incluyendo el autoconsumo sectorial), i.e., por el desglose del consumo intermedio que cada sector realiza de los otros sectores y de sí mismo, necesario para un determinado nivel de producto final. En el SCN de U.S., la MIP se presenta seccionada en dos partes, por un lado, los conocidos cuadros de producción y, por otro lado, los cuadros de usos. Los cuadros de producción contienen en las filas los sectores del sistema económico y en las columnas la producción desagregada (por el tipo de mercancía -según industria a la que pertenece- que compone su producción); estos cuadros no deben confundirse con los cuadros de oferta y los cuadros de utilización conocidos como COU.

Sin embargo, como se puede verificar en las diversas investigaciones que representan en este sentido el estado del arte [(Kliman, The law of value and laws of statistics: sectoral values and prices in the US economy, 1977-97, 2002), (Cockshott & Cottrell, Robust correlations between prices and labor values, 2005), (Kliman, Reply to Cockshott and Cottrell, 2005), (Zachariah, 2006), (Sánchez & Ferràndez, Valores, precios de producción y precios de mercado a partir de los datos de la economía española, 2010), (Cockshott, Cottrell, & Valle Baeza, The Empirics of the Labour Theory of Value: Reply to Nitzan and Bichler, 2014), (Sánchez & Montibeler, La teoría del valor trabajo y los precios en China, 2015) y (Cockshott, Cottrell, & Zachariah, Against the Kliman theory, 2019)], únicamente en el estudio de Zachariah en 2006 se realiza una investigación multi regional, mientras que en las demás únicamente se analiza la MIP de algún año en particular, no se han realizado previamente estudios econométricos a largo plazo y esa es otra novedad de esta metodología.

Como se verifica en (NABI, 2021), en el SCN de U.S. las tablas (tanto de producción como de usos) son construidas bajo un enfoque metodológico híbrido de dos pasos, en el cual en el primer paso se obtienen las tablas empíricas (que son las que interesan en esta investigación) y en el segundo su derivación matemática, en donde al proceso que genera las tablas obtenidas en el primer paso se le conoce como proceso de redefinición y reasignación. Así, como se verifica en la fuente citada, así como la MIP permite un estudio más en profundidad de un sistema de economía política capitalista, la redefinición y reasignación permiten un estudio más profundo de la MIP como resultado de lograr al interior de esta estructura estadística un mayor grado de homogeneidad entre sus componentes o, desde una concepción más general sobre los sistemas, un menor grado de heterogeneidad.

Econométricamente hablando, es válido concebir la interrelación entre dos variables como el grado de asociación entre las mismas (independientemente de la orientación de tal asociación) y en ese sentido, es válido entonces pensar que un coeficiente de correlación entre los productos y sus insumos [puesto que tales insumos son provistos por las demás industrias (y en función de ellas son colocados dentro de la MIP)], es un indicador estadístico válido para inferir la magnitud de la interrelación industrial existente (que es una noción cualitativa como tal -la de interrelación industrial-), considerando además que la forma que toma la MIP es lineal (no por ello su forma revela su esencia, pero ese es el instrumento estadístico diseñado que existe y es posible utilizar en investigación empírica, uno de concepción lineal) y que todas las investigaciones antes referidas apuntan hacia la misma dirección.

La metodología empírica aquí planteada busca construir series temporales con la ayuda del programa estadístico R que permitan medir la interrelación entre las industrias mediante la correlación entre los productos y los insumos (los empleados para producirlos) según industria.

El sistema de cuentas nacionales (de ahora en adelante, SCN) de los Estados Unidos (de ahora en adelante, U.S.) es presentado a través de los cuadros de producción y los cuadros de usos (por separado), bajo la etiqueta de “Supply Table” para el caso del cuadro que contiene la producción de mercancías desglosada según sector industrial y “Use Table” para el caso del cuadro que contiene los datos de los insumos consumidos por cada sector industrial j-ésimo en la producción de cada mercancía correspondiente a cada sector industrial i-ésima, en donde i denota las filas y j las columnas.

El objetivo de este documento es proveer una metodología empírica para que sea posible construir una serie temporal del período 1997-2019 de la producción total de cada una de las 71 industrias que conforman el sistema de economía política estadounidense (ese es el máximo nivel de desagregación para el que se disponen estadísticas macroeconómicas para ese período), así como también de los insumos que cada una de esas industrias consume y autoconsume para generar el nivel de producto reportado en la MIP. Así, antes de proceder a explicar la metodología empírica aquí planteada, es conveniente recordar al lector que los datos obtenidos de la base de datos original son matrices insumo-producto (descompuestas en un cuadro de producción y en cuadro de usos), que por definición son datos de sección cruzada. Este tipo de estructura de datos requiere, al no existir de forma armónica y continua las estadísticas intertemporales (a lo largo del tiempo) de la MIP, una construcción tal que les proporcione una continuidad armónica de manera que puedan ser transformadas exitosamente en datos de panel (que son secciones cruzadas estudiadas analizadas en términos de series temporales, en este caso diferentes MIP a lo largo del período 1997-2019) y esa es precisamente la necesidad que la metodología empírica aquí planteada resuelve de forma automatizada mediante el uso del programa estadístico R (creando para ello una función personalizada en R, ad hoc para esta necesidad de investigación particular).

A continuación, se presentan dos imágenes. Una imagen muestra en la proporción mínima suficiente la estructura del cuadro de producción, mientras que la otra hace lo propio con el cuadro de usos.

Fuente: (U.S. Bureau of Economic Analysis, 2021).

Fuente: (U.S. Bureau of Economic Analysis, 2021).

Así, partiendo de los cuadros de producción (tablas de producción) desde 1997 hasta 2019, así como también las los cuadros de usos (tablas de consumo intermedio o consumo productivo), se deben realizar los siguientes pasos.

  1. Se extrae del cuadro de producción su última fila, la cual contiene el total de la producción de cada una de las industrias que conforman el sistema económico (para el caso de Estados Unidos en el período analizado, son 23 cuadros de producción, una por año, desde 1997 hasta 2019) desagregada a nivel de los sectores industriales que la producen. Así, cada uno de los veintitrés cuadros de producción que contienen los datos anuales sobre 71 industrias, tendrá un vector fila, por consiguiente, compuesto por 71 elementos.
  2. Se toma el cuadro de usos y se transpone, es decir, se intercambia la localización del contenido de sus filas por el de sus columnas y viceversa. Lo anterior se hace con la finalidad de que el consumo intermedio o consumo productivo que originalmente está en las columnas del cuadro de usos se localice ahora en las filas del cuadro de producción transpuesto al cuadro de producción original. Esto resultará útil para facilitar la automatización de la construcción del cuadro que contendrá la serie temporal deseada.
  3. Combinando el vector fila extraído del cuadro de producción y el cuadro de usos transpuesto, se generan 71 nuevas tablas. Cada una de estas tablas estará compuesta en su primera columna por el período temporal en cuestión (desde 1997 hasta 2019), en su segunda columna se localizarán cada uno de los sectores industriales que proveen insumos a otros y a sí mismos para la producción, en la tercera columna se indicará el número del sector industrial según su posición en los cuadros de producción-usos (puesto que son veintitrés años de estudio para las industrias en general y para cada una en particular, el número que indica la posición de cada sector industrial se repetirá en veintitrés ocasiones), en la cuarta columna se localizará la producción total de cada sector y, finalmente, en las n-4 (para este caso serán 71 columnas restantes) se localizarán cada uno de los sectores industriales que generan la producción social global. Así, se conformarán 71 tablas con la configuración antes descrita (una por sector industrial) y de esa tabla se obtienen las correlaciones producto-insumo, que es lo que se ejecutará en el siguiente paso.
  4. La tabla construida en el paso 3, que contiene los datos de panel de los 71 sectores industriales que conforman la economía estadounidense para el período 1997-2019, puede ser separada en 71 partes, en donde cada parte contiene los datos de panel de cada uno de los 71 sectores industriales de forma individual. Así, sobre cada uno de estos 71 paneles de datos generados se realiza el cálculo de correlación (el vector columna de la producción total de cada industria correlacionado en el tiempo con cada uno de los n-ésimos vectores columna que representan el aporte a nivel de insumos intermedios que cada uno de los sectores industriales proveyeron al producto en cuestión), guardándolo en el programa estadístico R dentro de una estructura de datos vectorial-fila y, finalmente, “apilando” los vectores fila para conformar la matriz de correlaciones de Pearson.
  5. Posteriormente se calcula un promedio ponderado de los coeficientes de correlación de Pearson de cada uno de los 71 sectores industriales (que expresa el coeficiente de correlación promedio ponderado de cada sector industrial), en donde el factor de ponderación es la participación relativa de cada insumo en el consumo intermedio total.
  6. Finalmente, cada uno de estos coeficientes intrasectoriales promedio ponderado (pertenecientes a cada sector) se vuelven a promediar ponderadamente para obtener el coeficiente de correlación promedio ponderado de todos los sectores industriales, i.e., el coeficiente de correlación que resume la interrelación entre todos los sectores industriales del sistema de economía política estadounidense. Aquí, el factor de ponderación es la participación relativa de cada sector industrial en el sistema económico.

Es evidente que como en esta investigación lo que interesa es conocer la magnitud de la interrelación sectorial y no el sentido de esa interrelación (expresado en el signo del coeficiente de correlación obtenido), a la hora de estimar los promedios se realizan los cálculos con los valores absolutos de estos coeficientes. A continuación, se presentan imágenes que contienen ordinalmente y de forma mínima y suficiente los cuadros estadísticos resultantes de los procedimientos descritos en los pasos comprendidos del 3 al 6.

Fuente: Elaboración propia, bajo la metodología descrita en el paso 3.

Fuente: Elaboración propia, bajo la metodología descrita en el paso 4.

Fuente: Elaboración propia, con los datos de la imagen anterior y la metodología descrita en el paso 4.

Fuente: Elaboración propia, bajo la metodología descrita en el paso 5.

Fuente: Elaboración propia, con los datos de la imagen anterior y la metodología descrita en el paso 5.

Fuente: Elaboración propia, bajo la metodología descrita en el paso 6.

Fuente: Elaboración propia, con los datos de la imagen anterior y la metodología descrita en el paso 6.

Como puede observarse, el promedio de las correlaciones incrementó de aproximadamente 0.68 antes de la primera ronda de ponderaciones hasta aproximadamente 0.78 tras la segunda ronda de ponderaciones. Así, es necesario plantear que, aún cuando tal o cual lector pueda tener desavenencias con la doble ponderación realizada, ya con la primera ponderación el coeficiente de correlación de Pearson alcanzaba una magnitud de 0.735, recordando que 0.70 es el estándar usual para determinar si una correlación es alta o no, específicamente si la correlación es superior al 0.70 se considera fuerte; además, incluso en el escenario poco racional en el que alguien pudiese cuestionar la validez metodológica de la primera ronda de ponderaciones, el coeficiente de determinación de Pearson era de 0.683, lo que lo separa en apenas 0.027 (o 2.7%, que es lo mismo, i.e., es lo que le faltaría para ser, en este ejemplo, 0.71) de ser una correlación fuerte. Lo anterior se expresa en el cuadro presentado a continuación.

Fuente: (Mindrila & Balentyne, 2021, pág. 9).

En conclusión, lo planteado por (Kuroki, 1985) no debe considerarse una condición a verificar sino un supuesto fundamental de todo modelo teórico sobre los sistemas de economía política capitalista lo suficientemente evolucionados. Al lector interesado en replicar o aplicar esta metodología empírica, puede serle de interés el código o “script” en R mediante el que se diseñó la función personalizada empleada para realizar los pasos descritos por la metodología planteada, así como también la base de datos original y las transformaciones más importantes sobre la misma[2].

REFERENCIAS

Cockshott, P., & Cottrell, A. (2005). Robust correlations between prices and labor values. Cambridge Journal of Economics, 309-316.

Cockshott, P., Cottrell, A., & Valle Baeza, A. (2014). The Empirics of the Labour Theory of Value: Reply to Nitzan and Bichler. Investigación Económica, 115-134.

Cockshott, P., Cottrell, A., & Zachariah, D. (2019, Marzo 29). Against the Kliman theory. Retrieved Marzo 22, 2021, from Paul Cockshott: http://paulcockshott.co.uk/publication-archive/Talks/politicaleconomy/Against%20the%20Kliman%20price%20theory.pdf

Kliman, A. (2002). The law of value and laws of statistics: sectoral values and prices in the US economy, 1977-97. Cambridge Journal of Economics, 299-311.

Kliman, A. (2005). Reply to Cockshott and Cottrell. Cambridge Journal of Economics, 317-323.

Kliman, A. (2014). What is spurious correlation? A reply to Díaz and Osuna. Journal of Post Keynesian Economics, 21(2), 345-356.

Kuroki, R. (1985). The Equalizartion of the Rate of Profit Reconsidered. In W. Semmler, Competition, Instability, and Nonlinear Cycles (pp. 35-50). New York: Springer-Velag.

Mindrila, D., & Balentyne, P. (2021, Febrero 2). Scatterplots and Correlation. Retrieved from University of West Georgia: https://www.westga.edu/academics/research/vrc/assets/docs/scatterplots_and_correlation_notes.pdf

NABI, I. (2021, Abril 1). SOBRE LA METODOLOGÍA DEL U.S. BUREAU OF ECONOMIC ANALYSIS PARA LA REDEFINICIÓN Y REASIGNACIÓN DE PRODUCTOS EN LA MATRIZ INSUMO-PRODUCTO DE ESTADOS UNIDOS. Retrieved from ECONOMÍA POLÍTICA: https://marxianstatistics.com/2021/04/01/sobre-la-metodologia-del-u-s-bureau-of-economic-analysis-para-la-redefinicion-y-reasignacion-de-productos-en-la-matriz-insumo-producto-de-estados-unidos/

Sánchez, C., & Ferràndez, M. N. (2010, Octubre-diciembre). Valores, precios de producción y precios de mercado a partir de los datos de la economía española. Investigación Económica, 87-118. Retrieved from https://www.jstor.org/stable/42779601?seq=1

Sánchez, C., & Montibeler, E. E. (2015). La teoría del valor trabajo y los precios en China. Economia e Sociedade, 329-354.

U.S. Bureau of Economic Analysis. (2021, Abril 1). The Domestic Supply of Commodities by Industries (Millions of dollars). Retrieved from Input-Output Accounts Data | Supplemental Estimate Tables. After Redefinition Tables. Make Tables/After Redefinitions – Production of commodities by industry after redefinition of secondary production ● 1997-2019: 71 Industries iTable: https://apps.bea.gov/iTable/iTable.cfm?reqid=58&step=102&isuri=1&table_list=5&aggregation=sum

U.S. Bureau of Economic Analysis. (2021, Abril 1). The Use of Commodities by Industries. Retrieved from Input-Output Accounts Data | Supplemental Estimate Tables. After Redefinition Tables. Use Tables/After Redefinitions/Producer Value – Use of commodities by industry after reallocation of inputs ● 1997-2019: 71 Industries iTable: https://apps.bea.gov/iTable/iTable.cfm?reqid=58&step=102&isuri=1&table_list=6&aggregation=sum

Zachariah, D. (2006, Junio). Labour value and equalisation of profit rates: a multi-country study. Indian Development Review, 4, 1-20.


[1] Aquí distinguimos “estadístico-matemático” de “estadístico” en el sentido de que el primer concepto transita por terrenos que versan sobre la aplicación de la Estadística Matemática a problemas concretos de la realidad (i.e., el abordaje científico de los datos), mientras que el segundo puede ser en el sentido antes definido, puede ser en su sentido puramente descriptivo o puede incluso ser lo que se entiende popularmente por ello.

[2] https://mega.nz/folder/mhtSCTbK#KNuyJr-BW2xo4LEqrYJn_g

SOBRE LOS ESTIMADORES DE BAYES, EL ANÁLISIS DE GRUPOS Y LAS MIXTURAS GAUSSIANAS

Un Análisis Teórico General del Paquete densityMclust del programa estadístico R

ISADORE NABI

ANÁLISIS DEL USO DEL CONTRASTE DE HIPÓTESIS EN EL CONTEXTO DE LA ESPECIFICACIÓN ÓPTIMA DE UN MODELO DE REGRESIÓN

ISADORE NABI