INTRODUCCIÓN A LOS ENSAYOS CLÍNICOS DESDE LA TEORÍA ESTADÍSTICA Y RSTUDIO: ASOCIACIÓN Y CORRELACIÓN DE PEARSON, SPEARMAN Y KENDALL

isadore NABI

### DISTRIBUCIÓN CHI-CUADRADO

###ORÍGENES HISTÓRICOS Y GENERALIDADES: https://marxianstatistics.com/2021/09/10/generalidades-sobre-la-prueba-chi-cuadrado/

###En su forma general, la distribución Chi-Cuadrado es una suma de los cuadrados de variables aleatorias N(media=0, varianza=1), véase https://mathworld.wolfram.com/Chi-SquaredDistribution.html.

###Se utiliza para describir la distribución de una suma de variables aleatorias al cuadrado. También se utiliza para probar la bondad de ajuste de una distribución de datos, si las series de datos son independientes y para estimar las confianzas que rodean la varianza y la desviación estándar de una variable aleatoria de una distribución normal.

### COEFICIENTES DE CORRELACIÓN

###Coeficiente de Correlación de Pearson (prueba paramétrica): https://statistics.laerd.com/statistical-guides/pearson-correlation-coefficient-statistical-guide.php, https://www.wikiwand.com/en/Pearson_correlation_coefficient.

###Coeficiente de Correlación de Spearman (prueba no-paramétrica): https://statistics.laerd.com/statistical-guides/spearmans-rank-order-correlation-statistical-guide.php, https://www.wikiwand.com/en/Spearman%27s_rank_correlation_coefficient, https://www.statstutor.ac.uk/resources/uploaded/spearmans.pdf.

###Coeficiente de Correlación de Kendall (prueba no-paramétrica): https://www.statisticshowto.com/kendalls-tau/, https://towardsdatascience.com/kendall-rank-correlation-explained-dee01d99c535, https://personal.utdallas.edu/~herve/Abdi-KendallCorrelation2007-pretty.pdf, https://www.wikiwand.com/en/Kendall_rank_correlation_coefficient.

####Como se verifica en su forma más general [véase Jeremy M. G. Taylor, Kendall’s and Spearman’s Correlation Coefficient in the Presence of a Blocking Variable, (Biometrics, Vol. 43, No. 2 (Jun., 1987), pp.409-416), p. 409], en presencia de “empates”, conocidos también como “observaciones vinculadas” (del inglés “ties”, que, como se verifica en http://www.statistics4u.com/fundstat_eng/dd_ties.html, significa en el contexto de las estadísticas de clasificación de orden -rank order statistics- la existencia de dos o más observaciones que tienen el mismo valor, por lo que imposibilita la asignación de números de rango únicos), es preferible utilizar el coeficiente de correlación de Spearman rho porque su varianza posee una forma más simple (relacionado con el costo computacional, puesto que la investigación de Jeremy Taylor emplea como herramienta de estadística experimental la metodología Monte Carlo, lo que puede verificarse en https://pdodds.w3.uvm.edu/files/papers/others/1987/taylor1987a.pdf).

### RIESGO RELATIVO

####Como se verifica en https://www.wikiwand.com/en/Odds_ratio, el riesgo relativo (diferente a la razón éxito/fracaso y a la razón de momios) es la proporción de éxito de un evento (o de fracaso) en términos del total de ocurrencias (éxitos más fracasos).

### RAZÓN ÉXITO/FRACASO

####Es el cociente entre el número de veces que ocurre un evento y el número de veces en que no ocurre.

####INTERPRETACIÓN: Para interpretar la razón de ataque/no ataque de forma más intuitiva se debe multiplicar dicha razón Ψ (psi) por el número de decenas necesarias Ξ (Xi) para que la razón tenga un dígito d^*∈N a la izquierda del “punto decimal” (en este caso de aplicación hipotético Ξ=1000), resultando así un escalar real υ=Ψ*Ξ (donde υ es la letra griega ípsilon) con parte entera que se interpreta como “Por cada Ξ elementos de la población de referencia bajo la condición especificada (en este caso, que tomó aspirina o que tomó un placebo) estará presente la característica (u ocurrirá el evento, según sea el caso) en (d^*+h) ocasiones, en donde h es el infinitesimal a la derecha del punto decimal (llamado así porque separa no sólo los enteros de los infinitesimales, sino que a su derecha se encuentra la casilla correspondiente justamente a algún número decimal).

### RAZÓN DE MOMIOS

####DEFÍNICIÓN: Es una medida utilizada en estudios epidemiológicos transversales y de casos y controles, así como en los metaanálisis. En términos formales, se define como la posibilidad que una condición de salud o enfermedad se presente en un grupo de población frente al riesgo que ocurra en otro. En epidemiología, la comparación suele realizarse entre grupos humanos que presentan condiciones de vida similares, con la diferencia que uno se encuentra expuesto a un factor de riesgo (mi) mientras que el otro carece de esta característica (mo). Por lo tanto, la razón de momios o de posibilidades es una medida de tamaño de efecto.

####Nótese que es un concepto, evidentemente, de naturaleza frecuentista.

####La razón de momios es el cociente entre las razones de ocurrencia/no-ocurrencia de los tratamientos experimentales estudiados (una razón por cada uno de los dos tratamientos experimentales sujetos de comparación).

### TAMAÑO DEL EFECTO

####Defínase tamaño del efecto como cualquier medida realizada sobre algún conjunto de características (que puede ser de un elemento) relativas a cualquier fenómeno, que es utilizada para abordar una pregunta de interés, según (Kelly y Preacher 2012, 140). Tal y como ellos señalan, la definición es más que una combinación de “efecto” y “tamaño” porque depende explícitamente de la pregunta de investigación que se aborde. Ello significa que lo que separa a un tamaño de efecto de un estadístico de prueba (o estimador) es la orientación de su uso, si responde una pregunta de investigación en específico entonces el estadístico (o parámetro) se convierte en un “tamaño de efecto” y si sólo es parte de un proceso global de predicción entonces es un estadístico (o parámetro) a secas, i.e., su distinción o, expresado en otros términos, la identificación de cuándo un estadístico (o parámetro) se convierte en un tamaño de efecto, es una cuestión puramente epistemológica, no matemática. Lo anterior simplemente implica que, dependiendo del tipo de pregunta que se desee responder el investigador, un estadístico (o parámetro) será un tamaño de efecto o simplemente un estadístico (o parámetro) sin más.

setwd(“C:/Users/User/Desktop/Carpeta de Estudio/Maestría Profesional en Estadística/Semestre II-2021/Métodos, Regresión y Diseño de Experimentos/2/Laboratorios/Laboratorio 2”)

## ESTIMAR EL COEFICIENTE DE CORRELACIÓN DE PEARSON ENTRE TEMPERATURA Y PORCENTAJE DE CONVERSIÓN

###CÁLCULO MANUAL DE LA COVARIANZA

prom.temp = mean(temperatura)

prom.conversion = mean(porcentaje.conversion)

sd.temp = sd(temperatura)

sd.conversion = sd(porcentaje.conversion)

n = nrow(vinilacion)

covarianza = sum((temperatura-prom.temp)*(porcentaje.conversion-prom.conversion))/(n-1)

covarianza

###La covarianza es una medida para indicar el grado en el que dos variables aleatorias cambian en conjunto (véase https://www.mygreatlearning.com/blog/covariance-vs-correlation/#differencebetweencorrelationandcovariance).

###CÁLCULO DE LA COVARIANZA DE FORMA AUTOMATIZADA

cov(temperatura,porcentaje.conversion)

###CÁLCULO MANUAL DEL COEFICIENTE DE CORRELACIÓN DE PEARSON

###Véase https://www.wikiwand.com/en/Pearson_correlation_coefficient (9 de septiembre de 2021).

coef.correlacion = covarianza/(sd.temp*sd.conversion)

coef.correlacion

###CÁLCULO AUTOMATIZADO DEL COEFICIENTE DE CORRELACIÓN DE PEARSON

cor(temperatura,porcentaje.conversion) ###Salvo que se especifique lo contrario (como puede verificarse en la librería de R), el coeficiente de correlación calculado por defecto será el de Pearson, sin embargo, se puede calcular también el coeficiente de Kendall (escribiendo “kendall” en la casilla “method” de la sintaxis “cor”) o el de Spearman (escribiendo “spearman” en la casilla “method” de la sintaxis “cor”).

cor(presion,porcentaje.conversion)

###VÍNCULO, SIMILITUDES Y DIFERENCIAS ENTRE CORRELACIÓN Y COVARIANZA

###El coeficiente de correlación está íntimamente vinculado con la covarianza. La covarianza es una medida de correlación y el coeficiente de correlación es también una forma de medir la correlación (que difiere según sea de Pearson, Kendall o Spearman).

###La covarianza indica la dirección de la relación lineal entre variables, mientras que el coeficiente de correlación mide no sólo la dirección sino además la fuerza de esa relación lineal entre variables.

###La covarianza puede ir de menos infinito a más infinito, mientras que el coeficiente de correlación oscila entre -1 y 1.

###La covarianza se ve afectada por los cambios de escala: si todos los valores de una variable se multiplican por una constante y todos los valores de otra variable se multiplican por una constante similar o diferente, entonces se cambia la covarianza. La correlación no se ve influenciada por el cambio de escala.

###La covarianza asume las unidades del producto de las unidades de las dos variables. La correlación es adimensional, es decir, es una medida libre de unidades de la relación entre variables.

###La covarianza de dos variables dependientes mide cuánto en cantidad real (es decir, cm, kg, litros) en promedio covarían. La correlación de dos variables dependientes mide la proporción de cuánto varían en promedio estas variables entre sí.

###La covarianza es cero en el caso de variables independientes (si una variable se mueve y la otra no) porque entonces las variables no necesariamente se mueven juntas (por el supuesto de ortogonalidad entre los vectores, que expresa geométricamente su independencia lineal). Los movimientos independientes no contribuyen a la correlación total. Por tanto, las variables completamente independientes tienen una correlación cero.

## CREAR UNA MATRIZ DE CORRELACIONES DE PEARSON Y DE SPEARMAN

####La vinilación de los glucósidos se presenta cuando se les agrega acetileno a alta presión y alta temperatura, en presencia de una base para producir éteres de monovinil.

###Los productos de monovinil éter son útiles en varios procesos industriales de síntesis.

###Interesa determinar qué condiciones producen una conversión máxima de metil glucósidos para diversos isómeros de monovinil.

cor(vinilacion) ###Pearson

cor(vinilacion, method=”spearman”) ###Spearman

## CREAR UNA MATRIZ DE VARIANZAS Y COVARIANZAS (LOCALIZADAS ESTAS ÚLTIMAS EN LA DIAGONAL PRINCIPAL DE LA MATRIZ)

cov(vinilacion)

## GENERAR GRÁFICOS DE DISPERSIÓN

plot(temperatura,porcentaje.conversion)

plot(porcentaje.conversion~temperatura)

mod = lm(porcentaje.conversion~temperatura)

abline(mod,col=2)

###La sintaxis “lm” es usada para realizar ajuste de modelos lineales (es decir, ajustar un conjunto de datos a la curva dibujada por un modelo lineal -i.e., una línea recta-, lo cual -si es estadísticamente robusto- implica validar que el conjunto de datos en cuestión posee un patrón de comportamiento geométrico lineal).

###La sintaxis “lm” puede utilizar para el ajuste el método de los mínimos cuadrados ponderados o el método de mínimos cuadrados ordinarios, en función de si la opción “weights” se llena con un vector numérico o con “NULL”, respectivamente).

### La casilla “weights” de la sintaxis “lm” expresa las ponderaciones a utilizar para realizar el proceso de ajuste (si las ponderaciones son iguales para todas las observaciones, entonces el método de mínimos cuadrados ponderados se transforma en el método de mínimos cuadrados ordinarios). Estas ponderaciones son, en términos computacionales, aquellas que minimizan la suma ponderada de los errores al cuadrado.

###Las ponderaciones no nulas pueden user usadas para indicar diferentes varianzas (con los valores de las ponderaciones siendo inversamente proporcionales a la varianza); o, equivalentemente, cuando los elementos del vector de ponderaciones son enteros positivos w_i, en donde cada respuesta y_i es la media de las w_j unidades observacionales ponderadas (incluyendo el caso de que hay w_i observaciones iguales a y_i y los datos se han resumido).

###Sin embargo, en el último caso, observe que no se utiliza la variación dentro del grupo. Por lo tanto, la estimación sigma y los grados de libertad residuales pueden ser subóptimos; en el caso de pesos de replicación, incluso incorrecto. Por lo tanto, los errores estándar y las tablas de análisis de varianza deben tratarse con cuidado.

###La estimación sigma se refiere a la sintaxis “sigma” que estima la desviación estándar de los errores (véase https://stat.ethz.ch/R-manual/R-devel/library/stats/html/sigma.html).

###Si la variable de respuesta (o dependiente) es una matriz, un modelo lineal se ajusta por separado mediante mínimos cuadrados a cada columna de la matriz.

###Cabe mencionar que “formula” (la primera entrada de la sintaxis “lm”) tiene un término de intersección implícito (recuérdese que toda ecuación de regresión tiene un intercepto B_0, que puede ser nulo). Para eliminar dicho término, debe usarse y ~ x – 1 o y ~ 0 + x.

plot(presion~porcentaje.conversion)

mod = lm(presion~porcentaje.conversion) ###Ajuste a la recta antes mencionado y guardado bajo el nombre “mod”.

abline(mod,col=2) ###Es crear una línea color rojo (col=2) en la gráfica generada (con la función “mod”)

## REALIZAR PRUEBA DE HIPÓTESIS PARA EL COEFICIENTE DE CORRELACIÓN

###Véase https://opentextbc.ca/introstatopenstax/chapter/testing-the-significance-of-the-correlation-coefficient/, https://online.stat.psu.edu/stat501/lesson/1/1.9,

###Para estar casi seguros (en relación al concepto de convergencia) Para asegurar que existe al menos una leve correlación entre dos variables (X,Y) se tiene que probar que el coeficiente de correlación poblacional (r) no es nulo.

###Para que la prueba de hipótesis tenga validez se debe verificar que la distribución de Y para cada X es normal y que sus valores han sido seleccionados aleatoriamente.

###Si se rechaza la hipótesis nula, no se asegura que haya una correlación muy alta.

###Si el valor p es menor que el nivel de significancia se rechaza la Ho de que el coeficiente de correlación entre Y y X es cero en términos de determinado nivel de significancia estadística.

###Evaluar la significancia estadística de un coeficiente de correlación puede contribuir a validar o refutar una investigación donde este se haya utilizado (siempre que se cuenten con los datos empleados en la investigación), por ejemplo, en el uso de modelos lineales de predicción.

###Se puede utilizar la distribución t con n-2 grados de libertad para probar la hipótesis.

###Como se observará a continuación, además de la forma estándar, también es posible calcular t como la diferencia entre el coeficiente de correlación.

###Si la probabilidad asociada a la hipótesis nula es casi cero, puede afirmarse a un nivel de confianza determinado de que la correlación es altamente significativa en términos estadísticos.

###FORMA MANUAL

ee = sqrt((1-coef.correlacion^2)/(n-2))

t.calculado = (coef.correlacion-0)/ee ###Aquí parece implicarse que el valor t puede calcularse como el cociente entre el coeficiente de correlación muestral menos el coeficiente de correlación poblacional sobre el error estándar de la media.

2*(1-pt(t.calculado,n-2))

###FORMA AUTOMATIZADA

cor.test(temperatura,porcentaje.conversion) ###El valor del coeficiente de correlación que se ha estipulado (que es cero) debe encontrarse dentro del intervalo de confianza al nivel de probabilidad pertinente para aceptar Ho y, caso contrario, rechazarla.

cor.test(temperatura,presion)

###Como se señala en https://marxianstatistics.com/2021/09/05/analisis-teorico-de-la-funcion-cuantil-en-r-studio/,  calcula el valor umbral x por debajo del cual se encuentran las observaciones sobre el fenómeno de estudio en una proporción P de las ocasiones (nótese aquí una definición frecuentista de probabilidad), incluyendo el umbral en cuestión.

qt(0.975,6)

### EJEMPLO DE APROXIMACIÓN COMPUTACIONAL DE LA DISTRIBUCIÓN t DE STUDENT A LA DISTRIBUCIÓN NORMAL

###El intervalo de confianza se calcula realizando la transformación-z de Fisher (tanto con la función automatizada de R como con la función personalizada elaborada) como a nivel teórico), la cual se utiliza porque cuando la transformación se aplica al coeficiente de correlación muestral, la distribución muestral de la variable resultante es aproximadamente normal, lo que implica que posee una varianza que es estable sobre diferentes valores de la correlación verdadera subyacente (puede ampliarse más en https://en.wikipedia.org/wiki/Fisher_transformation).

coef.correlacion+c(-1,1)*qt(0.975,6)*ee ###Intervalo de confianza para el estadístico de prueba sujeto de hipótesis (el coeficiente de correlación, en este caso) distribuido como una distribución t de Student.

coef.correlacion+c(-1,1)*qnorm(0.975)*ee ###Intervalo de confianza para el estadístico de prueba sujeto de hipótesis (el coeficiente de correlación, en este caso) distribuido normalmente.

## CASO DE APLICACIÓN HIPOTÉTICO

###En un estudio sobre el metabolismo de una especie salvaje, un biólogo obtuvo índices de actividad y datos sobre tasas metabólicas para 20 animales observados en cautiverio.

rm(list=ls()) ###Remover todos los objetos de la lista

actividad <- read.csv(“actividad.csv”, sep = “,”, dec=”.”, header = T)

attach(actividad)

n=nrow(actividad)

str(actividad)####”str” es para ver qué tipo de dato es cada variable.

plot(Indice.actividad,Tasa.metabolica)

###Coeficiente de Correlación de Pearson

cor(Indice.actividad,Tasa.metabolica, method=”pearson”)

###Se rechaza la hipótesis nula de que la correlación de Pearson es 0.

###Coeficiente de correlación de Spearman

(corr = cor(Indice.actividad,Tasa.metabolica, method=”spearman”))

(t.s=corr*(sqrt((n-2)/(1-(corr^2)))))

(gl=n-2)

(1-pt(t.s,gl))*2

###Se rechaza la hipótesis nula de que la correlación de Spearman es 0.

###NOTA ADICIONAL:

###Ambas oscilan entre -1 y 1. El signo negativo denota la relacion inversa entre ambas. La correlacion de Pearson mide la relación lineal entre dos variables (correlacion 0 es independencia lineal, que los vectores son ortogonales). La correlación de Pearson es para variables numérica de razón y tiene el supuesto de normalidad en la distribución de los valores de los datos. Cuando los supuestos son altamente violados, lo mejor es usar una medida de correlación no-paramétrica, específicamente el coeficiente de Spearman. Sobre el coeficiente de Spearman se puede decir lo mismo en relación a la asociación. Así, valores de 0 indican correlación 0, pero no asegura que por ser cero las variables sean independientes (no es concluyente).

### TABLAS DE CONTINGENCIA Y PRUEBA DE INDEPENDENCIA

###Una tabla de contingencia es un arreglo para representar simultáneamente las cantidades de individuos y sus porcentajes que se presentan en cada celda al cruzar dos variables categóricas.

###En algunos casos una de las variables puede funcionar como respuesta y la otra como factor, pero en otros casos sólo interesa la relación entre ambas sin intentar explicar la dirección de la relación.

###CASO DE APLICACIÓN HIPOTÉTICO

###Un estudio de ensayos clínicos trataba de probar si la ingesta regular de aspirina reduce la mortalidad por enfermedades cardiovasculares. Los participantes en el estudio tomaron una aspirina o un placebo cada dos días. El estudio se hizo de tal forma que nadie sabía qué pastilla estaba tomando. La respuesta es que si presenta o no ataque cardiaco (2 niveles),

rm(list=ls())

aspirina = read.csv(“aspirina.csv”, sep = “,”, dec=”.”, header = T)

aspirina

str(aspirina)

attach(aspirina)

names(aspirina)

str(aspirina)

View(aspirina)

#### 1. Determinar las diferencias entre la proporción a la que ocurrió un ataque dependiendo de la pastilla que consumió. Identifique el porcentaje global en que presentó ataque y el porcentaje global en que no presentó.

e=tapply(aspirina$freq,list(ataque,pastilla),sum) ###Genera la estructura de la tabla con la que se trabajará (la base de datos organizada según el diseño experimental previamente realizado).

prop.table(e,2) ###Riesgo Relativo columna. Para verificar esto, contrástese lo expuesto al inicio de este documento con la documentación CRAN [accesible mediante la sintaxis “?prop.table”] para más detalles.

prop.table(e,1) ###Riesgo Relativo fila. Para verificar esto, contrástese lo expuesto al inicio de este documento con la documentación CRAN [accesible mediante la sintaxis “?prop.table”] para más detalles.

(et=addmargins(e)) ###Tabla de contingencia.

addmargins(prop.table(e)) ####Distribución porcentual completa.

###Si se asume que el tipo de pastilla no influye en el hecho de tener un ataque cardíaco, entonces, debería de haber igual porcentaje de ataques en la columna de médicos que tomaron aspirina que en la de los que tomaron placebo.

###Se obtiene el valor esperado de ataques y no ataques.

### Lo anterior se realiza bajo el supuesto de que hay un 1.3% de ataques en general y un 98.7% de no ataques.

#### 2. Usando los valores observados y esperados, calcular el valor de Chi-Cuadrado para determinar si existe dependencia entre ataque y pastilla?

###Al aplicar la distribución Chi cuadrado, que es una distribución continua, para representar un fenómeno discreto, como el número de casos en cada unos de los supuestos de la tabla de 2*2, existe un ligero fallo en la aproximación a la realidad. En números grandes, esta desviación es muy escasa, y puede desecharse, pero cuando las cantidades esperadas en alguna de las celdas son números pequeños- en general se toma como límite el que tengan menos de cinco elementos- la desviación puede ser más importante. Para evitarlo, Yates propuso en 1934 una corrección de los métodos empleados para hallar el Chi cuadrado, que mejora la concordancia entre los resultados del cálculo y la distribución Chi cuadrado. En el articulo anterior, correspondiente a Chi cuadrado,  el calculador expone, además de los resultados de Chi cuadrado, y las indicaciones para decidir, con arreglo a los límites de la distribución para cada uno de los errores alfa admitidos, el rechazar o no la hipótesis nula, una exposición de las frecuencias esperadas en cada una de las casillas de la tabla de contingencia, y la advertencia de que si alguna de ellas tiene un valor inferior a 5 debería emplearse la corrección de Yates. Fuente: https://www.samiuc.es/estadisticas-variables-binarias/valoracion-inicial-pruebas-diagnosticas/chi-cuadrado-correccion-yates/.

###Como se señala en [James E. Grizzle, Continuity Correction in the χ2-Test for 2 × 2 Tables, (The American Statistician, Oct., 1967, Vol. 21, No. 4 (Oct., 1967), pp. 28-32), p. 29-30], técnicamente hablando, la corrección de Yates hace que “(…) las probabilidades obtenidas bajo la distribución χ2 bajo la hipótesis nula converjan de forma más cercana con las probabilidades obtenidas bajo el supuesto de que el conjunto de datos fue generado por una muestra proveniente de la distribución hipergeométrica, i.e., generados bajo el supuesto que los dos márgenes de la tabla fueron fijados con antelación al muestreo.”

###Grizzle se refiere con “márgenes” a los totales de la tabla (véase https://www.tutorialspoint.com/how-to-create-a-contingency-table-with-sum-on-the-margins-from-an-r-data-frame). Además, la lógica de ello subyace en la misma definición matemática de la distribución hipergeométrica. Como se puede verificar en RStudio mediante la sintaxis “?rhyper”, la distribución hipergeométrica tiene la estructura matemática (distribución de probabilidad) p(x) = choose(m, x) choose(n, k-x)/choose(m+n, k), en donde m es el número de éxitos, n es el número de fracasos lo que ) y k es el tamaño de la muestra (tanto m, n y k son parámetros en función del conjunto de datos, evidentemente), con los primeros dos momentos definidos por E[X] = μ = k*p y la varianza se define como Var(X) = k p (1 – p) * (m+n-k)/(m+n-1). De lo anterior se deriva naturalmente que para realizar el análisis estocástico del fenómeno modelado con la distribución hipergeométrica es necesario conocer la cantidad de sujetos que representan los éxitos y los fracasos del experimento (en donde “éxito” y “fracaso” se define en función del planteamiento del experimento, lo cual a su vez obedece a múltiples factores) y ello implica que se debe conocer el total de los sujetos experimentales estudiados junto con su desglose en los términos binarios ya especificados.

###Lo mismo señalado por Grizzle se verifica (citando a Grizzle) en (Biometry, The Principles and Practice of Statistics in Biological Research, Robert E. Sokal & F. James Rohlf, Third Edition, p. 737), especificando que se vuelve innecesaria la corrección de Yates aún para muestras de 20 observaciones.

###Adicionalmente, merece mención el hecho que, como es sabido, la distribución binomial se utiliza con frecuencia para modelar el número de éxitos en una muestra de tamaño n extraída con reemplazo de una población de tamaño N. Sin embargo, si el muestreo se realiza sin reemplazo, las muestras extraídas no son independientes y, por lo tanto, la distribución resultante es una hipergeométrica; sin embargo, para N mucho más grande que n, la distribución binomial sigue siendo una buena aproximación y se usa ampliamente (véase https://www.wikiwand.com/en/Binomial_distribution).

###Grados de libertad correspondientes: número de filas menos 1 por número de columnas menos 1.

###Ho = Hay independencia entre el ataque y las pastillas.

(tabla.freq<-xtabs(freq~ataque+pastilla, data=aspirina))

###La tabla de frecuencias contiene tanto las frecuencias observadas como las esperadas.

###La frecuencia esperada es el conteo de observaciones que se espera en una celda, en promedio, si las variables son independientes.

###La frecuencia esperada de una variable se calcula como el producto entre el cociente [(Total de la Columna j)/(Total de Totales)]*(Total Fila i).

###PRUEBA CHI-CUADRADO AUTOMATIZADA

(prueba.chi<-chisq.test(tabla.freq,correct=F) ) ###La sintaxis “chisq.test” sirve para realizar la prueba de Chi-Cuadrado en tablas de contingencia y para realizar pruebas de bondad de ajuste.

names(prueba.chi)

###PRUEBA CHI-CUADRADO PASO A PASO

(esperado<-prueba.chi$expected) ###valores esperados

(observado<-prueba.chi$observed) ###valores observados

(cuadrados<-(esperado-observado)^2/esperado)

(chi<-sum(cuadrados))

1-pchisq(chi,1) ###Valor de p de la distribución Chi-Cuadrado (especificada mediante el conjunto de datos) calculado de forma no-automatizada.

###Si el valor p es mayor que el nivel de significancia se falla en rechazar Ho, si es menor se rechaza Ho.

###Se rechaza Ho con un nivel de significancia alfa de 0.05. Puesto que se tiene una probabilidad muy baja de cometer error tipo I, i.e., rechazar la hipótesis nula siendo falsa.

UNA METODOLOGÍA EMPÍRICA PARA LA DETERMINACIÓN DE LA MAGNITUD DE LAS INTERRELACIONES SECTORIALES DENTRO DE LA MATRIZ INSUMO-PRODUCTO DESDE LOS CUADROS DE PRODUCCIÓN Y USOS PARA EL CASO DE ESTADOS UNIDOS 1997-2019

ISADORE NABI & A.B.A.

Como es ampliamente conocido, la matriz insumo-producto (de ahora en adelante, MIP) es un cuadro estadístico de naturaleza macroeconómica y de presentación desagregada, el cual cristaliza la totalidad de la actividad económica anual de forma desagregada, que a su vez representa una especie de radiografía del sistema de economía política capitalista. En este sentido, la MIP es de importancia fundamental para estudiar el desempeño del sistema, sea en un período anual o a largo plazo. En el análisis de los fenómenos económicos, el abordaje estadístico-matemático[1] de las MIP es característico de la escuela marxista conocida como Nueva Interpretación, muy poco usado es en otras escuelas marxistas y en la ortodoxia, i.e., la escuela neomarginalista (mal llamada “neoclásica”), el análisis insumo-producto no es de especial interés desde más o menos la prehistoria de la síntesis neomarginalista, que data de la época de Paul Samuelson y Robert Solow suscitada alrededor del punto medio del epílogo del siglo pasado.

Existen investigaciones teóricas, como la de (Kuroki, 1985), en las que se afirma que existe en el largo plazo un proceso de ecualización de las tasas de ganancia industriales si y solo si los sectores del sistema de economía política están altamente interrelacionados. Al respecto, señala Kuroki que “Entonces podríamos concluir que solo el sistema en el que ambos sectores usan relativamente mucho la producción del otro como su propio insumo y, por lo tanto, el grado de interdependencia técnica es grande, tiene la tasa uniforme de ganancia estable (es decir, por ejemplo, la economía donde se necesita mucho trigo para hacer hierro y al mismo tiempo se usa mucho hierro para producir trigo).” (Kuroki, 1985, págs. 48-49). En esta investigación, se desea demostrar empíricamente que ese supuesto siempre se cumple, al menos para el caso de la economía política hegemónica a nivel planetario de las últimas décadas, puesto que se asume que es el caso representativo. Por ello, se estudiará el caso de Estados Unidos, así como en su momento por los mismos motivos metodológicos Marx estudió a Inglaterra.

Debido a lo anterior, la MIP se erige, por consiguiente, en el recurso estadístico idóneo por antonomasia para semejante tarea. Como es sabido, la MIP está compuesta en sus filas por los diferentes sectores que componen la producción de una economía, mientras que en sus columnas está compuesta por el consumo productivo (consumo intermedio) intersectorial (incluyendo el autoconsumo sectorial), i.e., por el desglose del consumo intermedio que cada sector realiza de los otros sectores y de sí mismo, necesario para un determinado nivel de producto final. En el SCN de U.S., la MIP se presenta seccionada en dos partes, por un lado, los conocidos cuadros de producción y, por otro lado, los cuadros de usos. Los cuadros de producción contienen en las filas los sectores del sistema económico y en las columnas la producción desagregada (por el tipo de mercancía -según industria a la que pertenece- que compone su producción); estos cuadros no deben confundirse con los cuadros de oferta y los cuadros de utilización conocidos como COU.

Sin embargo, como se puede verificar en las diversas investigaciones que representan en este sentido el estado del arte [(Kliman, The law of value and laws of statistics: sectoral values and prices in the US economy, 1977-97, 2002), (Cockshott & Cottrell, Robust correlations between prices and labor values, 2005), (Kliman, Reply to Cockshott and Cottrell, 2005), (Zachariah, 2006), (Sánchez & Ferràndez, Valores, precios de producción y precios de mercado a partir de los datos de la economía española, 2010), (Cockshott, Cottrell, & Valle Baeza, The Empirics of the Labour Theory of Value: Reply to Nitzan and Bichler, 2014), (Sánchez & Montibeler, La teoría del valor trabajo y los precios en China, 2015) y (Cockshott, Cottrell, & Zachariah, Against the Kliman theory, 2019)], únicamente en el estudio de Zachariah en 2006 se realiza una investigación multi regional, mientras que en las demás únicamente se analiza la MIP de algún año en particular, no se han realizado previamente estudios econométricos a largo plazo y esa es otra novedad de esta metodología.

Como se verifica en (NABI, 2021), en el SCN de U.S. las tablas (tanto de producción como de usos) son construidas bajo un enfoque metodológico híbrido de dos pasos, en el cual en el primer paso se obtienen las tablas empíricas (que son las que interesan en esta investigación) y en el segundo su derivación matemática, en donde al proceso que genera las tablas obtenidas en el primer paso se le conoce como proceso de redefinición y reasignación. Así, como se verifica en la fuente citada, así como la MIP permite un estudio más en profundidad de un sistema de economía política capitalista, la redefinición y reasignación permiten un estudio más profundo de la MIP como resultado de lograr al interior de esta estructura estadística un mayor grado de homogeneidad entre sus componentes o, desde una concepción más general sobre los sistemas, un menor grado de heterogeneidad.

Econométricamente hablando, es válido concebir la interrelación entre dos variables como el grado de asociación entre las mismas (independientemente de la orientación de tal asociación) y en ese sentido, es válido entonces pensar que un coeficiente de correlación entre los productos y sus insumos [puesto que tales insumos son provistos por las demás industrias (y en función de ellas son colocados dentro de la MIP)], es un indicador estadístico válido para inferir la magnitud de la interrelación industrial existente (que es una noción cualitativa como tal -la de interrelación industrial-), considerando además que la forma que toma la MIP es lineal (no por ello su forma revela su esencia, pero ese es el instrumento estadístico diseñado que existe y es posible utilizar en investigación empírica, uno de concepción lineal) y que todas las investigaciones antes referidas apuntan hacia la misma dirección.

La metodología empírica aquí planteada busca construir series temporales con la ayuda del programa estadístico R que permitan medir la interrelación entre las industrias mediante la correlación entre los productos y los insumos (los empleados para producirlos) según industria.

El sistema de cuentas nacionales (de ahora en adelante, SCN) de los Estados Unidos (de ahora en adelante, U.S.) es presentado a través de los cuadros de producción y los cuadros de usos (por separado), bajo la etiqueta de “Supply Table” para el caso del cuadro que contiene la producción de mercancías desglosada según sector industrial y “Use Table” para el caso del cuadro que contiene los datos de los insumos consumidos por cada sector industrial j-ésimo en la producción de cada mercancía correspondiente a cada sector industrial i-ésima, en donde i denota las filas y j las columnas.

El objetivo de este documento es proveer una metodología empírica para que sea posible construir una serie temporal del período 1997-2019 de la producción total de cada una de las 71 industrias que conforman el sistema de economía política estadounidense (ese es el máximo nivel de desagregación para el que se disponen estadísticas macroeconómicas para ese período), así como también de los insumos que cada una de esas industrias consume y autoconsume para generar el nivel de producto reportado en la MIP. Así, antes de proceder a explicar la metodología empírica aquí planteada, es conveniente recordar al lector que los datos obtenidos de la base de datos original son matrices insumo-producto (descompuestas en un cuadro de producción y en cuadro de usos), que por definición son datos de sección cruzada. Este tipo de estructura de datos requiere, al no existir de forma armónica y continua las estadísticas intertemporales (a lo largo del tiempo) de la MIP, una construcción tal que les proporcione una continuidad armónica de manera que puedan ser transformadas exitosamente en datos de panel (que son secciones cruzadas estudiadas analizadas en términos de series temporales, en este caso diferentes MIP a lo largo del período 1997-2019) y esa es precisamente la necesidad que la metodología empírica aquí planteada resuelve de forma automatizada mediante el uso del programa estadístico R (creando para ello una función personalizada en R, ad hoc para esta necesidad de investigación particular).

A continuación, se presentan dos imágenes. Una imagen muestra en la proporción mínima suficiente la estructura del cuadro de producción, mientras que la otra hace lo propio con el cuadro de usos.

Fuente: (U.S. Bureau of Economic Analysis, 2021).

Fuente: (U.S. Bureau of Economic Analysis, 2021).

Así, partiendo de los cuadros de producción (tablas de producción) desde 1997 hasta 2019, así como también las los cuadros de usos (tablas de consumo intermedio o consumo productivo), se deben realizar los siguientes pasos.

  1. Se extrae del cuadro de producción su última fila, la cual contiene el total de la producción de cada una de las industrias que conforman el sistema económico (para el caso de Estados Unidos en el período analizado, son 23 cuadros de producción, una por año, desde 1997 hasta 2019) desagregada a nivel de los sectores industriales que la producen. Así, cada uno de los veintitrés cuadros de producción que contienen los datos anuales sobre 71 industrias, tendrá un vector fila, por consiguiente, compuesto por 71 elementos.
  2. Se toma el cuadro de usos y se transpone, es decir, se intercambia la localización del contenido de sus filas por el de sus columnas y viceversa. Lo anterior se hace con la finalidad de que el consumo intermedio o consumo productivo que originalmente está en las columnas del cuadro de usos se localice ahora en las filas del cuadro de producción transpuesto al cuadro de producción original. Esto resultará útil para facilitar la automatización de la construcción del cuadro que contendrá la serie temporal deseada.
  3. Combinando el vector fila extraído del cuadro de producción y el cuadro de usos transpuesto, se generan 71 nuevas tablas. Cada una de estas tablas estará compuesta en su primera columna por el período temporal en cuestión (desde 1997 hasta 2019), en su segunda columna se localizarán cada uno de los sectores industriales que proveen insumos a otros y a sí mismos para la producción, en la tercera columna se indicará el número del sector industrial según su posición en los cuadros de producción-usos (puesto que son veintitrés años de estudio para las industrias en general y para cada una en particular, el número que indica la posición de cada sector industrial se repetirá en veintitrés ocasiones), en la cuarta columna se localizará la producción total de cada sector y, finalmente, en las n-4 (para este caso serán 71 columnas restantes) se localizarán cada uno de los sectores industriales que generan la producción social global. Así, se conformarán 71 tablas con la configuración antes descrita (una por sector industrial) y de esa tabla se obtienen las correlaciones producto-insumo, que es lo que se ejecutará en el siguiente paso.
  4. La tabla construida en el paso 3, que contiene los datos de panel de los 71 sectores industriales que conforman la economía estadounidense para el período 1997-2019, puede ser separada en 71 partes, en donde cada parte contiene los datos de panel de cada uno de los 71 sectores industriales de forma individual. Así, sobre cada uno de estos 71 paneles de datos generados se realiza el cálculo de correlación (el vector columna de la producción total de cada industria correlacionado en el tiempo con cada uno de los n-ésimos vectores columna que representan el aporte a nivel de insumos intermedios que cada uno de los sectores industriales proveyeron al producto en cuestión), guardándolo en el programa estadístico R dentro de una estructura de datos vectorial-fila y, finalmente, “apilando” los vectores fila para conformar la matriz de correlaciones de Pearson.
  5. Posteriormente se calcula un promedio ponderado de los coeficientes de correlación de Pearson de cada uno de los 71 sectores industriales (que expresa el coeficiente de correlación promedio ponderado de cada sector industrial), en donde el factor de ponderación es la participación relativa de cada insumo en el consumo intermedio total.
  6. Finalmente, cada uno de estos coeficientes intrasectoriales promedio ponderado (pertenecientes a cada sector) se vuelven a promediar ponderadamente para obtener el coeficiente de correlación promedio ponderado de todos los sectores industriales, i.e., el coeficiente de correlación que resume la interrelación entre todos los sectores industriales del sistema de economía política estadounidense. Aquí, el factor de ponderación es la participación relativa de cada sector industrial en el sistema económico.

Es evidente que como en esta investigación lo que interesa es conocer la magnitud de la interrelación sectorial y no el sentido de esa interrelación (expresado en el signo del coeficiente de correlación obtenido), a la hora de estimar los promedios se realizan los cálculos con los valores absolutos de estos coeficientes. A continuación, se presentan imágenes que contienen ordinalmente y de forma mínima y suficiente los cuadros estadísticos resultantes de los procedimientos descritos en los pasos comprendidos del 3 al 6.

Fuente: Elaboración propia, bajo la metodología descrita en el paso 3.

Fuente: Elaboración propia, bajo la metodología descrita en el paso 4.

Fuente: Elaboración propia, con los datos de la imagen anterior y la metodología descrita en el paso 4.

Fuente: Elaboración propia, bajo la metodología descrita en el paso 5.

Fuente: Elaboración propia, con los datos de la imagen anterior y la metodología descrita en el paso 5.

Fuente: Elaboración propia, bajo la metodología descrita en el paso 6.

Fuente: Elaboración propia, con los datos de la imagen anterior y la metodología descrita en el paso 6.

Como puede observarse, el promedio de las correlaciones incrementó de aproximadamente 0.68 antes de la primera ronda de ponderaciones hasta aproximadamente 0.78 tras la segunda ronda de ponderaciones. Así, es necesario plantear que, aún cuando tal o cual lector pueda tener desavenencias con la doble ponderación realizada, ya con la primera ponderación el coeficiente de correlación de Pearson alcanzaba una magnitud de 0.735, recordando que 0.70 es el estándar usual para determinar si una correlación es alta o no, específicamente si la correlación es superior al 0.70 se considera fuerte; además, incluso en el escenario poco racional en el que alguien pudiese cuestionar la validez metodológica de la primera ronda de ponderaciones, el coeficiente de determinación de Pearson era de 0.683, lo que lo separa en apenas 0.027 (o 2.7%, que es lo mismo, i.e., es lo que le faltaría para ser, en este ejemplo, 0.71) de ser una correlación fuerte. Lo anterior se expresa en el cuadro presentado a continuación.

Fuente: (Mindrila & Balentyne, 2021, pág. 9).

En conclusión, lo planteado por (Kuroki, 1985) no debe considerarse una condición a verificar sino un supuesto fundamental de todo modelo teórico sobre los sistemas de economía política capitalista lo suficientemente evolucionados. Al lector interesado en replicar o aplicar esta metodología empírica, puede serle de interés el código o “script” en R mediante el que se diseñó la función personalizada empleada para realizar los pasos descritos por la metodología planteada, así como también la base de datos original y las transformaciones más importantes sobre la misma[2].

REFERENCIAS

Cockshott, P., & Cottrell, A. (2005). Robust correlations between prices and labor values. Cambridge Journal of Economics, 309-316.

Cockshott, P., Cottrell, A., & Valle Baeza, A. (2014). The Empirics of the Labour Theory of Value: Reply to Nitzan and Bichler. Investigación Económica, 115-134.

Cockshott, P., Cottrell, A., & Zachariah, D. (2019, Marzo 29). Against the Kliman theory. Retrieved Marzo 22, 2021, from Paul Cockshott: http://paulcockshott.co.uk/publication-archive/Talks/politicaleconomy/Against%20the%20Kliman%20price%20theory.pdf

Kliman, A. (2002). The law of value and laws of statistics: sectoral values and prices in the US economy, 1977-97. Cambridge Journal of Economics, 299-311.

Kliman, A. (2005). Reply to Cockshott and Cottrell. Cambridge Journal of Economics, 317-323.

Kliman, A. (2014). What is spurious correlation? A reply to Díaz and Osuna. Journal of Post Keynesian Economics, 21(2), 345-356.

Kuroki, R. (1985). The Equalizartion of the Rate of Profit Reconsidered. In W. Semmler, Competition, Instability, and Nonlinear Cycles (pp. 35-50). New York: Springer-Velag.

Mindrila, D., & Balentyne, P. (2021, Febrero 2). Scatterplots and Correlation. Retrieved from University of West Georgia: https://www.westga.edu/academics/research/vrc/assets/docs/scatterplots_and_correlation_notes.pdf

NABI, I. (2021, Abril 1). SOBRE LA METODOLOGÍA DEL U.S. BUREAU OF ECONOMIC ANALYSIS PARA LA REDEFINICIÓN Y REASIGNACIÓN DE PRODUCTOS EN LA MATRIZ INSUMO-PRODUCTO DE ESTADOS UNIDOS. Retrieved from ECONOMÍA POLÍTICA: https://marxianstatistics.com/2021/04/01/sobre-la-metodologia-del-u-s-bureau-of-economic-analysis-para-la-redefinicion-y-reasignacion-de-productos-en-la-matriz-insumo-producto-de-estados-unidos/

Sánchez, C., & Ferràndez, M. N. (2010, Octubre-diciembre). Valores, precios de producción y precios de mercado a partir de los datos de la economía española. Investigación Económica, 87-118. Retrieved from https://www.jstor.org/stable/42779601?seq=1

Sánchez, C., & Montibeler, E. E. (2015). La teoría del valor trabajo y los precios en China. Economia e Sociedade, 329-354.

U.S. Bureau of Economic Analysis. (2021, Abril 1). The Domestic Supply of Commodities by Industries (Millions of dollars). Retrieved from Input-Output Accounts Data | Supplemental Estimate Tables. After Redefinition Tables. Make Tables/After Redefinitions – Production of commodities by industry after redefinition of secondary production ● 1997-2019: 71 Industries iTable: https://apps.bea.gov/iTable/iTable.cfm?reqid=58&step=102&isuri=1&table_list=5&aggregation=sum

U.S. Bureau of Economic Analysis. (2021, Abril 1). The Use of Commodities by Industries. Retrieved from Input-Output Accounts Data | Supplemental Estimate Tables. After Redefinition Tables. Use Tables/After Redefinitions/Producer Value – Use of commodities by industry after reallocation of inputs ● 1997-2019: 71 Industries iTable: https://apps.bea.gov/iTable/iTable.cfm?reqid=58&step=102&isuri=1&table_list=6&aggregation=sum

Zachariah, D. (2006, Junio). Labour value and equalisation of profit rates: a multi-country study. Indian Development Review, 4, 1-20.


[1] Aquí distinguimos “estadístico-matemático” de “estadístico” en el sentido de que el primer concepto transita por terrenos que versan sobre la aplicación de la Estadística Matemática a problemas concretos de la realidad (i.e., el abordaje científico de los datos), mientras que el segundo puede ser en el sentido antes definido, puede ser en su sentido puramente descriptivo o puede incluso ser lo que se entiende popularmente por ello.

[2] https://mega.nz/folder/mhtSCTbK#KNuyJr-BW2xo4LEqrYJn_g