MODELO LOGIT O REGRESIÓN LOGÍSTICA

ISADORE NABI

Como se señala en (Aldrich & Nelson, 1984, págs. 30-31), la inferencia estadística comienza por asumir que el modelo que se va a estimar y utilizar para hacer inferencias está correctamente especificado. La presunción, i.e., el supuesto de partida, es que la teoría estadística-matemática correspondiente a tal o cual modelo estadístico es la que justifica el uso del mismo. Sin embargo, a lo planteado por los autores hay que agregar que es aún más importante que las propiedades reales del fenómeno a estudiar (establecidas por el marco científico mediante el cual se estudia) deben corresponderse en una magnitud mínima necesaria y suficiente con las propiedades matemáticas de tal o cual modelo estadístico. Los autores señalan que es bastante fácil demostrar que la especificación incorrecta del modelo tiene implicaciones realmente sustanciales, ya que todas las propiedades estadísticas de las estimaciones pueden destruirse. Para decirlo sin rodeos, la especificación incorrecta del modelo conduce a respuestas incorrectas.

Los autores también elaboran una maravilla gnoseológica en su argumentación, relativa a la justificación del difundido uso del supuesto de linealidad, estableciendo una versión modificada de la navaja de Occam, una que no implica reduccionismo filosófico, como sí lo suele ser la que utilizan, por ejemplo, los bayesianos subjetivos en los modelos parsimoniosos (y fue en ese sentido en el que la criticó también Albert Einstein):

“¿Por qué es tan popular la especificación lineal? Hay dos razones básicas (y relacionadas). En la práctica, los modelos lineales son matemáticamente simples, por lo que los estadísticos han podido aprender mucho sobre ellos, y se han escrito programas de computadora para hacer la estimación. Sobre bases teóricas, la simplicidad conduce a su adopción, justificada por una versión de la navaja de Occam: en ausencia de una guía teórica en sentido contrario, comience asumiendo el caso más simple. Así, la Navaja de Occam, por implicación, diría: Con alguna orientación teórica en sentido contrario, no asuma el caso más simple.” (Aldrich & Nelson, 1984, pág. 31).

La investigación completa se facilita en el siguiente documento:

UNA APROXIMACIÓN EMPÍRICA A ALGUNAS LAS PROPIEDADES TEÓRICAS DE LOS CONJUNTOS CON R STUDIO

ISADORE NABI & a.b.a.

CONJUNTO A UTILIZAR

CÓDIGO EN R

conjunto <- c(1:10) #Puede ser cualquier conjunto

I. PRODUCTO CARTESIANO

Ejemplo de producto cartesiano para el caso de dos conjuntos de tres elementos cada uno

CÓDIGO EN R

length(conjunto)*length(conjunto)
prod_cart <- expand.grid(conjunto, conjunto)

ii. CONJUNTO POTENCIA (SIGMA ÁLGEBRA)

Ejemplo de conjunto potencia o sigma álgebra de un conjunto de tres elementos

CÓDIGO EN R

2^10
library(rje)
c_potencia <- powerSet(conjunto)

iii. PERMUTACIONES SIN REPETICIÓN

Fórmula general para permutar un conjunto sin repetir elementos
Ejemplo de cómo permutar las letras de la palabra “APPLE” sin que se repitan letras

CÓDIGO EN R

perm_sin_rep = function(n, x) {
factorial(n) / factorial(n-x)
}

cantidad_perm_sin_rep <- 0
for(i in 1:10){
temp <- perm_sin_rep(10, i)
cantidad_perm_sin_rep <- cantidad_perm_sin_rep + temp
}

library(gtools)
permutaciones_sinrep <- list(permutations(10, 1, conjunto), permutations(10, 2, conjunto),
permutations(10, 3, conjunto), permutations(10, 4, conjunto),
permutations(10, 5, conjunto), permutations(10, 6, conjunto),
permutations(10, 7, conjunto), permutations(10, 8, conjunto),
permutations(10, 9, conjunto), permutations(10, 10, conjunto))

III. permutaciones con repetición

Fórmula general para permutar un conjunto repitiendo sus elementos
Lightbox
Ejemplo de permutaciones con repetición para el caso de un conjunto de cuatro elementos

CÓDIGO EN R

library(gtools)

permutations(10, 10, conjunto, set = FALSE)

IV. COMBINACIONES SIN REPETICIÓN

Fórmula general para calcular combinaciones sin repetición

CÓDIGO EN R

comb_sin_rep = function(n, x) {
factorial(n) / (factorial(x) * factorial(n – x)) # combinaciones sin repetición
}

cantidad_comb_sin_rep <- 0
for(i in 1:10){
temp <- comb_sin_rep(10, i)
cantidad_comb_sin_rep <- cantidad_comb_sin_rep + temp
}

library(gtools)
combinaciones_sinrep <- list(combinations(10, 1, conjunto), combinations(10, 2, conjunto),
combinations(10, 3, conjunto), combinations(10, 4, conjunto),
combinations(10, 5, conjunto), combinations(10, 6, conjunto),
combinations(10, 7, conjunto), combinations(10, 8, conjunto),
combinations(10, 9, conjunto), combinations(10, 10, conjunto))

V. COMBINACIONES CON REPETICIÓN

Fórmula general para calcular combinaciones con repetición

CÓDIGO EN R

comb_con_rep = function(n, x) {
factorial(n + x – 1) / (factorial(x) * factorial(n – 1)) # combinaciones con repetición
}

cantidad_comb_con_rep <- 0
for(i in 1:10){
temp <- comb_con_rep(10, i)
cantidad_comb_con_rep <- cantidad_comb_con_rep + temp
}

combinaciones_conrep <- list(combinations(10, 1, conjunto, repeats.allowed=TRUE),
combinations(10, 2, conjunto, repeats.allowed=TRUE),
combinations(10, 3, conjunto, repeats.allowed=TRUE),
combinations(10, 4, conjunto, repeats.allowed=TRUE),
combinations(10, 5, conjunto, repeats.allowed=TRUE),
combinations(10, 6, conjunto, repeats.allowed=TRUE),
combinations(10, 7, conjunto, repeats.allowed=TRUE),
combinations(10, 8, conjunto, repeats.allowed=TRUE),
combinations(10, 9, conjunto, repeats.allowed=TRUE),
combinations(10, 10, conjunto, repeats.allowed=TRUE))

CUADRO RESUMEN

Gráfica de Sedimentación

SOBRE EL ANÁLISIS DE COMPONENTES PRINCIPALES (PCA)

ISADORE NABI

REFERENCIAS

Adler, J. (2012). R in a Nutshell (Segunda ed.). Sebastopol, Crimea, Rusia: O’Reilly.

Alger, N. (4 de Marzo de 2013). Intuitively, what is the difference between Eigendecomposition and Singular Value Decomposition? Obtenido de StackExchange Mathematics: https://math.stackexchange.com/questions/320220/intuitively-what-is-the-difference-between-eigendecomposition-and-singular-valu

Bellman, R. (1972). Dynamic Programming (Sexta Impresión ed.). New Jersey: Princeton University Press.

Dunn, K. G. (3 de Marzo de 2021). Process Improvement Using Data. Hamilton, Ontario, Canadá: Learning Chemical Engineering. Obtenido de 6.5. Principal Component Analysis (PCA) | 6. Latent Variable Modelling: https://learnche.org/pid/PID.pdf?60da13

Jollife, I. (2002). Principal Component Analysis. New York: Springer-Verlag.

Minitab. (18 de Abril de 2019). Interpretar todos los estadísticos y gráficas para Análisis de componentes principales. Obtenido de Soporte de Minitab 18: https://support.minitab.com/es-mx/minitab/18/help-and-how-to/modeling-statistics/multivariate/how-to/principal-components/interpret-the-results/all-statistics-and-graphs/

MIT. (23 de Febrero de 2021). Linear transformations and their matrices. Obtenido de Linear Algebra: https://ocw.mit.edu/courses/mathematics/18-06sc-linear-algebra-fall-2011/positive-definite-matrices-and-applications/linear-transformations-and-their-matrices/MIT18_06SCF11_Ses3.6sum.pdf

Nabi, I. (2020). Sobre los Estimadores de Bayes, el Análisis de Grupos y las Mixturas Gaussianas. Documento inédito.

Nabi, I. (3 de Abril de 2021). ¿Por qué se realiza un ajuste por re-escalamiento, normalización o estandarización sobre los datos en el contexto del aprendizaje automático? Obtenido de El Blog de Isadore Nabi: https://marxianstatistics.com/2021/04/03/por-que-se-realiza-un-ajuste-por-re-escalamiento-normalizacion-o-estandarizacion-sobre-los-datos-en-el-contexto-del-aprendizaje-automatico/

Nabi, I. (2 de Abril de 2021). Una Interpretación Multidisciplinaria de los Espacios Característicos, Vectores Característicos y Valores Característicos. Obtenido de El Blog de Isadore Nabi: https://marxianstatistics.files.wordpress.com/2021/04/una-interpretacion-multidisciplinaria-de-los-espacios-caracteristicos-vectores-caracteristicos-y-valores-caracteristicos-isadore-nabi-1.pdf

Pearson, K. (1901). LIII. On lines and planes of closest fit to systems of points in space. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, II(11), 559-572. Obtenido de https://www.semanticscholar.org/paper/LIII.-On-lines-and-planes-of-closest-fit-to-systems-F.R.S./cac33f91e59f0a137b46176d74cee55c7010c3f8

Stack Exchange. (13 de Marzo de 2015). Understanding proof of isometry implies isomorphism. Obtenido de Mathematics: https://math.stackexchange.com/questions/1188730/understanding-proof-of-isometry-implies-isomorphism/1188732

Starmer, J. (2 de Abril de 2018). Principal Component Analysis (PCA). Obtenido de StatQuest: https://www.youtube.com/watch?v=FgakZw6K1QQ

Universidad Carlos III de Madrid. (7 de Noviembre de 2006). Análisis de Componentes Principales. Obtenido de Proceso de extracción de factores: http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/AMult/tema3am.pdf

Universitat de Girona. (24 de Enero de 2002). Número de factores a conservar. Obtenido de Análisis factorial: http://www3.udg.edu/dghha/cat/secciogeografia/prac/models/factorial(5).htm

Weisstein, E. (26 de Marzo de 2021). Projection. Obtenido de MathWorld – A Wolfram Web Resource: https://mathworld.wolfram.com/Projection.html

Weisstein, E. (26 de Marzo de 2021). Transformation. Obtenido de MathWorld – A Wolfram Web Resource: https://mathworld.wolfram.com/Transformation.html

Wikipedia. (4 de Noviembre de 2020). Curse of dimensionality. Obtenido de Numerical Analysis: https://en.wikipedia.org/wiki/Curse_of_dimensionality

Wikipedia. (25 de Octubre de 2020). Isomorfismo. Obtenido de Álgebra: https://es.wikipedia.org/wiki/Isomorfismo

Wikipedia. (26 de Marzo de 2021). Isomorphism. Obtenido de Equivalence (mathematics): https://en.wikipedia.org/wiki/Isomorphism

Wikipedia. (22 de Marzo de 2021). Transcripción genética. Obtenido de Biosíntesis: https://es.wikipedia.org/wiki/Transcripci%C3%B3n_gen%C3%A9tica

¿POR QUÉ SE REALIZA UN AJUSTE POR RE-ESCALAMIENTO, NORMALIZACIÓN O ESTANDARIZACIÓN SOBRE LOS DATOS EN EL CONTEXTO DEL APRENDIZAJE AUTOMÁTICO?

isadore nabi

I.                   Definiciones generales

Siguiendo a (Lakshmanan, 2019), es necesario definir las diferencias entre re-escalamiento, normalización y estandarización. Re-escalar un vector significa realizar alguna combinación lineal sobre él, es decir, “(…) sumar o restar una constante y luego multiplicar o dividir por una constante, como lo haría para cambiar las unidades de medida de los datos, por ejemplo, para convertir una temperatura de Celsius a Fahrenheit.” A su vez, normalizar un vector “(…) la mayoría de las veces significa dividir por una norma del vector. También se refiere a menudo al cambio de escala por el mínimo y el rango del vector, para hacer que todos los elementos se encuentren entre 0 y 1, lo que lleva todos los valores de las columnas numéricas del conjunto de datos a una escala común.”, mientras que estandarizar un vector significa “(…) la mayoría de las veces significa restar una medida de ubicación y dividir por una medida de escala. Por ejemplo, si el vector contiene valores aleatorios con una distribución gaussiana, puede restar la media y dividir por la desviación estándar, obteniendo así una variable aleatoria “normal estándar” con media 0 y desviación estándar 1.”

II.                Razones generales de uso

En general, las razones para realizar alguno de los tres ajustes anteriores en la etapa de preprocesamiento de los datos son diferentes para cada uno. Así, las razones por las que se debe estandarizar tienen que ver con que la estandarización “(…) de las características alrededor del centro y 0 con una desviación estándar de 1 es importante cuando comparamos medidas que tienen diferentes unidades. Las variables que se miden a diferentes escalas no contribuyen por igual al análisis y podrían terminar creando un sesgo”. En la misma dirección, “(…) el objetivo de la normalización es cambiar los valores de las columnas numéricas en el conjunto de datos a una escala común, sin distorsionar las diferencias en los rangos de valores. Para el aprendizaje automático, no todos los conjuntos de datos requieren normalización. Solo se requiere cuando las características tienen diferentes rangos.”

III.             Contextos de aplicación

La normalización es una buena técnica para usar cuando la distribución de sus datos o cuando sabe que la distribución no es gaussiana. La normalización es útil cuando sus datos tienen escalas variables y el algoritmo que se está utilizando no hace suposiciones sobre la distribución de las observaciones o puntos de datos, como k vecinos más cercanos y redes neuronales artificiales.

La estandarización asume que sus datos tienen una distribución gaussiana (curva de campana). Esto no tiene que ser estrictamente cierto, pero la técnica es más efectiva si su distribución de atributos es gaussiana. La estandarización es útil cuando sus datos tienen escalas variables y el algoritmo que está utilizando hace suposiciones acerca de que sus datos tienen una distribución gaussiana, como regresión lineal, regresión logística, entre otras.

Como se señala en el lugar citado, la normalización es recomendable cuando no conoce la distribución de las observaciones o cuando sabe que la distribución no es gaussiana. La normalización es útil cuando las observaciones tienen escalas variables y el algoritmo empleado no hace suposiciones sobre la distribución de las observaciones, como lo son K-vecinos más cercanos y las redes neuronales artificiales. Por otro lado, la estandarización asume que las observaciones tienen una distribución gaussiana. Esto no tiene que ser estrictamente cierto, pero la técnica es más efectiva si las observaciones siguen tal distribución. La estandarización es útil cuando los datos tienen escalas variables y el algoritmo que se está utilizando hace suposiciones acerca de que los datos tienen una distribución gaussiana, como es el caso de la regresión lineal, la regresión logística y el análisis discriminante lineal.

IV.              Algunas razones teóricas por las que el re-escalamiento, la normalización y la estandarización pueden robustecer a los algoritmos numéricos y a la calidad de los datos

En el contexto del aprendizaje automático a la estandarización se le conoce como re-escalamiento de características[i] (por su nombre en inglés, “feature scalling”) y consiste, siguiendo a (Saini, 2019), en poner los valores en el mismo rango o escala para que ninguna variable esté dominada por la otra y, con ello, se pueda estudiar su relación en términos de la menor heterogeneidad posible. La razón por la que la normalización contribuye a mejorar la robustez del algoritmo K-vecinos más cercanos es porque este algoritmo emplea la función distancia euclidiana, la cual es significativamente sensible a las magnitudes de las características, por lo que se deben normalizar (en el sentido antes definido) de tal forma que “todas pesen igual”. En el caso de la utilización del análisis de componentes principales (PCA) es de importancia fundamental el re-escalar las variables de estudio, porque ya que el PCA busca capturar (en las variables resultantes tras la reducción de dimensionalidad) la mayor variabilidad posible y siendo esto así, las características de mayor magnitud tendrán mayor variabilidad, por lo que estas características tendrán más peso (lo cual no necesariamente cierto en la totalidad de las ocasiones) y ello puede conducir al investigador a conclusiones falsas o a verdades a medias.

Por otro lado, considerando no el PCA globalmente sino únicamente la metodología numérica que lo orquesta, i.e., el método del gradiente descendiente, es posible acelerar el descenso de gradientes mediante el re-escalamiento, lo que implica una disminución considerable del costo computacional. Esta mejora en el desempeño de la metodología referida se debe a que θ descenderá rápidamente en rangos pequeños y lentamente en rangos grandes, por lo que oscilará ineficazmente hasta el óptimo cuando las variables sean muy desiguales, aspecto que corrige el re-escalamiento.

Por otro lado, el re-escalamiento tiene impacto en la calidad de los datos y es un proceso que se realiza en la etapa conocida como preprocesamiento.

Como se señala en (PowerData, 2016), “El preprocesamiento de datos es un paso preliminar durante el proceso de minería de datos. Se trata de cualquier tipo de procesamiento que se realiza con los datos brutos para transformarlos en datos que tengan formatos que sean más fáciles de utilizar (…) En el mundo real, los datos frecuentemente no están limpios, faltan valores clave, contienen inconsistencias y suelen mostrar ruido, conteniendo errores y valores atípicos. Sin un preprocesamiento de datos, estos errores en los datos sobrevivirían y disminuirían la calidad de la minería de datos (…) La falta de limpieza adecuada en los datos es el problema número uno en data warehousing. Algunos de las tareas de preprocesamiento de datos son las siguientes (…) Rellenar valores faltantes (…) Identificar y eliminar datos que se pueden considerar un ruido (…) Resolver redundancia (…) Corregir inconsistencias (…) Los datos están disponibles en varios formatos, tales como formas estáticas, categóricas, numéricas y dinámicas (…) Algunos ejemplos incluyen metadatos, webdata, texto, vídeo, audio e imágenes. Estas formas de datos tan variadas contribuyen a que el procesamiento de datos continuamente se encuentre con nuevos desafíos (…) Además de manejar datos faltantes, es esencial identificar las causas de la falta de datos para evitar que esos problemas evitables con los datos no vuelvan a ocurrir. Las soluciones para datos faltantes incluyen rellenar manualmente los valores perdidos y rellenar automáticamente con la palabra “desconocido” (…) La duplicación de datos puede ser un problema importante en minería de datos, ya que a menudo hace que se pierdan negocios, se pierda el tiempo y sea difícil de tratar. Un ejemplo común de un problema de duplicación de datos típico incluye varias llamadas de ventas al mismo contacto. Las posibles soluciones implican actualizaciones de software o cambiar la forma en que tu negocio controla la gestión de relaciones con clientes. Sin un plan específico y el software adecuado, es difícil eliminar la duplicación de datos (…) Otra fuente común de duplicación de datos es cuando una empresa tiene un número excesivo de bases de datos. Como parte de su preprocesamiento de datos debe revisar periódicamente oportunidades para reducir y eliminar algunas de esas bases de datos. Si no se hace, la duplicación de datos es probable que sea un problema recurrente con el que vas a tener que lidiar una y otra vez (…) Alcanzar la calidad de datos en minería de datos (…) La mayoría de las empresas quieren hacer un mejor uso de sus extensos datos, pero no están seguros acerca de por dónde empezar. La limpieza de datos es un primer paso prudente de un largo camino hacia la mejora de la calidad de los datos. La calidad de los datos puede ser un objetivo difícil de alcanzar sin una metodología eficaz que acelere la limpieza de datos: 1. Reconocer el problema e identificar las causas fundamentales (…) 2. Creación de una estrategia y visión de calidad de datos (…) 3. Priorizar la importancia de los datos (…) 4. Realización de evaluaciones de datos (…) 5. Estimación del ROI para mejorar la calidad de los datos frente al coste de no hacer nada (…) Establecer la responsabilidad de la calidad de los datos.”

Como señala (GeeksforGeeks, 2019), el re-escalamiento es un paso del preprocesamiento de datos que se aplica a variables independientes o características de los datos. Básicamente, ayuda a normalizar los datos dentro de un rango particular. A veces, también ayuda a acelerar los cálculos en un algoritmo, como se mencionó anteriormente.

Finalmente, es necesario acotar que las metodologías de naturaleza numérica-algorítmica conocidas como Naive Bayes, Análisis de Discriminante Lineal, Modelos de Árboles y todo procedimiento estadístico-matemático de la naturaleza antes descrita que no se base metodológicamente en la aplicación (de una u otra forma) de la función distancia del espacio en el que se analicen los datos, que es lo que en Ciencia de Datos se conoce como “algoritmos basados en la distancia”.

V.                REFERENCIAS

GeeksforGeeks. (14 de Octubre de 2019). How and where to apply Feature Scaling? Obtenido de Python: https://www.geeksforgeeks.org/python-how-and-where-to-apply-feature-scaling/

Lakshmanan, S. (16 de Mayo de 2019). How, When, and Why Should You Normalize / Standardize / Rescale Your Data? Obtenido de TOWARDS AI | DATA SCIENCE: https://towardsai.net/p/data-science/how-when-and-why-should-you-normalize-standardize-rescale-your-data-3f083def38ff

PowerData. (30 de Diciembre de 2016). Calidad de datos en minería de datos a través del preprocesamiento. Obtenido de Data Quality: https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/calidad-de-datos-en-mineria-de-datos-a-traves-del-preprocesamiento

Saini, R. (20 de Octubre de 2019). Feature Scaling- Why it is required? Obtenido de Medium: https://medium.com/@rahul77349/feature-scaling-why-it-is-required-8a93df1af310


[i] De hecho, la normalización y la estandarización son formas de re-escalamiento.

UNA METODOLOGÍA EMPÍRICA PARA LA DETERMINACIÓN DE LA MAGNITUD DE LAS INTERRELACIONES SECTORIALES DENTRO DE LA MATRIZ INSUMO-PRODUCTO DESDE LOS CUADROS DE PRODUCCIÓN Y USOS PARA EL CASO DE ESTADOS UNIDOS 1997-2019

ISADORE NABI & A.B.A.

Como es ampliamente conocido, la matriz insumo-producto (de ahora en adelante, MIP) es un cuadro estadístico de naturaleza macroeconómica y de presentación desagregada, el cual cristaliza la totalidad de la actividad económica anual de forma desagregada, que a su vez representa una especie de radiografía del sistema de economía política capitalista. En este sentido, la MIP es de importancia fundamental para estudiar el desempeño del sistema, sea en un período anual o a largo plazo. En el análisis de los fenómenos económicos, el abordaje estadístico-matemático[1] de las MIP es característico de la escuela marxista conocida como Nueva Interpretación, muy poco usado es en otras escuelas marxistas y en la ortodoxia, i.e., la escuela neomarginalista (mal llamada “neoclásica”), el análisis insumo-producto no es de especial interés desde más o menos la prehistoria de la síntesis neomarginalista, que data de la época de Paul Samuelson y Robert Solow suscitada alrededor del punto medio del epílogo del siglo pasado.

Existen investigaciones teóricas, como la de (Kuroki, 1985), en las que se afirma que existe en el largo plazo un proceso de ecualización de las tasas de ganancia industriales si y solo si los sectores del sistema de economía política están altamente interrelacionados. Al respecto, señala Kuroki que “Entonces podríamos concluir que solo el sistema en el que ambos sectores usan relativamente mucho la producción del otro como su propio insumo y, por lo tanto, el grado de interdependencia técnica es grande, tiene la tasa uniforme de ganancia estable (es decir, por ejemplo, la economía donde se necesita mucho trigo para hacer hierro y al mismo tiempo se usa mucho hierro para producir trigo).” (Kuroki, 1985, págs. 48-49). En esta investigación, se desea demostrar empíricamente que ese supuesto siempre se cumple, al menos para el caso de la economía política hegemónica a nivel planetario de las últimas décadas, puesto que se asume que es el caso representativo. Por ello, se estudiará el caso de Estados Unidos, así como en su momento por los mismos motivos metodológicos Marx estudió a Inglaterra.

Debido a lo anterior, la MIP se erige, por consiguiente, en el recurso estadístico idóneo por antonomasia para semejante tarea. Como es sabido, la MIP está compuesta en sus filas por los diferentes sectores que componen la producción de una economía, mientras que en sus columnas está compuesta por el consumo productivo (consumo intermedio) intersectorial (incluyendo el autoconsumo sectorial), i.e., por el desglose del consumo intermedio que cada sector realiza de los otros sectores y de sí mismo, necesario para un determinado nivel de producto final. En el SCN de U.S., la MIP se presenta seccionada en dos partes, por un lado, los conocidos cuadros de producción y, por otro lado, los cuadros de usos. Los cuadros de producción contienen en las filas los sectores del sistema económico y en las columnas la producción desagregada (por el tipo de mercancía -según industria a la que pertenece- que compone su producción); estos cuadros no deben confundirse con los cuadros de oferta y los cuadros de utilización conocidos como COU.

Sin embargo, como se puede verificar en las diversas investigaciones que representan en este sentido el estado del arte [(Kliman, The law of value and laws of statistics: sectoral values and prices in the US economy, 1977-97, 2002), (Cockshott & Cottrell, Robust correlations between prices and labor values, 2005), (Kliman, Reply to Cockshott and Cottrell, 2005), (Zachariah, 2006), (Sánchez & Ferràndez, Valores, precios de producción y precios de mercado a partir de los datos de la economía española, 2010), (Cockshott, Cottrell, & Valle Baeza, The Empirics of the Labour Theory of Value: Reply to Nitzan and Bichler, 2014), (Sánchez & Montibeler, La teoría del valor trabajo y los precios en China, 2015) y (Cockshott, Cottrell, & Zachariah, Against the Kliman theory, 2019)], únicamente en el estudio de Zachariah en 2006 se realiza una investigación multi regional, mientras que en las demás únicamente se analiza la MIP de algún año en particular, no se han realizado previamente estudios econométricos a largo plazo y esa es otra novedad de esta metodología.

Como se verifica en (NABI, 2021), en el SCN de U.S. las tablas (tanto de producción como de usos) son construidas bajo un enfoque metodológico híbrido de dos pasos, en el cual en el primer paso se obtienen las tablas empíricas (que son las que interesan en esta investigación) y en el segundo su derivación matemática, en donde al proceso que genera las tablas obtenidas en el primer paso se le conoce como proceso de redefinición y reasignación. Así, como se verifica en la fuente citada, así como la MIP permite un estudio más en profundidad de un sistema de economía política capitalista, la redefinición y reasignación permiten un estudio más profundo de la MIP como resultado de lograr al interior de esta estructura estadística un mayor grado de homogeneidad entre sus componentes o, desde una concepción más general sobre los sistemas, un menor grado de heterogeneidad.

Econométricamente hablando, es válido concebir la interrelación entre dos variables como el grado de asociación entre las mismas (independientemente de la orientación de tal asociación) y en ese sentido, es válido entonces pensar que un coeficiente de correlación entre los productos y sus insumos [puesto que tales insumos son provistos por las demás industrias (y en función de ellas son colocados dentro de la MIP)], es un indicador estadístico válido para inferir la magnitud de la interrelación industrial existente (que es una noción cualitativa como tal -la de interrelación industrial-), considerando además que la forma que toma la MIP es lineal (no por ello su forma revela su esencia, pero ese es el instrumento estadístico diseñado que existe y es posible utilizar en investigación empírica, uno de concepción lineal) y que todas las investigaciones antes referidas apuntan hacia la misma dirección.

La metodología empírica aquí planteada busca construir series temporales con la ayuda del programa estadístico R que permitan medir la interrelación entre las industrias mediante la correlación entre los productos y los insumos (los empleados para producirlos) según industria.

El sistema de cuentas nacionales (de ahora en adelante, SCN) de los Estados Unidos (de ahora en adelante, U.S.) es presentado a través de los cuadros de producción y los cuadros de usos (por separado), bajo la etiqueta de “Supply Table” para el caso del cuadro que contiene la producción de mercancías desglosada según sector industrial y “Use Table” para el caso del cuadro que contiene los datos de los insumos consumidos por cada sector industrial j-ésimo en la producción de cada mercancía correspondiente a cada sector industrial i-ésima, en donde i denota las filas y j las columnas.

El objetivo de este documento es proveer una metodología empírica para que sea posible construir una serie temporal del período 1997-2019 de la producción total de cada una de las 71 industrias que conforman el sistema de economía política estadounidense (ese es el máximo nivel de desagregación para el que se disponen estadísticas macroeconómicas para ese período), así como también de los insumos que cada una de esas industrias consume y autoconsume para generar el nivel de producto reportado en la MIP. Así, antes de proceder a explicar la metodología empírica aquí planteada, es conveniente recordar al lector que los datos obtenidos de la base de datos original son matrices insumo-producto (descompuestas en un cuadro de producción y en cuadro de usos), que por definición son datos de sección cruzada. Este tipo de estructura de datos requiere, al no existir de forma armónica y continua las estadísticas intertemporales (a lo largo del tiempo) de la MIP, una construcción tal que les proporcione una continuidad armónica de manera que puedan ser transformadas exitosamente en datos de panel (que son secciones cruzadas estudiadas analizadas en términos de series temporales, en este caso diferentes MIP a lo largo del período 1997-2019) y esa es precisamente la necesidad que la metodología empírica aquí planteada resuelve de forma automatizada mediante el uso del programa estadístico R (creando para ello una función personalizada en R, ad hoc para esta necesidad de investigación particular).

A continuación, se presentan dos imágenes. Una imagen muestra en la proporción mínima suficiente la estructura del cuadro de producción, mientras que la otra hace lo propio con el cuadro de usos.

Fuente: (U.S. Bureau of Economic Analysis, 2021).

Fuente: (U.S. Bureau of Economic Analysis, 2021).

Así, partiendo de los cuadros de producción (tablas de producción) desde 1997 hasta 2019, así como también las los cuadros de usos (tablas de consumo intermedio o consumo productivo), se deben realizar los siguientes pasos.

  1. Se extrae del cuadro de producción su última fila, la cual contiene el total de la producción de cada una de las industrias que conforman el sistema económico (para el caso de Estados Unidos en el período analizado, son 23 cuadros de producción, una por año, desde 1997 hasta 2019) desagregada a nivel de los sectores industriales que la producen. Así, cada uno de los veintitrés cuadros de producción que contienen los datos anuales sobre 71 industrias, tendrá un vector fila, por consiguiente, compuesto por 71 elementos.
  2. Se toma el cuadro de usos y se transpone, es decir, se intercambia la localización del contenido de sus filas por el de sus columnas y viceversa. Lo anterior se hace con la finalidad de que el consumo intermedio o consumo productivo que originalmente está en las columnas del cuadro de usos se localice ahora en las filas del cuadro de producción transpuesto al cuadro de producción original. Esto resultará útil para facilitar la automatización de la construcción del cuadro que contendrá la serie temporal deseada.
  3. Combinando el vector fila extraído del cuadro de producción y el cuadro de usos transpuesto, se generan 71 nuevas tablas. Cada una de estas tablas estará compuesta en su primera columna por el período temporal en cuestión (desde 1997 hasta 2019), en su segunda columna se localizarán cada uno de los sectores industriales que proveen insumos a otros y a sí mismos para la producción, en la tercera columna se indicará el número del sector industrial según su posición en los cuadros de producción-usos (puesto que son veintitrés años de estudio para las industrias en general y para cada una en particular, el número que indica la posición de cada sector industrial se repetirá en veintitrés ocasiones), en la cuarta columna se localizará la producción total de cada sector y, finalmente, en las n-4 (para este caso serán 71 columnas restantes) se localizarán cada uno de los sectores industriales que generan la producción social global. Así, se conformarán 71 tablas con la configuración antes descrita (una por sector industrial) y de esa tabla se obtienen las correlaciones producto-insumo, que es lo que se ejecutará en el siguiente paso.
  4. La tabla construida en el paso 3, que contiene los datos de panel de los 71 sectores industriales que conforman la economía estadounidense para el período 1997-2019, puede ser separada en 71 partes, en donde cada parte contiene los datos de panel de cada uno de los 71 sectores industriales de forma individual. Así, sobre cada uno de estos 71 paneles de datos generados se realiza el cálculo de correlación (el vector columna de la producción total de cada industria correlacionado en el tiempo con cada uno de los n-ésimos vectores columna que representan el aporte a nivel de insumos intermedios que cada uno de los sectores industriales proveyeron al producto en cuestión), guardándolo en el programa estadístico R dentro de una estructura de datos vectorial-fila y, finalmente, “apilando” los vectores fila para conformar la matriz de correlaciones de Pearson.
  5. Posteriormente se calcula un promedio ponderado de los coeficientes de correlación de Pearson de cada uno de los 71 sectores industriales (que expresa el coeficiente de correlación promedio ponderado de cada sector industrial), en donde el factor de ponderación es la participación relativa de cada insumo en el consumo intermedio total.
  6. Finalmente, cada uno de estos coeficientes intrasectoriales promedio ponderado (pertenecientes a cada sector) se vuelven a promediar ponderadamente para obtener el coeficiente de correlación promedio ponderado de todos los sectores industriales, i.e., el coeficiente de correlación que resume la interrelación entre todos los sectores industriales del sistema de economía política estadounidense. Aquí, el factor de ponderación es la participación relativa de cada sector industrial en el sistema económico.

Es evidente que como en esta investigación lo que interesa es conocer la magnitud de la interrelación sectorial y no el sentido de esa interrelación (expresado en el signo del coeficiente de correlación obtenido), a la hora de estimar los promedios se realizan los cálculos con los valores absolutos de estos coeficientes. A continuación, se presentan imágenes que contienen ordinalmente y de forma mínima y suficiente los cuadros estadísticos resultantes de los procedimientos descritos en los pasos comprendidos del 3 al 6.

Fuente: Elaboración propia, bajo la metodología descrita en el paso 3.

Fuente: Elaboración propia, bajo la metodología descrita en el paso 4.

Fuente: Elaboración propia, con los datos de la imagen anterior y la metodología descrita en el paso 4.

Fuente: Elaboración propia, bajo la metodología descrita en el paso 5.

Fuente: Elaboración propia, con los datos de la imagen anterior y la metodología descrita en el paso 5.

Fuente: Elaboración propia, bajo la metodología descrita en el paso 6.

Fuente: Elaboración propia, con los datos de la imagen anterior y la metodología descrita en el paso 6.

Como puede observarse, el promedio de las correlaciones incrementó de aproximadamente 0.68 antes de la primera ronda de ponderaciones hasta aproximadamente 0.78 tras la segunda ronda de ponderaciones. Así, es necesario plantear que, aún cuando tal o cual lector pueda tener desavenencias con la doble ponderación realizada, ya con la primera ponderación el coeficiente de correlación de Pearson alcanzaba una magnitud de 0.735, recordando que 0.70 es el estándar usual para determinar si una correlación es alta o no, específicamente si la correlación es superior al 0.70 se considera fuerte; además, incluso en el escenario poco racional en el que alguien pudiese cuestionar la validez metodológica de la primera ronda de ponderaciones, el coeficiente de determinación de Pearson era de 0.683, lo que lo separa en apenas 0.027 (o 2.7%, que es lo mismo, i.e., es lo que le faltaría para ser, en este ejemplo, 0.71) de ser una correlación fuerte. Lo anterior se expresa en el cuadro presentado a continuación.

Fuente: (Mindrila & Balentyne, 2021, pág. 9).

En conclusión, lo planteado por (Kuroki, 1985) no debe considerarse una condición a verificar sino un supuesto fundamental de todo modelo teórico sobre los sistemas de economía política capitalista lo suficientemente evolucionados. Al lector interesado en replicar o aplicar esta metodología empírica, puede serle de interés el código o “script” en R mediante el que se diseñó la función personalizada empleada para realizar los pasos descritos por la metodología planteada, así como también la base de datos original y las transformaciones más importantes sobre la misma[2].

REFERENCIAS

Cockshott, P., & Cottrell, A. (2005). Robust correlations between prices and labor values. Cambridge Journal of Economics, 309-316.

Cockshott, P., Cottrell, A., & Valle Baeza, A. (2014). The Empirics of the Labour Theory of Value: Reply to Nitzan and Bichler. Investigación Económica, 115-134.

Cockshott, P., Cottrell, A., & Zachariah, D. (2019, Marzo 29). Against the Kliman theory. Retrieved Marzo 22, 2021, from Paul Cockshott: http://paulcockshott.co.uk/publication-archive/Talks/politicaleconomy/Against%20the%20Kliman%20price%20theory.pdf

Kliman, A. (2002). The law of value and laws of statistics: sectoral values and prices in the US economy, 1977-97. Cambridge Journal of Economics, 299-311.

Kliman, A. (2005). Reply to Cockshott and Cottrell. Cambridge Journal of Economics, 317-323.

Kliman, A. (2014). What is spurious correlation? A reply to Díaz and Osuna. Journal of Post Keynesian Economics, 21(2), 345-356.

Kuroki, R. (1985). The Equalizartion of the Rate of Profit Reconsidered. In W. Semmler, Competition, Instability, and Nonlinear Cycles (pp. 35-50). New York: Springer-Velag.

Mindrila, D., & Balentyne, P. (2021, Febrero 2). Scatterplots and Correlation. Retrieved from University of West Georgia: https://www.westga.edu/academics/research/vrc/assets/docs/scatterplots_and_correlation_notes.pdf

NABI, I. (2021, Abril 1). SOBRE LA METODOLOGÍA DEL U.S. BUREAU OF ECONOMIC ANALYSIS PARA LA REDEFINICIÓN Y REASIGNACIÓN DE PRODUCTOS EN LA MATRIZ INSUMO-PRODUCTO DE ESTADOS UNIDOS. Retrieved from ECONOMÍA POLÍTICA: https://marxianstatistics.com/2021/04/01/sobre-la-metodologia-del-u-s-bureau-of-economic-analysis-para-la-redefinicion-y-reasignacion-de-productos-en-la-matriz-insumo-producto-de-estados-unidos/

Sánchez, C., & Ferràndez, M. N. (2010, Octubre-diciembre). Valores, precios de producción y precios de mercado a partir de los datos de la economía española. Investigación Económica, 87-118. Retrieved from https://www.jstor.org/stable/42779601?seq=1

Sánchez, C., & Montibeler, E. E. (2015). La teoría del valor trabajo y los precios en China. Economia e Sociedade, 329-354.

U.S. Bureau of Economic Analysis. (2021, Abril 1). The Domestic Supply of Commodities by Industries (Millions of dollars). Retrieved from Input-Output Accounts Data | Supplemental Estimate Tables. After Redefinition Tables. Make Tables/After Redefinitions – Production of commodities by industry after redefinition of secondary production ● 1997-2019: 71 Industries iTable: https://apps.bea.gov/iTable/iTable.cfm?reqid=58&step=102&isuri=1&table_list=5&aggregation=sum

U.S. Bureau of Economic Analysis. (2021, Abril 1). The Use of Commodities by Industries. Retrieved from Input-Output Accounts Data | Supplemental Estimate Tables. After Redefinition Tables. Use Tables/After Redefinitions/Producer Value – Use of commodities by industry after reallocation of inputs ● 1997-2019: 71 Industries iTable: https://apps.bea.gov/iTable/iTable.cfm?reqid=58&step=102&isuri=1&table_list=6&aggregation=sum

Zachariah, D. (2006, Junio). Labour value and equalisation of profit rates: a multi-country study. Indian Development Review, 4, 1-20.


[1] Aquí distinguimos “estadístico-matemático” de “estadístico” en el sentido de que el primer concepto transita por terrenos que versan sobre la aplicación de la Estadística Matemática a problemas concretos de la realidad (i.e., el abordaje científico de los datos), mientras que el segundo puede ser en el sentido antes definido, puede ser en su sentido puramente descriptivo o puede incluso ser lo que se entiende popularmente por ello.

[2] https://mega.nz/folder/mhtSCTbK#KNuyJr-BW2xo4LEqrYJn_g

LA CONJETURA DE COLLATZ COMO FUNCIÓN PERSONALIZADA EN R STUDIO

ISADORE NABI