APLICACIONES DEL MODELO DE REGRESIÓN LINEAL CLÁSICO EN R: UN ANÁLISIS TEÓRICO Y APLICADO A LA BIOESTADÍSTICA Y LA ECONOMÍA POLÍTICA

ISADORE NABI

CONTENIDO GENERAL

A. BIOESTADÍSTICA

A.1. Caso de aplicación

Se realizó un estudio para analizar la velocidad de nado de las personas mayores de 18 años que son miembros regulares de un equipo de natación, y se tomaron en cuenta algunas variables que pueden estar relacionadas con esta velocidad. Se hizo una prueba a los participantes y se tomó el tiempo que duraban en nadar 50m. Entonces como medida de la velocidad de nado se tiene el tiempo (en segundos) el cual se puede transformar a la velocidad dividiendo la distancia entre el tiempo. Esta variable se llama veloc. Como variables predictoras se tienen las siguientes:

  • edad: la edad en años cumplidos.
  • sexo: el sexo codificado como 0 (mujeres) y 1 (hombres).
  • imc: el índice de masa corporal se calcula dividiendo el peso en kilogramos entre la altura al cuadrado (en metros), lo cual da una medida en $kg/m^2$.
  • pierna: la longitud promedio de ambas piernas (en centímetros).
  • brazo: la longitud promedio de ambos brazos (en centímetros).

A.2. MÉTODOS Y TÉCNICAS ESTADÍSTICAS ESTUDIADAS Y APLICADAS

  • Análisis descriptivo con la sintaxis xyplot de la librería «lattice».
  • Análisis descriptivo con la sintaxis scatterplot de la librería «car».
  • Correlación lineal de Pearson.
  • Correlograma.
  • Estimación del valor esperado de la variable de respuesta.
  • Coeficientes de regresión estandarizados internamente y externamente.
  • Construccción manual y automatizada del modelo de regresión.
  • Construcción y descomposición manual de la suma de cuadrados.
  • Construcción manual y automatizada de intervalos de confianza t de Student.
  • Construcción manual y automatizada de los intervalos de predicción t de Student.
  • Construcción automatizada de los intervalos de tolerancia bayesianos normalmente distribuidos.
  • Ajuste de distribución de probabilidad.
  • Gráfico Q-Q.
  • Gráfico de probabilidad acumulada.
  • Gráfico P-P.
  • Pruebas de normalidad.
  • Simulación de estimación pseudo-aleatoria mediante una sintaxis de tipo bucle.
  • Efectos marginales.
  • Construcción manual de la prueba F.
  • Prueba de hipótesis de significancia global y local de los coeficientes de regresión.

b. ECONOMÍA POLÍTICA

B.1. cASO DE APLICACIÓN

Estudiar estadísticamente, como parte de un ejercicio pedagógico, los determinantes fundamentales lineales de la tasa media de ganancia para el caso de Estados Unidos en el período 1964-2008 mediante un análisis de regresión lineal.

B.2. MÉTODOS Y TÉCNICAS ESTADÍSTICAS ESTUDIADAS Y APLICADAS

  • Análisis descriptivo de tendencias con las sintaxis plot_ly y add_trace.
  • Análisis descriptivo de las influencias o ‘leverages’.
  • Construcción automatizada del modelo de regresión.
  • Verificación del modelo de mejor ajuste vía eliminación hacia atrás mediante el Criterio Bayesiano de Información (BIC).
  • Análisis de la capacidad predictiva del modelo.
  • Ajuste de distribución.
  • Contrastes de normalidad.
  • Distancia de Cook.
  • Pruebas de multicolinealidad.
  • Pruebas de autocorrelación.
  • Pruebas de heterocedasticidad.
  • Errores Estándar Robustos en presencia de Heterocedasticidad y Autocorrelación (Errores Estándar HAC).
  • Pruebas de especificación del modelo.
  • Construcción automatizada de intervalos de confianza t de Student.

FUNDAMENTOS GENERALES DE LA PROGRAMACIÓN EN R STUDIO: UN ENFOQUE ESTADÍSTICO-MATEMÁTICO

ISADORE NABI

INTRODUCCIÓN A LOS ENSAYOS CLÍNICOS DESDE LA TEORÍA ESTADÍSTICA Y RSTUDIO: ASOCIACIÓN Y CORRELACIÓN DE PEARSON, SPEARMAN Y KENDALL

isadore NABI

### DISTRIBUCIÓN CHI-CUADRADO

###ORÍGENES HISTÓRICOS Y GENERALIDADES: https://marxianstatistics.com/2021/09/10/generalidades-sobre-la-prueba-chi-cuadrado/

###En su forma general, la distribución Chi-Cuadrado es una suma de los cuadrados de variables aleatorias N(media=0, varianza=1), véase https://mathworld.wolfram.com/Chi-SquaredDistribution.html.

###Se utiliza para describir la distribución de una suma de variables aleatorias al cuadrado. También se utiliza para probar la bondad de ajuste de una distribución de datos, si las series de datos son independientes y para estimar las confianzas que rodean la varianza y la desviación estándar de una variable aleatoria de una distribución normal.

### COEFICIENTES DE CORRELACIÓN

###Coeficiente de Correlación de Pearson (prueba paramétrica): https://statistics.laerd.com/statistical-guides/pearson-correlation-coefficient-statistical-guide.php, https://www.wikiwand.com/en/Pearson_correlation_coefficient.

###Coeficiente de Correlación de Spearman (prueba no-paramétrica): https://statistics.laerd.com/statistical-guides/spearmans-rank-order-correlation-statistical-guide.php, https://www.wikiwand.com/en/Spearman%27s_rank_correlation_coefficient, https://www.statstutor.ac.uk/resources/uploaded/spearmans.pdf.

###Coeficiente de Correlación de Kendall (prueba no-paramétrica): https://www.statisticshowto.com/kendalls-tau/, https://towardsdatascience.com/kendall-rank-correlation-explained-dee01d99c535, https://personal.utdallas.edu/~herve/Abdi-KendallCorrelation2007-pretty.pdf, https://www.wikiwand.com/en/Kendall_rank_correlation_coefficient.

####Como se verifica en su forma más general [véase Jeremy M. G. Taylor, Kendall’s and Spearman’s Correlation Coefficient in the Presence of a Blocking Variable, (Biometrics, Vol. 43, No. 2 (Jun., 1987), pp.409-416), p. 409], en presencia de «empates», conocidos también como «observaciones vinculadas» (del inglés «ties», que, como se verifica en http://www.statistics4u.com/fundstat_eng/dd_ties.html, significa en el contexto de las estadísticas de clasificación de orden -rank order statistics- la existencia de dos o más observaciones que tienen el mismo valor, por lo que imposibilita la asignación de números de rango únicos), es preferible utilizar el coeficiente de correlación de Spearman rho porque su varianza posee una forma más simple (relacionado con el costo computacional, puesto que la investigación de Jeremy Taylor emplea como herramienta de estadística experimental la metodología Monte Carlo, lo que puede verificarse en https://pdodds.w3.uvm.edu/files/papers/others/1987/taylor1987a.pdf).

### RIESGO RELATIVO

####Como se verifica en https://www.wikiwand.com/en/Odds_ratio, el riesgo relativo (diferente a la razón éxito/fracaso y a la razón de momios) es la proporción de éxito de un evento (o de fracaso) en términos del total de ocurrencias (éxitos más fracasos).

### RAZÓN ÉXITO/FRACASO

####Es el cociente entre el número de veces que ocurre un evento y el número de veces en que no ocurre.

####INTERPRETACIÓN: Para interpretar la razón de ataque/no ataque de forma más intuitiva se debe multiplicar dicha razón Ψ (psi) por el número de decenas necesarias Ξ (Xi) para que la razón tenga un dígito d^*∈N a la izquierda del “punto decimal” (en este caso de aplicación hipotético Ξ=1000), resultando así un escalar real υ=Ψ*Ξ (donde υ es la letra griega ípsilon) con parte entera que se interpreta como “Por cada Ξ elementos de la población de referencia bajo la condición especificada (en este caso, que tomó aspirina o que tomó un placebo) estará presente la característica (u ocurrirá el evento, según sea el caso) en (d^*+h) ocasiones, en donde h es el infinitesimal a la derecha del punto decimal (llamado así porque separa no sólo los enteros de los infinitesimales, sino que a su derecha se encuentra la casilla correspondiente justamente a algún número decimal).

### RAZÓN DE MOMIOS

####DEFÍNICIÓN: Es una medida utilizada en estudios epidemiológicos transversales y de casos y controles, así como en los metaanálisis. En términos formales, se define como la posibilidad que una condición de salud o enfermedad se presente en un grupo de población frente al riesgo que ocurra en otro. En epidemiología, la comparación suele realizarse entre grupos humanos que presentan condiciones de vida similares, con la diferencia que uno se encuentra expuesto a un factor de riesgo (mi) mientras que el otro carece de esta característica (mo). Por lo tanto, la razón de momios o de posibilidades es una medida de tamaño de efecto.

####Nótese que es un concepto, evidentemente, de naturaleza frecuentista.

####La razón de momios es el cociente entre las razones de ocurrencia/no-ocurrencia de los tratamientos experimentales estudiados (una razón por cada uno de los dos tratamientos experimentales sujetos de comparación).

### TAMAÑO DEL EFECTO

####Defínase tamaño del efecto como cualquier medida realizada sobre algún conjunto de características (que puede ser de un elemento) relativas a cualquier fenómeno, que es utilizada para abordar una pregunta de interés, según (Kelly y Preacher 2012, 140). Tal y como ellos señalan, la definición es más que una combinación de «efecto» y «tamaño» porque depende explícitamente de la pregunta de investigación que se aborde. Ello significa que lo que separa a un tamaño de efecto de un estadístico de prueba (o estimador) es la orientación de su uso, si responde una pregunta de investigación en específico entonces el estadístico (o parámetro) se convierte en un «tamaño de efecto» y si sólo es parte de un proceso global de predicción entonces es un estadístico (o parámetro) a secas, i.e., su distinción o, expresado en otros términos, la identificación de cuándo un estadístico (o parámetro) se convierte en un tamaño de efecto, es una cuestión puramente epistemológica, no matemática. Lo anterior simplemente implica que, dependiendo del tipo de pregunta que se desee responder el investigador, un estadístico (o parámetro) será un tamaño de efecto o simplemente un estadístico (o parámetro) sin más.

setwd(«C:/Users/User/Desktop/Carpeta de Estudio/Maestría Profesional en Estadística/Semestre II-2021/Métodos, Regresión y Diseño de Experimentos/2/Laboratorios/Laboratorio 2»)

## ESTIMAR EL COEFICIENTE DE CORRELACIÓN DE PEARSON ENTRE TEMPERATURA Y PORCENTAJE DE CONVERSIÓN

###CÁLCULO MANUAL DE LA COVARIANZA

prom.temp = mean(temperatura)

prom.conversion = mean(porcentaje.conversion)

sd.temp = sd(temperatura)

sd.conversion = sd(porcentaje.conversion)

n = nrow(vinilacion)

covarianza = sum((temperatura-prom.temp)*(porcentaje.conversion-prom.conversion))/(n-1)

covarianza

###La covarianza es una medida para indicar el grado en el que dos variables aleatorias cambian en conjunto (véase https://www.mygreatlearning.com/blog/covariance-vs-correlation/#differencebetweencorrelationandcovariance).

###CÁLCULO DE LA COVARIANZA DE FORMA AUTOMATIZADA

cov(temperatura,porcentaje.conversion)

###CÁLCULO MANUAL DEL COEFICIENTE DE CORRELACIÓN DE PEARSON

###Véase https://www.wikiwand.com/en/Pearson_correlation_coefficient (9 de septiembre de 2021).

coef.correlacion = covarianza/(sd.temp*sd.conversion)

coef.correlacion

###CÁLCULO AUTOMATIZADO DEL COEFICIENTE DE CORRELACIÓN DE PEARSON

cor(temperatura,porcentaje.conversion) ###Salvo que se especifique lo contrario (como puede verificarse en la librería de R), el coeficiente de correlación calculado por defecto será el de Pearson, sin embargo, se puede calcular también el coeficiente de Kendall (escribiendo «kendall» en la casilla «method» de la sintaxis «cor») o el de Spearman (escribiendo «spearman» en la casilla «method» de la sintaxis «cor»).

cor(presion,porcentaje.conversion)

###VÍNCULO, SIMILITUDES Y DIFERENCIAS ENTRE CORRELACIÓN Y COVARIANZA

###El coeficiente de correlación está íntimamente vinculado con la covarianza. La covarianza es una medida de correlación y el coeficiente de correlación es también una forma de medir la correlación (que difiere según sea de Pearson, Kendall o Spearman).

###La covarianza indica la dirección de la relación lineal entre variables, mientras que el coeficiente de correlación mide no sólo la dirección sino además la fuerza de esa relación lineal entre variables.

###La covarianza puede ir de menos infinito a más infinito, mientras que el coeficiente de correlación oscila entre -1 y 1.

###La covarianza se ve afectada por los cambios de escala: si todos los valores de una variable se multiplican por una constante y todos los valores de otra variable se multiplican por una constante similar o diferente, entonces se cambia la covarianza. La correlación no se ve influenciada por el cambio de escala.

###La covarianza asume las unidades del producto de las unidades de las dos variables. La correlación es adimensional, es decir, es una medida libre de unidades de la relación entre variables.

###La covarianza de dos variables dependientes mide cuánto en cantidad real (es decir, cm, kg, litros) en promedio covarían. La correlación de dos variables dependientes mide la proporción de cuánto varían en promedio estas variables entre sí.

###La covarianza es cero en el caso de variables independientes (si una variable se mueve y la otra no) porque entonces las variables no necesariamente se mueven juntas (por el supuesto de ortogonalidad entre los vectores, que expresa geométricamente su independencia lineal). Los movimientos independientes no contribuyen a la correlación total. Por tanto, las variables completamente independientes tienen una correlación cero.

## CREAR UNA MATRIZ DE CORRELACIONES DE PEARSON Y DE SPEARMAN

####La vinilación de los glucósidos se presenta cuando se les agrega acetileno a alta presión y alta temperatura, en presencia de una base para producir éteres de monovinil.

###Los productos de monovinil éter son útiles en varios procesos industriales de síntesis.

###Interesa determinar qué condiciones producen una conversión máxima de metil glucósidos para diversos isómeros de monovinil.

cor(vinilacion) ###Pearson

cor(vinilacion, method=»spearman») ###Spearman

## CREAR UNA MATRIZ DE VARIANZAS Y COVARIANZAS (LOCALIZADAS ESTAS ÚLTIMAS EN LA DIAGONAL PRINCIPAL DE LA MATRIZ)

cov(vinilacion)

## GENERAR GRÁFICOS DE DISPERSIÓN

plot(temperatura,porcentaje.conversion)

plot(porcentaje.conversion~temperatura)

mod = lm(porcentaje.conversion~temperatura)

abline(mod,col=2)

###La sintaxis «lm» es usada para realizar ajuste de modelos lineales (es decir, ajustar un conjunto de datos a la curva dibujada por un modelo lineal -i.e., una línea recta-, lo cual -si es estadísticamente robusto- implica validar que el conjunto de datos en cuestión posee un patrón de comportamiento geométrico lineal).

###La sintaxis «lm» puede utilizar para el ajuste el método de los mínimos cuadrados ponderados o el método de mínimos cuadrados ordinarios, en función de si la opción «weights» se llena con un vector numérico o con «NULL», respectivamente).

### La casilla «weights» de la sintaxis «lm» expresa las ponderaciones a utilizar para realizar el proceso de ajuste (si las ponderaciones son iguales para todas las observaciones, entonces el método de mínimos cuadrados ponderados se transforma en el método de mínimos cuadrados ordinarios). Estas ponderaciones son, en términos computacionales, aquellas que minimizan la suma ponderada de los errores al cuadrado.

###Las ponderaciones no nulas pueden user usadas para indicar diferentes varianzas (con los valores de las ponderaciones siendo inversamente proporcionales a la varianza); o, equivalentemente, cuando los elementos del vector de ponderaciones son enteros positivos w_i, en donde cada respuesta y_i es la media de las w_j unidades observacionales ponderadas (incluyendo el caso de que hay w_i observaciones iguales a y_i y los datos se han resumido).

###Sin embargo, en el último caso, observe que no se utiliza la variación dentro del grupo. Por lo tanto, la estimación sigma y los grados de libertad residuales pueden ser subóptimos; en el caso de pesos de replicación, incluso incorrecto. Por lo tanto, los errores estándar y las tablas de análisis de varianza deben tratarse con cuidado.

###La estimación sigma se refiere a la sintaxis «sigma» que estima la desviación estándar de los errores (véase https://stat.ethz.ch/R-manual/R-devel/library/stats/html/sigma.html).

###Si la variable de respuesta (o dependiente) es una matriz, un modelo lineal se ajusta por separado mediante mínimos cuadrados a cada columna de la matriz.

###Cabe mencionar que «formula» (la primera entrada de la sintaxis «lm») tiene un término de intersección implícito (recuérdese que toda ecuación de regresión tiene un intercepto B_0, que puede ser nulo). Para eliminar dicho término, debe usarse y ~ x – 1 o y ~ 0 + x.

plot(presion~porcentaje.conversion)

mod = lm(presion~porcentaje.conversion) ###Ajuste a la recta antes mencionado y guardado bajo el nombre «mod».

abline(mod,col=2) ###Es crear una línea color rojo (col=2) en la gráfica generada (con la función «mod»)

## REALIZAR PRUEBA DE HIPÓTESIS PARA EL COEFICIENTE DE CORRELACIÓN

###Véase https://opentextbc.ca/introstatopenstax/chapter/testing-the-significance-of-the-correlation-coefficient/, https://online.stat.psu.edu/stat501/lesson/1/1.9,

###Para estar casi seguros (en relación al concepto de convergencia) Para asegurar que existe al menos una leve correlación entre dos variables (X,Y) se tiene que probar que el coeficiente de correlación poblacional (r) no es nulo.

###Para que la prueba de hipótesis tenga validez se debe verificar que la distribución de Y para cada X es normal y que sus valores han sido seleccionados aleatoriamente.

###Si se rechaza la hipótesis nula, no se asegura que haya una correlación muy alta.

###Si el valor p es menor que el nivel de significancia se rechaza la Ho de que el coeficiente de correlación entre Y y X es cero en términos de determinado nivel de significancia estadística.

###Evaluar la significancia estadística de un coeficiente de correlación puede contribuir a validar o refutar una investigación donde este se haya utilizado (siempre que se cuenten con los datos empleados en la investigación), por ejemplo, en el uso de modelos lineales de predicción.

###Se puede utilizar la distribución t con n-2 grados de libertad para probar la hipótesis.

###Como se observará a continuación, además de la forma estándar, también es posible calcular t como la diferencia entre el coeficiente de correlación.

###Si la probabilidad asociada a la hipótesis nula es casi cero, puede afirmarse a un nivel de confianza determinado de que la correlación es altamente significativa en términos estadísticos.

###FORMA MANUAL

ee = sqrt((1-coef.correlacion^2)/(n-2))

t.calculado = (coef.correlacion-0)/ee ###Aquí parece implicarse que el valor t puede calcularse como el cociente entre el coeficiente de correlación muestral menos el coeficiente de correlación poblacional sobre el error estándar de la media.

2*(1-pt(t.calculado,n-2))

###FORMA AUTOMATIZADA

cor.test(temperatura,porcentaje.conversion) ###El valor del coeficiente de correlación que se ha estipulado (que es cero) debe encontrarse dentro del intervalo de confianza al nivel de probabilidad pertinente para aceptar Ho y, caso contrario, rechazarla.

cor.test(temperatura,presion)

###Como se señala en https://marxianstatistics.com/2021/09/05/analisis-teorico-de-la-funcion-cuantil-en-r-studio/,  calcula el valor umbral x por debajo del cual se encuentran las observaciones sobre el fenómeno de estudio en una proporción P de las ocasiones (nótese aquí una definición frecuentista de probabilidad), incluyendo el umbral en cuestión.

qt(0.975,6)

### EJEMPLO DE APROXIMACIÓN COMPUTACIONAL DE LA DISTRIBUCIÓN t DE STUDENT A LA DISTRIBUCIÓN NORMAL

###El intervalo de confianza se calcula realizando la transformación-z de Fisher (tanto con la función automatizada de R como con la función personalizada elaborada) como a nivel teórico), la cual se utiliza porque cuando la transformación se aplica al coeficiente de correlación muestral, la distribución muestral de la variable resultante es aproximadamente normal, lo que implica que posee una varianza que es estable sobre diferentes valores de la correlación verdadera subyacente (puede ampliarse más en https://en.wikipedia.org/wiki/Fisher_transformation).

coef.correlacion+c(-1,1)*qt(0.975,6)*ee ###Intervalo de confianza para el estadístico de prueba sujeto de hipótesis (el coeficiente de correlación, en este caso) distribuido como una distribución t de Student.

coef.correlacion+c(-1,1)*qnorm(0.975)*ee ###Intervalo de confianza para el estadístico de prueba sujeto de hipótesis (el coeficiente de correlación, en este caso) distribuido normalmente.

## CASO DE APLICACIÓN HIPOTÉTICO

###En un estudio sobre el metabolismo de una especie salvaje, un biólogo obtuvo índices de actividad y datos sobre tasas metabólicas para 20 animales observados en cautiverio.

rm(list=ls()) ###Remover todos los objetos de la lista

actividad <- read.csv(«actividad.csv», sep = «,», dec=».», header = T)

attach(actividad)

n=nrow(actividad)

str(actividad)####»str» es para ver qué tipo de dato es cada variable.

plot(Indice.actividad,Tasa.metabolica)

###Coeficiente de Correlación de Pearson

cor(Indice.actividad,Tasa.metabolica, method=»pearson»)

###Se rechaza la hipótesis nula de que la correlación de Pearson es 0.

###Coeficiente de correlación de Spearman

(corr = cor(Indice.actividad,Tasa.metabolica, method=»spearman»))

(t.s=corr*(sqrt((n-2)/(1-(corr^2)))))

(gl=n-2)

(1-pt(t.s,gl))*2

###Se rechaza la hipótesis nula de que la correlación de Spearman es 0.

###NOTA ADICIONAL:

###Ambas oscilan entre -1 y 1. El signo negativo denota la relacion inversa entre ambas. La correlacion de Pearson mide la relación lineal entre dos variables (correlacion 0 es independencia lineal, que los vectores son ortogonales). La correlación de Pearson es para variables numérica de razón y tiene el supuesto de normalidad en la distribución de los valores de los datos. Cuando los supuestos son altamente violados, lo mejor es usar una medida de correlación no-paramétrica, específicamente el coeficiente de Spearman. Sobre el coeficiente de Spearman se puede decir lo mismo en relación a la asociación. Así, valores de 0 indican correlación 0, pero no asegura que por ser cero las variables sean independientes (no es concluyente).

### TABLAS DE CONTINGENCIA Y PRUEBA DE INDEPENDENCIA

###Una tabla de contingencia es un arreglo para representar simultáneamente las cantidades de individuos y sus porcentajes que se presentan en cada celda al cruzar dos variables categóricas.

###En algunos casos una de las variables puede funcionar como respuesta y la otra como factor, pero en otros casos sólo interesa la relación entre ambas sin intentar explicar la dirección de la relación.

###CASO DE APLICACIÓN HIPOTÉTICO

###Un estudio de ensayos clínicos trataba de probar si la ingesta regular de aspirina reduce la mortalidad por enfermedades cardiovasculares. Los participantes en el estudio tomaron una aspirina o un placebo cada dos días. El estudio se hizo de tal forma que nadie sabía qué pastilla estaba tomando. La respuesta es que si presenta o no ataque cardiaco (2 niveles),

rm(list=ls())

aspirina = read.csv(«aspirina.csv», sep = «,», dec=».», header = T)

aspirina

str(aspirina)

attach(aspirina)

names(aspirina)

str(aspirina)

View(aspirina)

#### 1. Determinar las diferencias entre la proporción a la que ocurrió un ataque dependiendo de la pastilla que consumió. Identifique el porcentaje global en que presentó ataque y el porcentaje global en que no presentó.

e=tapply(aspirina$freq,list(ataque,pastilla),sum) ###Genera la estructura de la tabla con la que se trabajará (la base de datos organizada según el diseño experimental previamente realizado).

prop.table(e,2) ###Riesgo Relativo columna. Para verificar esto, contrástese lo expuesto al inicio de este documento con la documentación CRAN [accesible mediante la sintaxis «?prop.table»] para más detalles.

prop.table(e,1) ###Riesgo Relativo fila. Para verificar esto, contrástese lo expuesto al inicio de este documento con la documentación CRAN [accesible mediante la sintaxis «?prop.table»] para más detalles.

(et=addmargins(e)) ###Tabla de contingencia.

addmargins(prop.table(e)) ####Distribución porcentual completa.

###Si se asume que el tipo de pastilla no influye en el hecho de tener un ataque cardíaco, entonces, debería de haber igual porcentaje de ataques en la columna de médicos que tomaron aspirina que en la de los que tomaron placebo.

###Se obtiene el valor esperado de ataques y no ataques.

### Lo anterior se realiza bajo el supuesto de que hay un 1.3% de ataques en general y un 98.7% de no ataques.

#### 2. Usando los valores observados y esperados, calcular el valor de Chi-Cuadrado para determinar si existe dependencia entre ataque y pastilla?

###Al aplicar la distribución Chi cuadrado, que es una distribución continua, para representar un fenómeno discreto, como el número de casos en cada unos de los supuestos de la tabla de 2*2, existe un ligero fallo en la aproximación a la realidad. En números grandes, esta desviación es muy escasa, y puede desecharse, pero cuando las cantidades esperadas en alguna de las celdas son números pequeños- en general se toma como límite el que tengan menos de cinco elementos- la desviación puede ser más importante. Para evitarlo, Yates propuso en 1934 una corrección de los métodos empleados para hallar el Chi cuadrado, que mejora la concordancia entre los resultados del cálculo y la distribución Chi cuadrado. En el articulo anterior, correspondiente a Chi cuadrado,  el calculador expone, además de los resultados de Chi cuadrado, y las indicaciones para decidir, con arreglo a los límites de la distribución para cada uno de los errores alfa admitidos, el rechazar o no la hipótesis nula, una exposición de las frecuencias esperadas en cada una de las casillas de la tabla de contingencia, y la advertencia de que si alguna de ellas tiene un valor inferior a 5 debería emplearse la corrección de Yates. Fuente: https://www.samiuc.es/estadisticas-variables-binarias/valoracion-inicial-pruebas-diagnosticas/chi-cuadrado-correccion-yates/.

###Como se señala en [James E. Grizzle, Continuity Correction in the χ2-Test for 2 × 2 Tables, (The American Statistician, Oct., 1967, Vol. 21, No. 4 (Oct., 1967), pp. 28-32), p. 29-30], técnicamente hablando, la corrección de Yates hace que «(…) las probabilidades obtenidas bajo la distribución χ2 bajo la hipótesis nula converjan de forma más cercana con las probabilidades obtenidas bajo el supuesto de que el conjunto de datos fue generado por una muestra proveniente de la distribución hipergeométrica, i.e., generados bajo el supuesto que los dos márgenes de la tabla fueron fijados con antelación al muestreo.»

###Grizzle se refiere con «márgenes» a los totales de la tabla (véase https://www.tutorialspoint.com/how-to-create-a-contingency-table-with-sum-on-the-margins-from-an-r-data-frame). Además, la lógica de ello subyace en la misma definición matemática de la distribución hipergeométrica. Como se puede verificar en RStudio mediante la sintaxis “?rhyper”, la distribución hipergeométrica tiene la estructura matemática (distribución de probabilidad) p(x) = choose(m, x) choose(n, k-x)/choose(m+n, k), en donde m es el número de éxitos, n es el número de fracasos lo que ) y k es el tamaño de la muestra (tanto m, n y k son parámetros en función del conjunto de datos, evidentemente), con los primeros dos momentos definidos por E[X] = μ = k*p y la varianza se define como Var(X) = k p (1 – p) * (m+n-k)/(m+n-1). De lo anterior se deriva naturalmente que para realizar el análisis estocástico del fenómeno modelado con la distribución hipergeométrica es necesario conocer la cantidad de sujetos que representan los éxitos y los fracasos del experimento (en donde “éxito” y “fracaso” se define en función del planteamiento del experimento, lo cual a su vez obedece a múltiples factores) y ello implica que se debe conocer el total de los sujetos experimentales estudiados junto con su desglose en los términos binarios ya especificados.

###Lo mismo señalado por Grizzle se verifica (citando a Grizzle) en (Biometry, The Principles and Practice of Statistics in Biological Research, Robert E. Sokal & F. James Rohlf, Third Edition, p. 737), especificando que se vuelve innecesaria la corrección de Yates aún para muestras de 20 observaciones.

###Adicionalmente, merece mención el hecho que, como es sabido, la distribución binomial se utiliza con frecuencia para modelar el número de éxitos en una muestra de tamaño n extraída con reemplazo de una población de tamaño N. Sin embargo, si el muestreo se realiza sin reemplazo, las muestras extraídas no son independientes y, por lo tanto, la distribución resultante es una hipergeométrica; sin embargo, para N mucho más grande que n, la distribución binomial sigue siendo una buena aproximación y se usa ampliamente (véase https://www.wikiwand.com/en/Binomial_distribution).

###Grados de libertad correspondientes: número de filas menos 1 por número de columnas menos 1.

###Ho = Hay independencia entre el ataque y las pastillas.

(tabla.freq<-xtabs(freq~ataque+pastilla, data=aspirina))

###La tabla de frecuencias contiene tanto las frecuencias observadas como las esperadas.

###La frecuencia esperada es el conteo de observaciones que se espera en una celda, en promedio, si las variables son independientes.

###La frecuencia esperada de una variable se calcula como el producto entre el cociente [(Total de la Columna j)/(Total de Totales)]*(Total Fila i).

###PRUEBA CHI-CUADRADO AUTOMATIZADA

(prueba.chi<-chisq.test(tabla.freq,correct=F) ) ###La sintaxis «chisq.test» sirve para realizar la prueba de Chi-Cuadrado en tablas de contingencia y para realizar pruebas de bondad de ajuste.

names(prueba.chi)

###PRUEBA CHI-CUADRADO PASO A PASO

(esperado<-prueba.chi$expected) ###valores esperados

(observado<-prueba.chi$observed) ###valores observados

(cuadrados<-(esperado-observado)^2/esperado)

(chi<-sum(cuadrados))

1-pchisq(chi,1) ###Valor de p de la distribución Chi-Cuadrado (especificada mediante el conjunto de datos) calculado de forma no-automatizada.

###Si el valor p es mayor que el nivel de significancia se falla en rechazar Ho, si es menor se rechaza Ho.

###Se rechaza Ho con un nivel de significancia alfa de 0.05. Puesto que se tiene una probabilidad muy baja de cometer error tipo I, i.e., rechazar la hipótesis nula siendo falsa.

ANÁLISIS TEÓRICO DE LA FUNCIÓN CUANTIL EN R STUDIO

isadore nabi

Se sabe que la sintaxis qnorm(p, mean = 0, sd = 1, lower.tail = TRUE or FALSE, log.p = TRUE or FALSE) es para calcular una probabilidad p de una distribución normal estándar con media m=0 y error estándar de s=1. Sabemos también que la función cuantil está asociada con una distribución de probabilidad de una variable aleatoria y que especifica el valor de la variable aleatoria de manera que la probabilidad de que la variable sea menor o igual a ese valor es igual a la probabilidad dada (que en la sintaxis de R se designa como p); cabe mencionar que también se llama función de punto porcentual o función de distribución acumulativa inversa. Según la documentación de R sobre la sintaxis, su componente “lower.tail = TRUE or FALSE” menciona que «logical; if TRUE (default), probabilities are P[X ≤ x], otherwise, P[X > x]», lo que implicaría, dado todo lo anterior, que esa sintaxis (utilizada con la configuración inicial – lower.tail = TRUE-) calcula el valor umbral x por debajo del cual se encuentran las observaciones sobre el fenómeno de estudio en una proporción P de las ocasiones (nótese aquí una definición frecuentista de probabilidad), incluyendo el umbral en cuestión.

Así, la función cuantil es la función inversa de la función de distribución acumulada y es de importancia fundamental en las Probabilidades y la Estadística porque en ocasiones no es posible definir la función de distribución acumulada, entonces se trabaja con su inversa. En términos más intuitivos, la función de distribución acumulada  permite conocer la probabilidad de que la variable aleatoria X tome un valor menor o igual a un valor especificado , mientras que la función cuantil muestra sintéticamente (mediante el análisis del valor umbral que arroja) la cantidad de valores que se encuentran por debajo del umbral (incluyendo al umbral, es decir, P[X ≤ x]) y cuáles son estos valores; evidentemente la relación anterior se puede invertir y hablar de los que se encuentren por encima del valor umbral (sin incluir al umbral, es decir, P[X > x]), todo depende de las necesidades del investigador y del planteamiento teórico del problema.

Finalmente, si se utiliza la sintaxis de R “qK(c, …)” (siendo K cualquier función de distribución) se están calculando los intervalos de confianza con la función cuantil y no con la función de distribución acumulada, para garantizarte que siempre sea posible realizar tal cálculo, en caso la función de distribución acumulada no exista, trabajando con su función inversa.

Por ejemplo, la función percentil sirve para responder a preguntas como  “¿Cuál es la nota en la cual se acumula el 78.5% de los estudiantes?”. Por supuesto, la pregunta no habla de en qué sentido se acumula esa proporción de los estudiantes ni especifica si se incluye el punto alrededor del cual se acumula tal proporción de estudiantes. Para el caso en que la pregunta  «cuál es la nota debajo de la cual está el x porcentaje de los alumnos» y se respondería en sus dos sentidos de la siguiente manera (si se define x = rnorm):

qnorm(0.7850824,72,15.2) = 84, que será inicialmente P[X ≤ x]. Aquí, el 78.5% de los estudiantes tienen una nota menor o igual a 84.

qnorm(0.7850824,72,15.2,lower.tail = F) = 60, que la configuración personalizada para obtener el complemento de probabilidad P[X > x]. Aquí, el 78.5% de los estudiantes tienen una nota mayor que 60.

Figura 1

Además, puede verse que el valor umbral para el cual se cumple que P [X ≤ x] es igual al valor umbral  (1-P) [X > x] o, lo que es lo mismo, el valor umbral x por debajo del cual se encuentran las observaciones sobre el fenómeno de estudio en una proporción P de las ocasiones (incluyendo el umbral en cuestión) es igual al valor umbral por encima del cual se encuentran las observaciones sobre el fenómeno de estudio en una proporción complementaria (1-P) de las ocasiones (sin incluir el umbral en cuestión).

Figura 2

MODELO LOGIT O REGRESIÓN LOGÍSTICA

ISADORE NABI

Como se señala en (Aldrich & Nelson, 1984, págs. 30-31), la inferencia estadística comienza por asumir que el modelo que se va a estimar y utilizar para hacer inferencias está correctamente especificado. La presunción, i.e., el supuesto de partida, es que la teoría estadística-matemática correspondiente a tal o cual modelo estadístico es la que justifica el uso del mismo. Sin embargo, a lo planteado por los autores hay que agregar que es aún más importante que las propiedades reales del fenómeno a estudiar (establecidas por el marco científico mediante el cual se estudia) deben corresponderse en una magnitud mínima necesaria y suficiente con las propiedades matemáticas de tal o cual modelo estadístico. Los autores señalan que es bastante fácil demostrar que la especificación incorrecta del modelo tiene implicaciones realmente sustanciales, ya que todas las propiedades estadísticas de las estimaciones pueden destruirse. Para decirlo sin rodeos, la especificación incorrecta del modelo conduce a respuestas incorrectas.

Los autores también elaboran una maravilla gnoseológica en su argumentación, relativa a la justificación del difundido uso del supuesto de linealidad, estableciendo una versión modificada de la navaja de Occam, una que no implica reduccionismo filosófico, como sí lo suele ser la que utilizan, por ejemplo, los bayesianos subjetivos en los modelos parsimoniosos (y fue en ese sentido en el que la criticó también Albert Einstein):

“¿Por qué es tan popular la especificación lineal? Hay dos razones básicas (y relacionadas). En la práctica, los modelos lineales son matemáticamente simples, por lo que los estadísticos han podido aprender mucho sobre ellos, y se han escrito programas de computadora para hacer la estimación. Sobre bases teóricas, la simplicidad conduce a su adopción, justificada por una versión de la navaja de Occam: en ausencia de una guía teórica en sentido contrario, comience asumiendo el caso más simple. Así, la Navaja de Occam, por implicación, diría: Con alguna orientación teórica en sentido contrario, no asuma el caso más simple.” (Aldrich & Nelson, 1984, pág. 31).

La investigación completa se facilita en el siguiente documento:

UNA APROXIMACIÓN EMPÍRICA A ALGUNAS LAS PROPIEDADES TEÓRICAS DE LOS CONJUNTOS CON R STUDIO

ISADORE NABI & a.b.a.

CONJUNTO A UTILIZAR

CÓDIGO EN R

conjunto <- c(1:10) #Puede ser cualquier conjunto

I. PRODUCTO CARTESIANO

Ejemplo de producto cartesiano para el caso de dos conjuntos de tres elementos cada uno

CÓDIGO EN R

length(conjunto)*length(conjunto)
prod_cart <- expand.grid(conjunto, conjunto)

ii. CONJUNTO POTENCIA (SIGMA ÁLGEBRA)

Ejemplo de conjunto potencia o sigma álgebra de un conjunto de tres elementos

CÓDIGO EN R

2^10
library(rje)
c_potencia <- powerSet(conjunto)

iii. PERMUTACIONES SIN REPETICIÓN

Fórmula general para permutar un conjunto sin repetir elementos
Ejemplo de cómo permutar las letras de la palabra «APPLE» sin que se repitan letras

CÓDIGO EN R

perm_sin_rep = function(n, x) {
factorial(n) / factorial(n-x)
}

cantidad_perm_sin_rep <- 0
for(i in 1:10){
temp <- perm_sin_rep(10, i)
cantidad_perm_sin_rep <- cantidad_perm_sin_rep + temp
}

library(gtools)
permutaciones_sinrep <- list(permutations(10, 1, conjunto), permutations(10, 2, conjunto),
permutations(10, 3, conjunto), permutations(10, 4, conjunto),
permutations(10, 5, conjunto), permutations(10, 6, conjunto),
permutations(10, 7, conjunto), permutations(10, 8, conjunto),
permutations(10, 9, conjunto), permutations(10, 10, conjunto))

III. permutaciones con repetición

Fórmula general para permutar un conjunto repitiendo sus elementos
Lightbox
Ejemplo de permutaciones con repetición para el caso de un conjunto de cuatro elementos

CÓDIGO EN R

library(gtools)

permutations(10, 10, conjunto, set = FALSE)

IV. COMBINACIONES SIN REPETICIÓN

Fórmula general para calcular combinaciones sin repetición

CÓDIGO EN R

comb_sin_rep = function(n, x) {
factorial(n) / (factorial(x) * factorial(n – x)) # combinaciones sin repetición
}

cantidad_comb_sin_rep <- 0
for(i in 1:10){
temp <- comb_sin_rep(10, i)
cantidad_comb_sin_rep <- cantidad_comb_sin_rep + temp
}

library(gtools)
combinaciones_sinrep <- list(combinations(10, 1, conjunto), combinations(10, 2, conjunto),
combinations(10, 3, conjunto), combinations(10, 4, conjunto),
combinations(10, 5, conjunto), combinations(10, 6, conjunto),
combinations(10, 7, conjunto), combinations(10, 8, conjunto),
combinations(10, 9, conjunto), combinations(10, 10, conjunto))

V. COMBINACIONES CON REPETICIÓN

Fórmula general para calcular combinaciones con repetición

CÓDIGO EN R

comb_con_rep = function(n, x) {
factorial(n + x – 1) / (factorial(x) * factorial(n – 1)) # combinaciones con repetición
}

cantidad_comb_con_rep <- 0
for(i in 1:10){
temp <- comb_con_rep(10, i)
cantidad_comb_con_rep <- cantidad_comb_con_rep + temp
}

combinaciones_conrep <- list(combinations(10, 1, conjunto, repeats.allowed=TRUE),
combinations(10, 2, conjunto, repeats.allowed=TRUE),
combinations(10, 3, conjunto, repeats.allowed=TRUE),
combinations(10, 4, conjunto, repeats.allowed=TRUE),
combinations(10, 5, conjunto, repeats.allowed=TRUE),
combinations(10, 6, conjunto, repeats.allowed=TRUE),
combinations(10, 7, conjunto, repeats.allowed=TRUE),
combinations(10, 8, conjunto, repeats.allowed=TRUE),
combinations(10, 9, conjunto, repeats.allowed=TRUE),
combinations(10, 10, conjunto, repeats.allowed=TRUE))

CUADRO RESUMEN

Gráfica de Sedimentación

SOBRE EL ANÁLISIS DE COMPONENTES PRINCIPALES (PCA)

ISADORE NABI

REFERENCIAS

Adler, J. (2012). R in a Nutshell (Segunda ed.). Sebastopol, Crimea, Rusia: O’Reilly.

Alger, N. (4 de Marzo de 2013). Intuitively, what is the difference between Eigendecomposition and Singular Value Decomposition? Obtenido de StackExchange Mathematics: https://math.stackexchange.com/questions/320220/intuitively-what-is-the-difference-between-eigendecomposition-and-singular-valu

Bellman, R. (1972). Dynamic Programming (Sexta Impresión ed.). New Jersey: Princeton University Press.

Dunn, K. G. (3 de Marzo de 2021). Process Improvement Using Data. Hamilton, Ontario, Canadá: Learning Chemical Engineering. Obtenido de 6.5. Principal Component Analysis (PCA) | 6. Latent Variable Modelling: https://learnche.org/pid/PID.pdf?60da13

Jollife, I. (2002). Principal Component Analysis. New York: Springer-Verlag.

Minitab. (18 de Abril de 2019). Interpretar todos los estadísticos y gráficas para Análisis de componentes principales. Obtenido de Soporte de Minitab 18: https://support.minitab.com/es-mx/minitab/18/help-and-how-to/modeling-statistics/multivariate/how-to/principal-components/interpret-the-results/all-statistics-and-graphs/

MIT. (23 de Febrero de 2021). Linear transformations and their matrices. Obtenido de Linear Algebra: https://ocw.mit.edu/courses/mathematics/18-06sc-linear-algebra-fall-2011/positive-definite-matrices-and-applications/linear-transformations-and-their-matrices/MIT18_06SCF11_Ses3.6sum.pdf

Nabi, I. (2020). Sobre los Estimadores de Bayes, el Análisis de Grupos y las Mixturas Gaussianas. Documento inédito.

Nabi, I. (3 de Abril de 2021). ¿Por qué se realiza un ajuste por re-escalamiento, normalización o estandarización sobre los datos en el contexto del aprendizaje automático? Obtenido de El Blog de Isadore Nabi: https://marxianstatistics.com/2021/04/03/por-que-se-realiza-un-ajuste-por-re-escalamiento-normalizacion-o-estandarizacion-sobre-los-datos-en-el-contexto-del-aprendizaje-automatico/

Nabi, I. (2 de Abril de 2021). Una Interpretación Multidisciplinaria de los Espacios Característicos, Vectores Característicos y Valores Característicos. Obtenido de El Blog de Isadore Nabi: https://marxianstatistics.files.wordpress.com/2021/04/una-interpretacion-multidisciplinaria-de-los-espacios-caracteristicos-vectores-caracteristicos-y-valores-caracteristicos-isadore-nabi-1.pdf

Pearson, K. (1901). LIII. On lines and planes of closest fit to systems of points in space. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, II(11), 559-572. Obtenido de https://www.semanticscholar.org/paper/LIII.-On-lines-and-planes-of-closest-fit-to-systems-F.R.S./cac33f91e59f0a137b46176d74cee55c7010c3f8

Stack Exchange. (13 de Marzo de 2015). Understanding proof of isometry implies isomorphism. Obtenido de Mathematics: https://math.stackexchange.com/questions/1188730/understanding-proof-of-isometry-implies-isomorphism/1188732

Starmer, J. (2 de Abril de 2018). Principal Component Analysis (PCA). Obtenido de StatQuest: https://www.youtube.com/watch?v=FgakZw6K1QQ

Universidad Carlos III de Madrid. (7 de Noviembre de 2006). Análisis de Componentes Principales. Obtenido de Proceso de extracción de factores: http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/AMult/tema3am.pdf

Universitat de Girona. (24 de Enero de 2002). Número de factores a conservar. Obtenido de Análisis factorial: http://www3.udg.edu/dghha/cat/secciogeografia/prac/models/factorial(5).htm

Weisstein, E. (26 de Marzo de 2021). Projection. Obtenido de MathWorld – A Wolfram Web Resource: https://mathworld.wolfram.com/Projection.html

Weisstein, E. (26 de Marzo de 2021). Transformation. Obtenido de MathWorld – A Wolfram Web Resource: https://mathworld.wolfram.com/Transformation.html

Wikipedia. (4 de Noviembre de 2020). Curse of dimensionality. Obtenido de Numerical Analysis: https://en.wikipedia.org/wiki/Curse_of_dimensionality

Wikipedia. (25 de Octubre de 2020). Isomorfismo. Obtenido de Álgebra: https://es.wikipedia.org/wiki/Isomorfismo

Wikipedia. (26 de Marzo de 2021). Isomorphism. Obtenido de Equivalence (mathematics): https://en.wikipedia.org/wiki/Isomorphism

Wikipedia. (22 de Marzo de 2021). Transcripción genética. Obtenido de Biosíntesis: https://es.wikipedia.org/wiki/Transcripci%C3%B3n_gen%C3%A9tica

¿POR QUÉ SE REALIZA UN AJUSTE POR RE-ESCALAMIENTO, NORMALIZACIÓN O ESTANDARIZACIÓN SOBRE LOS DATOS EN EL CONTEXTO DEL APRENDIZAJE AUTOMÁTICO?

isadore nabi

I.                   Definiciones generales

Siguiendo a (Lakshmanan, 2019), es necesario definir las diferencias entre re-escalamiento, normalización y estandarización. Re-escalar un vector significa realizar alguna combinación lineal sobre él, es decir, “(…) sumar o restar una constante y luego multiplicar o dividir por una constante, como lo haría para cambiar las unidades de medida de los datos, por ejemplo, para convertir una temperatura de Celsius a Fahrenheit.” A su vez, normalizar un vector “(…) la mayoría de las veces significa dividir por una norma del vector. También se refiere a menudo al cambio de escala por el mínimo y el rango del vector, para hacer que todos los elementos se encuentren entre 0 y 1, lo que lleva todos los valores de las columnas numéricas del conjunto de datos a una escala común.”, mientras que estandarizar un vector significa “(…) la mayoría de las veces significa restar una medida de ubicación y dividir por una medida de escala. Por ejemplo, si el vector contiene valores aleatorios con una distribución gaussiana, puede restar la media y dividir por la desviación estándar, obteniendo así una variable aleatoria «normal estándar» con media 0 y desviación estándar 1.”

II.                Razones generales de uso

En general, las razones para realizar alguno de los tres ajustes anteriores en la etapa de preprocesamiento de los datos son diferentes para cada uno. Así, las razones por las que se debe estandarizar tienen que ver con que la estandarización “(…) de las características alrededor del centro y 0 con una desviación estándar de 1 es importante cuando comparamos medidas que tienen diferentes unidades. Las variables que se miden a diferentes escalas no contribuyen por igual al análisis y podrían terminar creando un sesgo”. En la misma dirección, “(…) el objetivo de la normalización es cambiar los valores de las columnas numéricas en el conjunto de datos a una escala común, sin distorsionar las diferencias en los rangos de valores. Para el aprendizaje automático, no todos los conjuntos de datos requieren normalización. Solo se requiere cuando las características tienen diferentes rangos.”

III.             Contextos de aplicación

La normalización es una buena técnica para usar cuando la distribución de sus datos o cuando sabe que la distribución no es gaussiana. La normalización es útil cuando sus datos tienen escalas variables y el algoritmo que se está utilizando no hace suposiciones sobre la distribución de las observaciones o puntos de datos, como k vecinos más cercanos y redes neuronales artificiales.

La estandarización asume que sus datos tienen una distribución gaussiana (curva de campana). Esto no tiene que ser estrictamente cierto, pero la técnica es más efectiva si su distribución de atributos es gaussiana. La estandarización es útil cuando sus datos tienen escalas variables y el algoritmo que está utilizando hace suposiciones acerca de que sus datos tienen una distribución gaussiana, como regresión lineal, regresión logística, entre otras.

Como se señala en el lugar citado, la normalización es recomendable cuando no conoce la distribución de las observaciones o cuando sabe que la distribución no es gaussiana. La normalización es útil cuando las observaciones tienen escalas variables y el algoritmo empleado no hace suposiciones sobre la distribución de las observaciones, como lo son K-vecinos más cercanos y las redes neuronales artificiales. Por otro lado, la estandarización asume que las observaciones tienen una distribución gaussiana. Esto no tiene que ser estrictamente cierto, pero la técnica es más efectiva si las observaciones siguen tal distribución. La estandarización es útil cuando los datos tienen escalas variables y el algoritmo que se está utilizando hace suposiciones acerca de que los datos tienen una distribución gaussiana, como es el caso de la regresión lineal, la regresión logística y el análisis discriminante lineal.

IV.              Algunas razones teóricas por las que el re-escalamiento, la normalización y la estandarización pueden robustecer a los algoritmos numéricos y a la calidad de los datos

En el contexto del aprendizaje automático a la estandarización se le conoce como re-escalamiento de características[i] (por su nombre en inglés, “feature scalling”) y consiste, siguiendo a (Saini, 2019), en poner los valores en el mismo rango o escala para que ninguna variable esté dominada por la otra y, con ello, se pueda estudiar su relación en términos de la menor heterogeneidad posible. La razón por la que la normalización contribuye a mejorar la robustez del algoritmo K-vecinos más cercanos es porque este algoritmo emplea la función distancia euclidiana, la cual es significativamente sensible a las magnitudes de las características, por lo que se deben normalizar (en el sentido antes definido) de tal forma que “todas pesen igual”. En el caso de la utilización del análisis de componentes principales (PCA) es de importancia fundamental el re-escalar las variables de estudio, porque ya que el PCA busca capturar (en las variables resultantes tras la reducción de dimensionalidad) la mayor variabilidad posible y siendo esto así, las características de mayor magnitud tendrán mayor variabilidad, por lo que estas características tendrán más peso (lo cual no necesariamente cierto en la totalidad de las ocasiones) y ello puede conducir al investigador a conclusiones falsas o a verdades a medias.

Por otro lado, considerando no el PCA globalmente sino únicamente la metodología numérica que lo orquesta, i.e., el método del gradiente descendiente, es posible acelerar el descenso de gradientes mediante el re-escalamiento, lo que implica una disminución considerable del costo computacional. Esta mejora en el desempeño de la metodología referida se debe a que θ descenderá rápidamente en rangos pequeños y lentamente en rangos grandes, por lo que oscilará ineficazmente hasta el óptimo cuando las variables sean muy desiguales, aspecto que corrige el re-escalamiento.

Por otro lado, el re-escalamiento tiene impacto en la calidad de los datos y es un proceso que se realiza en la etapa conocida como preprocesamiento.

Como se señala en (PowerData, 2016), “El preprocesamiento de datos es un paso preliminar durante el proceso de minería de datos. Se trata de cualquier tipo de procesamiento que se realiza con los datos brutos para transformarlos en datos que tengan formatos que sean más fáciles de utilizar (…) En el mundo real, los datos frecuentemente no están limpios, faltan valores clave, contienen inconsistencias y suelen mostrar ruido, conteniendo errores y valores atípicos. Sin un preprocesamiento de datos, estos errores en los datos sobrevivirían y disminuirían la calidad de la minería de datos (…) La falta de limpieza adecuada en los datos es el problema número uno en data warehousing. Algunos de las tareas de preprocesamiento de datos son las siguientes (…) Rellenar valores faltantes (…) Identificar y eliminar datos que se pueden considerar un ruido (…) Resolver redundancia (…) Corregir inconsistencias (…) Los datos están disponibles en varios formatos, tales como formas estáticas, categóricas, numéricas y dinámicas (…) Algunos ejemplos incluyen metadatos, webdata, texto, vídeo, audio e imágenes. Estas formas de datos tan variadas contribuyen a que el procesamiento de datos continuamente se encuentre con nuevos desafíos (…) Además de manejar datos faltantes, es esencial identificar las causas de la falta de datos para evitar que esos problemas evitables con los datos no vuelvan a ocurrir. Las soluciones para datos faltantes incluyen rellenar manualmente los valores perdidos y rellenar automáticamente con la palabra “desconocido” (…) La duplicación de datos puede ser un problema importante en minería de datos, ya que a menudo hace que se pierdan negocios, se pierda el tiempo y sea difícil de tratar. Un ejemplo común de un problema de duplicación de datos típico incluye varias llamadas de ventas al mismo contacto. Las posibles soluciones implican actualizaciones de software o cambiar la forma en que tu negocio controla la gestión de relaciones con clientes. Sin un plan específico y el software adecuado, es difícil eliminar la duplicación de datos (…) Otra fuente común de duplicación de datos es cuando una empresa tiene un número excesivo de bases de datos. Como parte de su preprocesamiento de datos debe revisar periódicamente oportunidades para reducir y eliminar algunas de esas bases de datos. Si no se hace, la duplicación de datos es probable que sea un problema recurrente con el que vas a tener que lidiar una y otra vez (…) Alcanzar la calidad de datos en minería de datos (…) La mayoría de las empresas quieren hacer un mejor uso de sus extensos datos, pero no están seguros acerca de por dónde empezar. La limpieza de datos es un primer paso prudente de un largo camino hacia la mejora de la calidad de los datos. La calidad de los datos puede ser un objetivo difícil de alcanzar sin una metodología eficaz que acelere la limpieza de datos: 1. Reconocer el problema e identificar las causas fundamentales (…) 2. Creación de una estrategia y visión de calidad de datos (…) 3. Priorizar la importancia de los datos (…) 4. Realización de evaluaciones de datos (…) 5. Estimación del ROI para mejorar la calidad de los datos frente al coste de no hacer nada (…) Establecer la responsabilidad de la calidad de los datos.”

Como señala (GeeksforGeeks, 2019), el re-escalamiento es un paso del preprocesamiento de datos que se aplica a variables independientes o características de los datos. Básicamente, ayuda a normalizar los datos dentro de un rango particular. A veces, también ayuda a acelerar los cálculos en un algoritmo, como se mencionó anteriormente.

Finalmente, es necesario acotar que las metodologías de naturaleza numérica-algorítmica conocidas como Naive Bayes, Análisis de Discriminante Lineal, Modelos de Árboles y todo procedimiento estadístico-matemático de la naturaleza antes descrita que no se base metodológicamente en la aplicación (de una u otra forma) de la función distancia del espacio en el que se analicen los datos, que es lo que en Ciencia de Datos se conoce como “algoritmos basados en la distancia”.

V.                REFERENCIAS

GeeksforGeeks. (14 de Octubre de 2019). How and where to apply Feature Scaling? Obtenido de Python: https://www.geeksforgeeks.org/python-how-and-where-to-apply-feature-scaling/

Lakshmanan, S. (16 de Mayo de 2019). How, When, and Why Should You Normalize / Standardize / Rescale Your Data? Obtenido de TOWARDS AI | DATA SCIENCE: https://towardsai.net/p/data-science/how-when-and-why-should-you-normalize-standardize-rescale-your-data-3f083def38ff

PowerData. (30 de Diciembre de 2016). Calidad de datos en minería de datos a través del preprocesamiento. Obtenido de Data Quality: https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/calidad-de-datos-en-mineria-de-datos-a-traves-del-preprocesamiento

Saini, R. (20 de Octubre de 2019). Feature Scaling- Why it is required? Obtenido de Medium: https://medium.com/@rahul77349/feature-scaling-why-it-is-required-8a93df1af310


[i] De hecho, la normalización y la estandarización son formas de re-escalamiento.

UNA METODOLOGÍA EMPÍRICA PARA LA DETERMINACIÓN DE LA MAGNITUD DE LAS INTERRELACIONES SECTORIALES DENTRO DE LA MATRIZ INSUMO-PRODUCTO DESDE LOS CUADROS DE PRODUCCIÓN Y USOS PARA EL CASO DE ESTADOS UNIDOS 1997-2019

ISADORE NABI & A.B.A.

Como es ampliamente conocido, la matriz insumo-producto (de ahora en adelante, MIP) es un cuadro estadístico de naturaleza macroeconómica y de presentación desagregada, el cual cristaliza la totalidad de la actividad económica anual de forma desagregada, que a su vez representa una especie de radiografía del sistema de economía política capitalista. En este sentido, la MIP es de importancia fundamental para estudiar el desempeño del sistema, sea en un período anual o a largo plazo. En el análisis de los fenómenos económicos, el abordaje estadístico-matemático[1] de las MIP es característico de la escuela marxista conocida como Nueva Interpretación, muy poco usado es en otras escuelas marxistas y en la ortodoxia, i.e., la escuela neomarginalista (mal llamada “neoclásica”), el análisis insumo-producto no es de especial interés desde más o menos la prehistoria de la síntesis neomarginalista, que data de la época de Paul Samuelson y Robert Solow suscitada alrededor del punto medio del epílogo del siglo pasado.

Existen investigaciones teóricas, como la de (Kuroki, 1985), en las que se afirma que existe en el largo plazo un proceso de ecualización de las tasas de ganancia industriales si y solo si los sectores del sistema de economía política están altamente interrelacionados. Al respecto, señala Kuroki que “Entonces podríamos concluir que solo el sistema en el que ambos sectores usan relativamente mucho la producción del otro como su propio insumo y, por lo tanto, el grado de interdependencia técnica es grande, tiene la tasa uniforme de ganancia estable (es decir, por ejemplo, la economía donde se necesita mucho trigo para hacer hierro y al mismo tiempo se usa mucho hierro para producir trigo).” (Kuroki, 1985, págs. 48-49). En esta investigación, se desea demostrar empíricamente que ese supuesto siempre se cumple, al menos para el caso de la economía política hegemónica a nivel planetario de las últimas décadas, puesto que se asume que es el caso representativo. Por ello, se estudiará el caso de Estados Unidos, así como en su momento por los mismos motivos metodológicos Marx estudió a Inglaterra.

Debido a lo anterior, la MIP se erige, por consiguiente, en el recurso estadístico idóneo por antonomasia para semejante tarea. Como es sabido, la MIP está compuesta en sus filas por los diferentes sectores que componen la producción de una economía, mientras que en sus columnas está compuesta por el consumo productivo (consumo intermedio) intersectorial (incluyendo el autoconsumo sectorial), i.e., por el desglose del consumo intermedio que cada sector realiza de los otros sectores y de sí mismo, necesario para un determinado nivel de producto final. En el SCN de U.S., la MIP se presenta seccionada en dos partes, por un lado, los conocidos cuadros de producción y, por otro lado, los cuadros de usos. Los cuadros de producción contienen en las filas los sectores del sistema económico y en las columnas la producción desagregada (por el tipo de mercancía -según industria a la que pertenece- que compone su producción); estos cuadros no deben confundirse con los cuadros de oferta y los cuadros de utilización conocidos como COU.

Sin embargo, como se puede verificar en las diversas investigaciones que representan en este sentido el estado del arte [(Kliman, The law of value and laws of statistics: sectoral values and prices in the US economy, 1977-97, 2002), (Cockshott & Cottrell, Robust correlations between prices and labor values, 2005), (Kliman, Reply to Cockshott and Cottrell, 2005), (Zachariah, 2006), (Sánchez & Ferràndez, Valores, precios de producción y precios de mercado a partir de los datos de la economía española, 2010), (Cockshott, Cottrell, & Valle Baeza, The Empirics of the Labour Theory of Value: Reply to Nitzan and Bichler, 2014), (Sánchez & Montibeler, La teoría del valor trabajo y los precios en China, 2015) y (Cockshott, Cottrell, & Zachariah, Against the Kliman theory, 2019)], únicamente en el estudio de Zachariah en 2006 se realiza una investigación multi regional, mientras que en las demás únicamente se analiza la MIP de algún año en particular, no se han realizado previamente estudios econométricos a largo plazo y esa es otra novedad de esta metodología.

Como se verifica en (NABI, 2021), en el SCN de U.S. las tablas (tanto de producción como de usos) son construidas bajo un enfoque metodológico híbrido de dos pasos, en el cual en el primer paso se obtienen las tablas empíricas (que son las que interesan en esta investigación) y en el segundo su derivación matemática, en donde al proceso que genera las tablas obtenidas en el primer paso se le conoce como proceso de redefinición y reasignación. Así, como se verifica en la fuente citada, así como la MIP permite un estudio más en profundidad de un sistema de economía política capitalista, la redefinición y reasignación permiten un estudio más profundo de la MIP como resultado de lograr al interior de esta estructura estadística un mayor grado de homogeneidad entre sus componentes o, desde una concepción más general sobre los sistemas, un menor grado de heterogeneidad.

Econométricamente hablando, es válido concebir la interrelación entre dos variables como el grado de asociación entre las mismas (independientemente de la orientación de tal asociación) y en ese sentido, es válido entonces pensar que un coeficiente de correlación entre los productos y sus insumos [puesto que tales insumos son provistos por las demás industrias (y en función de ellas son colocados dentro de la MIP)], es un indicador estadístico válido para inferir la magnitud de la interrelación industrial existente (que es una noción cualitativa como tal -la de interrelación industrial-), considerando además que la forma que toma la MIP es lineal (no por ello su forma revela su esencia, pero ese es el instrumento estadístico diseñado que existe y es posible utilizar en investigación empírica, uno de concepción lineal) y que todas las investigaciones antes referidas apuntan hacia la misma dirección.

La metodología empírica aquí planteada busca construir series temporales con la ayuda del programa estadístico R que permitan medir la interrelación entre las industrias mediante la correlación entre los productos y los insumos (los empleados para producirlos) según industria.

El sistema de cuentas nacionales (de ahora en adelante, SCN) de los Estados Unidos (de ahora en adelante, U.S.) es presentado a través de los cuadros de producción y los cuadros de usos (por separado), bajo la etiqueta de “Supply Table” para el caso del cuadro que contiene la producción de mercancías desglosada según sector industrial y “Use Table” para el caso del cuadro que contiene los datos de los insumos consumidos por cada sector industrial j-ésimo en la producción de cada mercancía correspondiente a cada sector industrial i-ésima, en donde i denota las filas y j las columnas.

El objetivo de este documento es proveer una metodología empírica para que sea posible construir una serie temporal del período 1997-2019 de la producción total de cada una de las 71 industrias que conforman el sistema de economía política estadounidense (ese es el máximo nivel de desagregación para el que se disponen estadísticas macroeconómicas para ese período), así como también de los insumos que cada una de esas industrias consume y autoconsume para generar el nivel de producto reportado en la MIP. Así, antes de proceder a explicar la metodología empírica aquí planteada, es conveniente recordar al lector que los datos obtenidos de la base de datos original son matrices insumo-producto (descompuestas en un cuadro de producción y en cuadro de usos), que por definición son datos de sección cruzada. Este tipo de estructura de datos requiere, al no existir de forma armónica y continua las estadísticas intertemporales (a lo largo del tiempo) de la MIP, una construcción tal que les proporcione una continuidad armónica de manera que puedan ser transformadas exitosamente en datos de panel (que son secciones cruzadas estudiadas analizadas en términos de series temporales, en este caso diferentes MIP a lo largo del período 1997-2019) y esa es precisamente la necesidad que la metodología empírica aquí planteada resuelve de forma automatizada mediante el uso del programa estadístico R (creando para ello una función personalizada en R, ad hoc para esta necesidad de investigación particular).

A continuación, se presentan dos imágenes. Una imagen muestra en la proporción mínima suficiente la estructura del cuadro de producción, mientras que la otra hace lo propio con el cuadro de usos.

Fuente: (U.S. Bureau of Economic Analysis, 2021).

Fuente: (U.S. Bureau of Economic Analysis, 2021).

Así, partiendo de los cuadros de producción (tablas de producción) desde 1997 hasta 2019, así como también las los cuadros de usos (tablas de consumo intermedio o consumo productivo), se deben realizar los siguientes pasos.

  1. Se extrae del cuadro de producción su última fila, la cual contiene el total de la producción de cada una de las industrias que conforman el sistema económico (para el caso de Estados Unidos en el período analizado, son 23 cuadros de producción, una por año, desde 1997 hasta 2019) desagregada a nivel de los sectores industriales que la producen. Así, cada uno de los veintitrés cuadros de producción que contienen los datos anuales sobre 71 industrias, tendrá un vector fila, por consiguiente, compuesto por 71 elementos.
  2. Se toma el cuadro de usos y se transpone, es decir, se intercambia la localización del contenido de sus filas por el de sus columnas y viceversa. Lo anterior se hace con la finalidad de que el consumo intermedio o consumo productivo que originalmente está en las columnas del cuadro de usos se localice ahora en las filas del cuadro de producción transpuesto al cuadro de producción original. Esto resultará útil para facilitar la automatización de la construcción del cuadro que contendrá la serie temporal deseada.
  3. Combinando el vector fila extraído del cuadro de producción y el cuadro de usos transpuesto, se generan 71 nuevas tablas. Cada una de estas tablas estará compuesta en su primera columna por el período temporal en cuestión (desde 1997 hasta 2019), en su segunda columna se localizarán cada uno de los sectores industriales que proveen insumos a otros y a sí mismos para la producción, en la tercera columna se indicará el número del sector industrial según su posición en los cuadros de producción-usos (puesto que son veintitrés años de estudio para las industrias en general y para cada una en particular, el número que indica la posición de cada sector industrial se repetirá en veintitrés ocasiones), en la cuarta columna se localizará la producción total de cada sector y, finalmente, en las n-4 (para este caso serán 71 columnas restantes) se localizarán cada uno de los sectores industriales que generan la producción social global. Así, se conformarán 71 tablas con la configuración antes descrita (una por sector industrial) y de esa tabla se obtienen las correlaciones producto-insumo, que es lo que se ejecutará en el siguiente paso.
  4. La tabla construida en el paso 3, que contiene los datos de panel de los 71 sectores industriales que conforman la economía estadounidense para el período 1997-2019, puede ser separada en 71 partes, en donde cada parte contiene los datos de panel de cada uno de los 71 sectores industriales de forma individual. Así, sobre cada uno de estos 71 paneles de datos generados se realiza el cálculo de correlación (el vector columna de la producción total de cada industria correlacionado en el tiempo con cada uno de los n-ésimos vectores columna que representan el aporte a nivel de insumos intermedios que cada uno de los sectores industriales proveyeron al producto en cuestión), guardándolo en el programa estadístico R dentro de una estructura de datos vectorial-fila y, finalmente, “apilando” los vectores fila para conformar la matriz de correlaciones de Pearson.
  5. Posteriormente se calcula un promedio ponderado de los coeficientes de correlación de Pearson de cada uno de los 71 sectores industriales (que expresa el coeficiente de correlación promedio ponderado de cada sector industrial), en donde el factor de ponderación es la participación relativa de cada insumo en el consumo intermedio total.
  6. Finalmente, cada uno de estos coeficientes intrasectoriales promedio ponderado (pertenecientes a cada sector) se vuelven a promediar ponderadamente para obtener el coeficiente de correlación promedio ponderado de todos los sectores industriales, i.e., el coeficiente de correlación que resume la interrelación entre todos los sectores industriales del sistema de economía política estadounidense. Aquí, el factor de ponderación es la participación relativa de cada sector industrial en el sistema económico.

Es evidente que como en esta investigación lo que interesa es conocer la magnitud de la interrelación sectorial y no el sentido de esa interrelación (expresado en el signo del coeficiente de correlación obtenido), a la hora de estimar los promedios se realizan los cálculos con los valores absolutos de estos coeficientes. A continuación, se presentan imágenes que contienen ordinalmente y de forma mínima y suficiente los cuadros estadísticos resultantes de los procedimientos descritos en los pasos comprendidos del 3 al 6.

Fuente: Elaboración propia, bajo la metodología descrita en el paso 3.

Fuente: Elaboración propia, bajo la metodología descrita en el paso 4.

Fuente: Elaboración propia, con los datos de la imagen anterior y la metodología descrita en el paso 4.

Fuente: Elaboración propia, bajo la metodología descrita en el paso 5.

Fuente: Elaboración propia, con los datos de la imagen anterior y la metodología descrita en el paso 5.

Fuente: Elaboración propia, bajo la metodología descrita en el paso 6.

Fuente: Elaboración propia, con los datos de la imagen anterior y la metodología descrita en el paso 6.

Como puede observarse, el promedio de las correlaciones incrementó de aproximadamente 0.68 antes de la primera ronda de ponderaciones hasta aproximadamente 0.78 tras la segunda ronda de ponderaciones. Así, es necesario plantear que, aún cuando tal o cual lector pueda tener desavenencias con la doble ponderación realizada, ya con la primera ponderación el coeficiente de correlación de Pearson alcanzaba una magnitud de 0.735, recordando que 0.70 es el estándar usual para determinar si una correlación es alta o no, específicamente si la correlación es superior al 0.70 se considera fuerte; además, incluso en el escenario poco racional en el que alguien pudiese cuestionar la validez metodológica de la primera ronda de ponderaciones, el coeficiente de determinación de Pearson era de 0.683, lo que lo separa en apenas 0.027 (o 2.7%, que es lo mismo, i.e., es lo que le faltaría para ser, en este ejemplo, 0.71) de ser una correlación fuerte. Lo anterior se expresa en el cuadro presentado a continuación.

Fuente: (Mindrila & Balentyne, 2021, pág. 9).

En conclusión, lo planteado por (Kuroki, 1985) no debe considerarse una condición a verificar sino un supuesto fundamental de todo modelo teórico sobre los sistemas de economía política capitalista lo suficientemente evolucionados. Al lector interesado en replicar o aplicar esta metodología empírica, puede serle de interés el código o “script” en R mediante el que se diseñó la función personalizada empleada para realizar los pasos descritos por la metodología planteada, así como también la base de datos original y las transformaciones más importantes sobre la misma[2].

REFERENCIAS

Cockshott, P., & Cottrell, A. (2005). Robust correlations between prices and labor values. Cambridge Journal of Economics, 309-316.

Cockshott, P., Cottrell, A., & Valle Baeza, A. (2014). The Empirics of the Labour Theory of Value: Reply to Nitzan and Bichler. Investigación Económica, 115-134.

Cockshott, P., Cottrell, A., & Zachariah, D. (2019, Marzo 29). Against the Kliman theory. Retrieved Marzo 22, 2021, from Paul Cockshott: http://paulcockshott.co.uk/publication-archive/Talks/politicaleconomy/Against%20the%20Kliman%20price%20theory.pdf

Kliman, A. (2002). The law of value and laws of statistics: sectoral values and prices in the US economy, 1977-97. Cambridge Journal of Economics, 299-311.

Kliman, A. (2005). Reply to Cockshott and Cottrell. Cambridge Journal of Economics, 317-323.

Kliman, A. (2014). What is spurious correlation? A reply to Díaz and Osuna. Journal of Post Keynesian Economics, 21(2), 345-356.

Kuroki, R. (1985). The Equalizartion of the Rate of Profit Reconsidered. In W. Semmler, Competition, Instability, and Nonlinear Cycles (pp. 35-50). New York: Springer-Velag.

Mindrila, D., & Balentyne, P. (2021, Febrero 2). Scatterplots and Correlation. Retrieved from University of West Georgia: https://www.westga.edu/academics/research/vrc/assets/docs/scatterplots_and_correlation_notes.pdf

NABI, I. (2021, Abril 1). SOBRE LA METODOLOGÍA DEL U.S. BUREAU OF ECONOMIC ANALYSIS PARA LA REDEFINICIÓN Y REASIGNACIÓN DE PRODUCTOS EN LA MATRIZ INSUMO-PRODUCTO DE ESTADOS UNIDOS. Retrieved from ECONOMÍA POLÍTICA: https://marxianstatistics.com/2021/04/01/sobre-la-metodologia-del-u-s-bureau-of-economic-analysis-para-la-redefinicion-y-reasignacion-de-productos-en-la-matriz-insumo-producto-de-estados-unidos/

Sánchez, C., & Ferràndez, M. N. (2010, Octubre-diciembre). Valores, precios de producción y precios de mercado a partir de los datos de la economía española. Investigación Económica, 87-118. Retrieved from https://www.jstor.org/stable/42779601?seq=1

Sánchez, C., & Montibeler, E. E. (2015). La teoría del valor trabajo y los precios en China. Economia e Sociedade, 329-354.

U.S. Bureau of Economic Analysis. (2021, Abril 1). The Domestic Supply of Commodities by Industries (Millions of dollars). Retrieved from Input-Output Accounts Data | Supplemental Estimate Tables. After Redefinition Tables. Make Tables/After Redefinitions – Production of commodities by industry after redefinition of secondary production ● 1997-2019: 71 Industries iTable: https://apps.bea.gov/iTable/iTable.cfm?reqid=58&step=102&isuri=1&table_list=5&aggregation=sum

U.S. Bureau of Economic Analysis. (2021, Abril 1). The Use of Commodities by Industries. Retrieved from Input-Output Accounts Data | Supplemental Estimate Tables. After Redefinition Tables. Use Tables/After Redefinitions/Producer Value – Use of commodities by industry after reallocation of inputs ● 1997-2019: 71 Industries iTable: https://apps.bea.gov/iTable/iTable.cfm?reqid=58&step=102&isuri=1&table_list=6&aggregation=sum

Zachariah, D. (2006, Junio). Labour value and equalisation of profit rates: a multi-country study. Indian Development Review, 4, 1-20.


[1] Aquí distinguimos “estadístico-matemático” de “estadístico” en el sentido de que el primer concepto transita por terrenos que versan sobre la aplicación de la Estadística Matemática a problemas concretos de la realidad (i.e., el abordaje científico de los datos), mientras que el segundo puede ser en el sentido antes definido, puede ser en su sentido puramente descriptivo o puede incluso ser lo que se entiende popularmente por ello.

[2] https://mega.nz/folder/mhtSCTbK#KNuyJr-BW2xo4LEqrYJn_g

LA CONJETURA DE COLLATZ COMO FUNCIÓN PERSONALIZADA EN R STUDIO

ISADORE NABI