UNA APROXIMACIÓN TEÓRICA A LA DETERMINACIÓN DE LA IGUALDAD DE VARIANZAS DE DOS POBLACIONES

ISADORE NABI

Si las medias r-ésimas (los r-ésimos estadísticos de prueba) son únicas y existe convergencia en distribución entre las muestras en comparación distribución, estas tendrán también las mismas medias r-ésimas. Para garantizar la unicidad de los momentos debe garantizarse que la muestra y la población sean finitas o, a lo sumo, infinitas numerables (que sea posible poderla poner en correspondencia uno-a-uno con los números naturales); mientras que para garantizar que converjan en distribución debe garantizarse (aunque no es el único camino, más sí el óptimo para estos fines) antes la convergencia en media r-ésima, que para el caso de los espacios euclidianos y sus generalizaciones naturales (los espacios de Hilbert) debe ser convergencia en media cuadrática (porque la norma de tales espacios es de carácter cuadrático y sirve para estimar distancias bajo una lógica también cuadrática). Adicionalmente, en términos matemáticos, que converjan en media cuadrática garantiza que converjan en varianza. Que converjan en media cuadrática se verifica, en el contexto de los espacios ya mencionados, cuando se certifica a través de una prueba de hipótesis rigurosa que las medias de las dos poblaciones no difieren en términos estadísticamente significativos. Si el conjunto de condiciones anteriormente expuesto se cumple, entonces que dos muestras tengan la misma distribución y la misma media implica que su varianza será igual, lo que formalmente hablando implica que sus varianzas tenderán a ser iguales a medida se aproximen al tamaño de la población de la cual son parte. Debido a que una distribución no es caracterizada unívocamente por sus momentos sino por su función característica (si todos sus momentos son finitos), la cual es la solución a la ecuación integral generada tras la aplicación de la transformación de Fourier a la distribución de probabilidad en cuestión, la unicidad de los momentos implica formalmente hablando, además de la restricción antes impuesta sobre el tamaño de la muestra y la población, que las distribuciones de probabilidad tengan la misma función característica. Los parámetros de transformación de Fourier son, por definición, los mismos para todos los casos (a=1, b=1). El hecho de que las poblaciones sean o no sean homogéneas no es explícitamente relevante en términos teóricos puesto que la matemática pura no establece teoremas contemplando aspectos esenciales de los fenómenos que modela de manera abstracta-formal (garantiza que la heterogeneidad no sea un problema -en el terreno asintótico- al establecer los pre-requisitos antes mencionados, como se verá en el contexto aplicado). En términos aplicados es, sin lugar a dudas, completamente relevante porque puede tener implicaciones en que la diferencia en variabilidad de las muestras sea estadísticamente significativa; sin embargo, lo que se desprende en términos prácticos de lo expuesto teóricamente antes es que si dos muestras tienen la misma forma geométrica general (la misma distribución, que implica que los conjuntos de datos siguen el mismo patrón geométrico), más allá de variaciones de escala (producto de variaciones no significativas en los parámetros, es decir, variaciones que no cambian el tipo específico de distribución de la que se trate) y además existe convergencia en media (que es una forma rigurosa de expresar que, aproximadamente hablando, tendrán la misma media), también existirá convergencia en varianza, es decir, que las varianzas, diferirán a lo sumo, en una constante arbitraria C*, que se expresa teóricamente como el residuo de la solución a la ecuación integral antes mencionada. Por lo anterior, no es necesario realizar una prueba de potencia para la igualdad de varianzas establecida con prueba F, simplemente basta con verificar que las poblaciones sean las mismas, tengan el mismo tamaño de muestra y tengan la misma media para saber que tendrán la misma varianza o segundo momento.

SUPUESTOS DEL MODELO CLÁSICO DE REGRESIÓN LINEAL Y DE LOS MODELOS LINEALES GENERALIZADOS

isadore nabi

REFERENCIAS

Banerjee, A. (29 de Octubre de 2019). Intuition behind model fitting: Overfitting v/s Underfitting. Obtenido de Towards Data Science: https://towardsdatascience.com/intuition-behind-model-fitting-overfitting-v-s-underfitting-d308c21655c7

Bhuptani, R. (13 de Julio de 2020). Quora. Obtenido de What is the difference between linear regression and least squares?: https://www.quora.com/What-is-the-difference-between-linear-regression-and-least-squares

Cross Validated. (23 de Marzo de 2018). Will log transformation always mitigate heteroskedasticity? Obtenido de StackExchange: https://stats.stackexchange.com/questions/336315/will-log-transformation-always-mitigate-heteroskedasticity

Greene, W. (2012). Econometric Analysis (Séptima ed.). Harlow, Essex, England: Pearson Education Limited.

Guanga, A. (11 de Octubre de 2018). Machine Learning: Bias VS. Variance. Obtenido de Becoming Human: Artificial Intelligence Magazine: https://becominghuman.ai/machine-learning-bias-vs-variance-641f924e6c57

Gujarati, D., & Porter, D. (8 de Julio de 2010). Econometría (Quinta ed.). México, D.F.: McGrawHill Educación. Obtenido de Homocedasticidad.

McCullagh, P., & Nelder, J. A. (1989). Generalized Linear Models (Segunda ed.). London: Chapman and Hall.

MIT Computer Science & Artificial Intelligence Lab. (6 de Mayo de 2021). Solving over- and under-determined sets of equations. Obtenido de Articles: http://people.csail.mit.edu/bkph/articles/Pseudo_Inverse.pdf

Nabi, I. (27 de Agosto de 2021). MODELOS LINEALES GENERALIZADOS. Obtenido de El Blog de Isadore Nabi: https://marxianstatistics.files.wordpress.com/2021/08/modelos-lineales-generalizados-isadore-nabi.pdf

Penn State University, Eberly College of Science. (2018). 10.4 – Multicollinearity. Obtenido de Lesson 10: Regression Pitfalls: https://online.stat.psu.edu/stat462/node/177/

Penn State University, Eberly College of Science. (24 de Mayo de 2021). Introduction to Generalized Linear Models. Obtenido de Analysis of Discrete Data: https://online.stat.psu.edu/stat504/lesson/6/6.1

Perezgonzalez, J. D. (3 de Marzo de 2015). Fisher, Neyman-Pearson or NHST? A tutorial for teaching data testing. frontiers in PSYCHOLOGY, VI(223), 1-11.

ResearchGate. (10 de Noviembre de 2014). How it can be possible to fit the four-parameter Fedlund model by only 3 PSD points? Obtenido de https://www.researchgate.net/post/How_it_can_be_possible_to_fit_the_four-parameter_Fedlund_model_by_only_3_PSD_points

ResearchGate. (28 de Septiembre de 2019). s there a rule for how many parameters I can fit to a model, depending on the number of data points I use for the fitting? Obtenido de https://www.researchgate.net/post/Is-there-a-rule-for-how-many-parameters-I-can-fit-to-a-model-depending-on-the-number-of-data-points-I-use-for-the-fitting

Salmerón Gómez, R., Blanco Izquierdo, V., & García García, C. (2016). Micronumerosidad aproximada y regresión lineal múltiple. Anales de ASEPUMA(24), 1-17. Obtenido de https://dialnet.unirioja.es/descarga/articulo/6004585.pdf

Simon Fraser University. (30 de Septiembre de 2011). THE CLASSICAL MODEL. Obtenido de http://www.sfu.ca/~dsignori/buec333/lecture%2010.pdf

StackExchange Cross Validated. (2 de Febrero de 2017). “Least Squares” and “Linear Regression”, are they synonyms? Obtenido de What is the difference between least squares and linear regression? Is it the same thing?: https://stats.stackexchange.com/questions/259525/least-squares-and-linear-regression-are-they-synonyms

Wikipedia. (18 de Marzo de 2021). Overdetermined system. Obtenido de Partial Differential Equations: https://en.wikipedia.org/wiki/Overdetermined_system

Zhao, J. (9 de Noviembre de 2017). More features than data points in linear regression? Obtenido de Medium: https://medium.com/@jennifer.zzz/more-features-than-data-points-in-linear-regression-5bcabba6883e

SOBRE LOS ISOMORFISMO DE GRAFO

ISADORE NABI

En teoría de grafos, se define como grafo al par G=(V,E), en donde V es el conjunto de aquellos elementos que son vértices y E es el conjunto de pares de vértices cuyos elementos se denominan aristas. A continuación, se presenta un ejemplo simple de grafo con tres vértices (círculos azules) y tres aristas (líneas rectas negras), específicamente un triángulo rectángulo visto como grafo.

Fuente: (Wikimedia, 2021).

Un isomorfismo entre dos grafos G1 y G2 es una relación funcional biyectiva (i.e., que establece una relación uno-a-uno entre los elementos de dos conjuntos) entre los vértices de G1 y G2, que adopta la forma f: V(G1)–>V(G2), en la que cualesquiera dos vértices u, v ∈ G1 son adyacentes (relación entre dos vértices en la que ambos son extremos de la misma arista) si y solo si sus reflejos o imágenes matemáticas f(u) y f(v) son adyacentes en G2. La característica fundamental de un isomorfismo de grafo es que es una relación funcional biyectiva que preserva las aristas que caracterizan al grafo. Que esta transformación matemática preserve las aristas implica que las distancias entre los vértices, analizados estos “de dos en dos”, no cambian.

Son precisamente estas distancias a las que se les conoce como distancias relativas dentro de la estructura matemática, en contraste con las distancias absolutas que son medidas como distancias de los vértices considerados individualmente. Un ejemplo de ello se muestra a continuación.

Fuente: (Jose, 2020).

Los dos grafos anteriores son isomórficos entre sí, i.e., poseen la misma estructura interna o estructura topológica. A continuación, se presenta un ejemplo numérico de ello, en consonancia con lo anteriormente expuesto.

Fuente: (Wikipedia, 2021).

Las diferencias concretas entre las distancias topológicas y las distancias métricas pueden observarse con nitidez en lo relativo al desarrollo teórico y aplicado de modelos que explican el comportamiento colectivo de animales, como lo son bandadas de aves, bancos de peces, etc. Esto es un equivalente concreto a nivel biológico del concepto matemático abstracto de la manera en que se agrupan en subconjuntos los elementos de un determinado conjunto).

Como señala el Instituto de Sistemas Complejos de Italia (Instituto dei Sistemi Complessi, 2021), todos los modelos existentes sobre el comportamiento colectivo de los animales asumen que la interacción entre los diferentes individuos depende de la distancia métrica, al igual que en la Física. Esto implica, por ejemplo, que dos pájaros separados por 5 metros interactúan con más fuerza que dos pájaros separados por 10 metros. Como se señala en la fuente citada, los modelos desarrollados por biólogos se basan en un esquema de “zonas de comportamiento”, donde cada zona está asociada a uno de los tres componentes básicos de todos los modelos: repulsión de corto alcance, alineación, atracción de largo alcance. Los modelos desarrollados por físicos, por otro lado, usaban principalmente una función de fuerza única. Sin embargo, los dos enfoques son sustancialmente equivalentes y lo que importa es que ambos se basan en un paradigma métrico.

El punto crucial es que, dentro del paradigma métrico, el número de vecinos con los que interactúa cada individuo no es una constante, sino que depende de la densidad. Por ejemplo, supóngase que cada ave interactúa con todos los vecinos dentro de un rango de 5 metros. El número de vecinos dentro de los 5 metros será grande en una bandada densa y pequeña en una bandada escasa. Entonces, dentro del paradigma métrico, el número de vecinos que interactúan no es una constante, sino que depende de la densidad. Lo que es constante es el rango métrico de la interacción (5 metros en el ejemplo anterior).

El paradigma métrico parece muy razonable a primera vista. Los animales son buenos para evaluar distancias, por lo que tiene sentido asumir que la fuerza de sus lazos mutuos depende de la distancia. Además, los modelos métricos demostraron ser capaces de reproducir cualitativamente el comportamiento de las bandadas. Por lo tanto, no había razón para cuestionar el paradigma métrico, en ausencia de datos empíricos. Y dado que hasta el momento no se disponía de datos empíricos, todos los modelos utilizaron una interacción métrica.

Los primeros datos empíricos sobre grandes bandadas de estorninos fueron obtenidos por el nodo INFM-CNR dentro del proyecto STARFLAG (esto hace referencia a un proyecto sobre comportamiento colectivo de animales coordinado por el INFM-CNR, organismo que pertenece a la institución citada). Al reconstruir las posiciones en 3D de aves individuales, fue posible mapear la distribución promedio de los vecinos más cercanos (Figura 2), lo que proporciona la caracterización más clara de la estructura de las aves dentro de una bandada.

Así, “Dado un ave de referencia, medimos la orientación angular de su vecino más cercano con respecto a la dirección de movimiento de la bandada, es decir, el rumbo y la elevación del vecino. Repetimos esto tomando a todos los individuos dentro de una bandada como ave de referencia, y de esta manera mapeamos la posición espacial promedio de los vecinos más cercanos.” (Instituto dei Sistemi Complessi, 2021). El fragmento de la cita bibliográfica anterior en negrita y cursiva es en esencia la lógica de tomar a los individuos “de dos en dos”, añadiendo a ello elementos que juegan un rol relevante en este contexto específico de aplicación de las nociones topológicas, como lo son el rumbo y la elevación; sin embargo, hay que decir que a nivel de teoría de grafos, también existen grafos cuyas aristas poseen dirección, los cuales por motivo de simplicidad no fueron expuestos, aunque no por ello deja de ser necesaria esta especificación.

Así, es posible pensar en este mapa como un mapa de la esfera alrededor de cada ave voladora. El centro del mapa es la dirección de avance, los polos son las direcciones hacia arriba y hacia abajo. El color en un punto dado del mapa indica la probabilidad de que el vecino más cercano del pájaro esté en esa dirección particular. Este mapa muestra una sorprendente falta de vecinos más cercanos a lo largo de la dirección del movimiento. Por tanto, la estructura de los individuos es fuertemente anisotrópica[1]. Esta anisotropía probablemente esté relacionada con el aparato visual de las aves. Sin embargo, el punto crucial es que esta anisotropía es el efecto de la interacción entre individuos, cualquiera que sea esta interacción.

Fuente: (Instituto dei Sistemi Complessi, 2021).

Para respaldar esta afirmación, calculamos la distribución de vecinos muy alejados del ave de referencia, por ejemplo, para el décimo vecino más cercano (mapa inferior en la figura).

Fuente: (Instituto dei Sistemi Complessi, 2021).

Esta distribución es uniforme, para garantizar una agregación de puntos completamente isótropa[2] y sin interacción, puesto que ello es una indicación empírica directa de afirmar que la interacción decae con la distancia: cuanto más separadas están dos aves, menor es su grado de correlación. Este resultado también demuestra que podemos usar la anisotropía para obtener información sobre la interacción. De hecho, se puede calcular el mapa de distribución angular[3] de los vecinos incluso para el segundo, tercer, cuarto vecino más cercano, etc., y observar cómo la estructura anisotrópica presente para los vecinos más cercanos se desvanece progresivamente a medida que aumenta el orden del vecino.

La desintegración de esta estructura anisotrópica con la distancia se puede cuantificar de forma precisa calculando el factor de anisotropía gamma[4].  Esta cantidad decae a su valor isotrópico (no interactivo) 1/3 a medida que aumenta el orden n-ésimo del vecino, de manera similar a una función de correlación estándar.

“Sin embargo, el punto crucial es que n es una distancia topológica, es decir, es una distancia medida en unidades de aves, en lugar de metros. A partir del factor de anisotropía podemos calcular el rango topológico, definido como el punto donde el factor de anisotropía se vuelve igual a su valor de no interacción. Este rango topológico es simplemente el número promedio de vecinos con los que interactúa cada ave. Claramente, dada la densidad de la bandada, también podemos definir una distancia métrica estándar y, por lo tanto, un rango métrico de la interacción. El rango métrico de interacción no es más que la distancia máxima de las aves dentro del rango topológico.” Fuente: (Instituto dei Sistemi Complessi, 2021).

Así, el punto importante es que la densidad de las bandadas varía mucho de una bandada a otra, y esto implica que el rango topológico y métrico no puede ser constante cuando la densidad varía. Para dilucidar este punto crucial, considérese dos bandadas con diferentes densidades. Si la interacción depende de la distancia métrica, entonces el rango en metros es el mismo en las dos bandadas, mientras que el número de individuos dentro de este rango es grande en la bandada más densa y pequeño en la más dispersa.

Fuente: (Instituto dei Sistemi Complessi, 2021).

Por el contrario, si la interacción depende de la distancia topológica, el rango en unidades de aves es constante en las dos bandadas, mientras que la distancia de estos n vecinos más cercanos es pequeña en la bandada más densa y grande en la más escasa.

La diferencia entre la hipótesis topológica y métrica es clara: en el escenario topológico, el número de individuos que interactúan es fijo. Por el contrario, en el escenario métrico, dicho número varía con la densidad; por ejemplo, dentro del mismo rango métrico puede haber 10 aves en una bandada muy densa y solo 1 ave en una muy escasa. Por lo tanto, los rangos topológicos y métricos no son caracterizaciones intercambiables de la interacción.

Por lo tanto, para comprender si lo que importa es la métrica o la distancia topológica, debemos medir cómo el rango métrico y topológico depende de la densidad de las bandadas. En promedio, para este caso de aplicación concreto se sostiene en la fuente citada que el rango topológico es igual a 6.5 aves. “Este resultado contrasta con la mayoría de los modelos y teorías de comportamiento animal colectivo actualmente en el mercado, que asumen un rango métrico de interacción.” Fuente: (Instituto dei Sistemi Complessi, 2021).

¿Por qué una interacción topológica y no métrica? El comportamiento colectivo de los animales se escenifica en un entorno natural convulso. Por tanto, el mecanismo de interacción formado por la evolución debe mantener la cohesión frente a fuertes perturbaciones, de las cuales la depredación es la más relevante. Creemos que la interacción topológica es el único mecanismo que otorga una cohesión tan robusta y, por lo tanto, una mayor aptitud biológica. Una interacción métrica es inadecuada para hacer frente a este problema: siempre que la distancia interindividual se hiciera mayor que el rango métrico, la interacción desaparecería, la cohesión se perdería y los rezagados se “evaporarían” de la agregación. Una interacción topológica, por el contrario, es muy robusta, ya que su fuerza es la misma a diferentes densidades. Al interactuar dentro de un número fijo de individuos, en lugar de metros, la agregación puede ser densa o escasa, cambiar de forma, fluctuar e incluso dividirse, pero manteniendo el mismo grado de cohesión. Por lo tanto, la interacción topológica es funcional para mantener la cohesión frente a las fuertes perturbaciones a las que está sujeta una bandada, típicamente depredación. Así, las distancias topológicas son aquellas distancias entre los elementos de un conjunto, o entre los componentes integrantes de un sistema dinámico, que se mantienen invariantes ante perturbaciones. Por ello, en línea con lo planteado en (Nabi, 2021) en el terreno de la biología molecular, las distancias topológicas denotan las propiedades características, i.e., la esencia, de los fenómenos naturales Lo que es más íntimo, más característico del comportamiento estudiado.

Finalmente, es necesario mencionar que existe evidencia de que el valor particular del rango topológico que encontramos (6.5) está relacionado con las capacidades cognitivas de las aves y, en particular, con sus habilidades pre numéricas[5].

REFERENCIAS

Instituto dei Sistemi Complessi. (27 de Febrero de 2021). Topolical vs Metric Distance. Obtenido de Biological Systems: https://www.isc.cnr.it/research/topics/physical-biology/biological-systems/topological-vs-metric-distance/

Jose, K. (27 de Junio de 2020). Graph Theory | Isomorphic Trees. Obtenido de Towards Data Science: https://towardsdatascience.com/graph-theory-isomorphic-trees-7d48aa577e46

Nabi, I. (14 de Marzo de 2021). HACIA UNA INTERPRETACIÓN DIALÉCTICA-MATERIALISTA DE LA TOPOLOGÍA GENERAL: GÉNESIS HISTÓRICA-TEÓRICA DE LA TOPOLOGÍA DESDE LA GEOMETRÍA Y LA TEORÍA DE CONJUNTOS. Obtenido de El Blog de Isadore Nabi: https://marxianstatistics.com/2021/03/14/hacia-una-interpretacion-dialectica-materialista-de-la-topologia-general-genesis-historica-teorica-de-la-topologia-desde-la-geometria-y-la-teoria-de-conjuntos/

Oilfield Glossary en Español. (2021). gamma (γ). Obtenido de Geofísica: https://glossary.oilfield.slb.com/es/terms/g/gamma

The SEG Wiki. (8 de Abril de 2021). Isotropía Transversal. Obtenido de Dictionary: https://wiki.seg.org/wiki/Dictionary:Transverse_isotropy/es

Wikimedia. (6 de Abril de 2021). Commons. Obtenido de Wikipedia: https://upload.wikimedia.org/wikipedia/commons/b/bf/Undirected.svg

Wikipedia. (6 de Julio de 2021). Graph isomorphism. Obtenido de Morphism: https://en.wikipedia.org/wiki/Graph_isomorphism


[1] La anisotropía es la propiedad general de la materia según la cual cualidades como elasticidad, temperatura, conductividad, velocidad de propagación de la luz, etc., varían según la dirección en que son examinadas.​ Un ente anisótropo puede presentar diferentes características según la dirección.

[2] La isotropía es la característica de algunos fenómenos en el espacio cuyas propiedades no dependen de la dirección en que son examinadas.

[3] La distribución angular de un conjunto de observaciones es la distribución de las direcciones hacia donde los electrones son emitidos dentro de un determinado sistema de coordenadas.

[4] Como se señala en (Oilfield Glossary en Español, 2021), el factor de anisotropía gamma es el parámetro de las ondas S para un medio en el cual las propiedades elásticas exhiben isotropía transversal vertical [implica propiedades elásticas que son las mismas en cualquier dirección perpendicular a un eje de simetría y tiene cinco constantes elásticas independientes, como se señala en (The SEG Wiki, 2021)]. Gamma (γ) es el parámetro de anisotropía de las ondas S y equivale a mitad de la razón de la diferencia entre las velocidades de las ondas SH que se propagan en sentido horizontal y vertical, al cuadrado, dividida por la velocidad de las ondas SH que se propagan verticalmente al cuadrado; una onda SH es una onda de corte polarizada horizontalmente.”

[5] Para el caso de los humanos, las habilidades pre numéricas son aquellas necesarias antes de aprender sobre los números, tales como comparar, clasificar, identificar, reunir, establecer relaciones uno a uno, seriar, etc.

HACIA UNA INTERPRETACIÓN DIALÉCTICA-MATERIALISTA DE LA TOPOLOGÍA GENERAL: GÉNESIS HISTÓRICA-TEÓRICA DE LA TOPOLOGÍA DESDE LA GEOMETRÍA Y LA TEORÍA DE CONJUNTOS

ISADORE NABI