¿Cuál es la función de un clúster?

Cluster os

Ahora que las empresas pueden obtener capital, bienes, información y tecnología de todo el mundo, a menudo con un clic del ratón, hay que revisar gran parte de la sabiduría convencional sobre cómo compiten las empresas y las naciones. En teoría, la mayor apertura de los mercados mundiales y la mayor rapidez de los transportes y las comunicaciones deberían reducir el papel de la localización en la competencia. Al fin y al cabo, todo lo que puede obtenerse eficientemente a distancia a través de los mercados globales y las redes corporativas está a disposición de cualquier empresa y, por tanto, queda esencialmente anulado como fuente de ventaja competitiva.

Pero si la ubicación importa menos, ¿por qué, entonces, es cierto que las probabilidades de encontrar una empresa de fondos de inversión de categoría mundial en Boston son mucho mayores que en casi cualquier otro lugar? ¿Por qué no se puede decir lo mismo de las empresas relacionadas con el sector textil en Carolina del Norte y Carolina del Sur, de las empresas de automóviles de alto rendimiento en el sur de Alemania o de las empresas de calzado de moda en el norte de Italia?

El mapa económico del mundo actual está dominado por lo que yo llamo clusters: masas críticas -en un mismo lugar- de inusual éxito competitivo en determinados campos. Los clusters son una característica sorprendente de prácticamente todas las economías nacionales, regionales, estatales e incluso metropolitanas, especialmente en las naciones económicamente más avanzadas. Silicon Valley y Hollywood pueden ser los clusters más conocidos del mundo. Sin embargo, los clusters no son únicos, sino muy típicos, y ahí radica una paradoja: las ventajas competitivas duraderas en una economía global residen cada vez más en cosas locales -conocimiento, relaciones, motivación- que los rivales lejanos no pueden igualar.

Clustering jerárquico

R tiene una increíble variedad de funciones para el análisis de clústeres. En esta sección, describiré tres de los muchos enfoques: aglomerativo jerárquico, partición y basado en modelos. Aunque no hay soluciones óptimas para el problema de determinar el número de clusters a extraer, a continuación se presentan varios enfoques.

El clustering de K-means es el método de partición más popular. Requiere que el analista especifique el número de conglomerados a extraer. Un gráfico de la suma de cuadrados dentro de los grupos por el número de conglomerados extraídos puede ayudar a determinar el número apropiado de conglomerados. El analista busca una curvatura en el gráfico similar a la prueba scree en el análisis factorial. Véase Everitt & Hothorn (pág. 251).

Se puede invocar una versión robusta de K-means basada en mediods utilizando pam( ) en lugar de kmeans( ). La función pamk( ) en el paquete fpc es una envoltura para pam que también imprime el número sugerido de clusters basado en la anchura media óptima de la silueta.

La función pvclust( ) del paquete pvclust proporciona valores p para la agrupación jerárquica basada en el remuestreo bootstrap multiescala. Los clusters que están altamente apoyados por los datos tendrán valores p grandes. Los detalles de interpretación se proporcionan en Suzuki. Tenga en cuenta que pvclust agrupa columnas, no filas. Transponga sus datos antes de utilizarlo.

Análisis de conglomerados spss

El análisis de conglomerados o clustering es la tarea de agrupar un conjunto de objetos de manera que los objetos del mismo grupo (llamado cluster) sean más similares (en algún sentido) entre sí que los de otros grupos (clusters). Es una de las principales tareas del análisis exploratorio de datos, y una técnica común para el análisis estadístico de datos, utilizada en muchos campos, como el reconocimiento de patrones, el análisis de imágenes, la recuperación de información, la bioinformática, la compresión de datos, la infografía y el aprendizaje automático.

El análisis de clústeres en sí mismo no es un algoritmo específico, sino la tarea general que hay que resolver. Puede llevarse a cabo mediante varios algoritmos que difieren significativamente en su comprensión de lo que constituye un clúster y cómo encontrarlos de forma eficiente. Las nociones populares de cluster incluyen grupos con pequeñas distancias entre los miembros del cluster, áreas densas del espacio de datos, intervalos o distribuciones estadísticas particulares. Por tanto, la agrupación puede formularse como un problema de optimización multiobjetivo. El algoritmo de clustering adecuado y la configuración de los parámetros (incluyendo parámetros como la función de distancia a utilizar, un umbral de densidad o el número de clusters esperados) dependen del conjunto de datos individual y del uso previsto de los resultados. El análisis de conglomerados como tal no es una tarea automática, sino un proceso iterativo de descubrimiento de conocimientos u optimización interactiva multiobjetivo que implica pruebas y fallos. A menudo es necesario modificar el preprocesamiento de los datos y los parámetros del modelo hasta que el resultado alcance las propiedades deseadas.

Computación en clústeres

Supongamos que nos dan una base de datos de ‘n’ objetos y el método de partición construye ‘k’ particiones de datos. Cada partición representará un clúster y k ≤ n. Esto significa que clasificará los datos en k grupos, que satisfacen los siguientes requisitos

Este método crea una descomposición jerárquica del conjunto dado de objetos de datos. Podemos clasificar los métodos jerárquicos sobre la base de cómo se forma la descomposición jerárquica. En este caso hay dos enfoques –

Este enfoque se conoce también como enfoque ascendente. En este, se comienza con cada objeto formando un grupo separado. Se sigue fusionando los objetos o grupos que están cerca unos de otros. Sigue haciéndolo hasta que todos los grupos se fusionan en uno solo o hasta que se cumple la condición de terminación.

Este enfoque también se conoce como enfoque descendente. En él, se comienza con todos los objetos de un mismo cluster. En la iteración continua, un cluster se divide en clusters más pequeños. Se baja hasta que cada objeto de un cluster o la condición de terminación se cumple. Este método es rígido, es decir, una vez que se ha realizado una fusión o división, no se puede deshacer.