La méthode de clustering consiste à regrouper un ensemble d'objets de manière à ce qu'ils soient plus similaires les uns aux autres dans le même groupe qu'aux objets d'autres industries. Il s'agit de la tâche principale de l'exploration de données et d'une technique d'analyse statistique générale utilisée dans de nombreux domaines, notamment l'apprentissage automatique, la reconnaissance de formes, la reconnaissance d'images, la recherche d'informations, la compression de données et l'infographie.
Problème d'optimisation
La méthode de clustering elle-même n'est pas un algorithme spécifique, mais une tâche générale qui doit être résolue. Ceci peut être réalisé avec divers algorithmes qui diffèrent considérablement dans la compréhension de ce qui constitue un groupe et comment le trouver efficacement. L'utilisation de la méthode de regroupement pour la formation de métasujets comprend l'utilisation d'un groupe avecpetites distances entre les membres, régions denses de l'espace, intervalles ou certaines distributions statistiques. Par conséquent, le clustering peut être formulé comme un problème d'optimisation multi-objectifs.
La méthode et les paramètres appropriés (y compris des éléments tels que la fonction de distance à utiliser, le seuil de densité ou le nombre de grappes attendues) dépendent de l'ensemble de données individuel et de l'utilisation prévue des résultats. L'analyse en tant que telle n'est pas une tâche automatique, mais un processus itératif de découverte de connaissances ou d'optimisation interactive à objectifs multiples. Cette méthode de clustering comprend des tentatives d'essai et d'erreur. Il est souvent nécessaire de modifier le prétraitement des données et les paramètres du modèle jusqu'à ce que le résultat atteigne les propriétés souhaitées.
En plus du terme "regroupement", il existe un certain nombre de mots ayant des significations similaires, notamment la classification automatique, la taxonomie numérique, la bothryologie et l'analyse typologique. Des différences subtiles résident souvent dans l'utilisation de la méthode de regroupement pour former des relations de métasujet. Alors que dans l'extraction de données, les groupes résultants sont intéressants, dans la classification automatique, c'est déjà le pouvoir discriminant qui remplit ces fonctions.
L'analyse des grappes était basée sur de nombreux travaux de Kroeber en 1932. Il a été introduit en psychologie par Zubin en 1938 et par Robert Tryon en 1939. Et ces travaux ont été utilisés par Cattell depuis 1943 pour indiquer la classification des méthodes de clustering en théorie.
Terme
Le concept de "cluster" ne peut pas être défini avec précision. C'est l'une des raisons pour lesquelles il existe tant de méthodes de clustering. Il existe un dénominateur commun: un groupe d'objets de données. Cependant, différents chercheurs utilisent différents modèles. Et chacune de ces utilisations des méthodes de clustering implique des données différentes. Le concept trouvé par divers algorithmes diffère considérablement dans ses propriétés.
L'utilisation de la méthode de regroupement est la clé pour comprendre les différences entre les instructions. Les modèles de cluster typiques incluent:
- Centre de gravité s. C'est, par exemple, lorsque le clustering k-means représente chaque cluster avec un vecteur moyen.
- Modèle de connectivité s. Il s'agit, par exemple, du clustering hiérarchique, qui construit des modèles basés sur la connectivité à distance.
- Modèle de distribution s. Dans ce cas, les clusters sont modélisés à l'aide de la méthode de clustering pour former des distributions statistiques de méta-sujets. Comme la séparation normale multivariée, qui s'applique à l'algorithme de maximisation des attentes.
- Modèle de densité s. Ce sont, par exemple, DBSCAN (Spatial Clustering Algorithm with Noise) et OPTICS (Order Points for Structure Detection), qui définissent les clusters comme des régions denses connectées dans l'espace de données.
- Modèle de sous-espace c. Dans le biclustering (également connu sous le nom de co-clustering ou deux modes), les groupes sont modélisés avec les deux éléments et avec les attributs appropriés.
- Modèle s. Certains algorithmes nerelation raffinée pour leur méthode de regroupement afin de générer des résultats de méta-sujet et de fournir simplement un regroupement d'informations.
- Modèle basé sur les graphes. Une clique, c'est-à-dire un sous-ensemble de nœuds, tel que deux connexions dans la partie de bord peuvent être considérées comme un prototype de la forme du cluster. L'affaiblissement de la demande totale est connu sous le nom de quasi-cliques. Exactement le même nom est présenté dans l'algorithme de clustering HCS.
- Modèles neuronaux s. Le réseau non supervisé le plus connu est la carte auto-organisée. Et ce sont ces modèles qui peuvent généralement être caractérisés comme similaires à une ou plusieurs des méthodes de regroupement ci-dessus pour la formation de résultats de méta-sujets. Il inclut les systèmes de sous-espace lorsque les réseaux de neurones implémentent la forme nécessaire d'analyse en composantes principales ou indépendantes.
Ce terme est, en fait, un ensemble de tels groupes, qui contiennent généralement tous les objets dans l'ensemble des méthodes de regroupement de données. En outre, il peut indiquer la relation des clusters entre eux, comme une hiérarchie de systèmes intégrés les uns aux autres. Le groupement peut être divisé selon les aspects suivants:
- Méthode de clustering centroïde dur. Ici, chaque objet appartient à un groupe ou est en dehors de celui-ci.
- Système mou ou flou. À ce stade, chaque objet appartient déjà dans une certaine mesure à n'importe quel cluster. On l'appelle aussi la méthode de clustering flou c-means.
Et des différences plus subtiles sont également possibles. Par exemple:
- Groupement de partitionnement strict. Icichaque objet appartient à exactement un groupe.
- Regroupement de partitionnement strict avec valeurs aberrantes. Dans ce cas, les objets peuvent également n'appartenir à aucun cluster et être considérés comme inutiles.
- Regroupement superposé (également alternatif, avec plusieurs vues). Ici, les objets peuvent appartenir à plusieurs branches. Impliquant généralement des clusters solides.
- Méthodes de clustering hiérarchique. Les objets appartenant à un groupe enfant appartiennent également au sous-système parent.
- Formation du sous-espace. Bien que similaires aux clusters qui se chevauchent, au sein d'un système défini de manière unique, les groupes mutuels ne doivent pas se chevaucher.
Instructions
Comme indiqué ci-dessus, les algorithmes de clustering peuvent être classés en fonction de leur modèle de cluster. L'examen suivant ne répertoriera que les exemples les plus importants de ces instructions. Comme il peut y avoir plus de 100 algorithmes publiés, tous ne fournissent pas de modèles pour leurs clusters et ne peuvent donc pas être facilement classés.
Il n'y a pas d'algorithme de clustering objectivement correct. Mais, comme indiqué ci-dessus, l'instruction est toujours dans le champ de vision de l'observateur. L'algorithme de clustering le plus approprié pour un problème particulier doit souvent être choisi expérimentalement, à moins qu'il n'y ait une raison mathématique de préférer un modèle à un autre. Il convient de noter qu'un algorithme conçu pour un seul type ne fonctionne généralement pas avecun ensemble de données qui contient un sujet radicalement différent. Par exemple, k-means ne peut pas trouver de groupes non convexes.
Clusterisation basée sur la connexion
Cette union est également connue sous son nom, le modèle hiérarchique. Il est basé sur l'idée typique que les objets sont plus connectés aux parties voisines qu'à celles qui sont beaucoup plus éloignées. Ces algorithmes connectent des objets, formant différents clusters, en fonction de leur distance. Un groupe peut être décrit principalement par la distance maximale nécessaire pour relier les différentes parties du cluster. A toutes les distances possibles, d'autres groupes se formeront, qui peuvent être représentés à l'aide d'un dendrogramme. Cela explique d'où vient le nom commun "cluster hiérarchique". Autrement dit, ces algorithmes ne fournissent pas une partition unique de l'ensemble de données, mais fournissent à la place un ordre d'autorité étendu. C'est grâce à lui qu'il y a un drain les uns avec les autres à certaines distances. Dans un dendrogramme, l'axe des ordonnées indique la distance à laquelle les grappes se rejoignent. Et les objets sont disposés le long de la ligne X afin que les groupes ne se mélangent pas.
Le clustering basé sur les connexions est une famille entière de méthodes qui diffèrent dans la façon dont elles calculent les distances. Outre le choix habituel des fonctions de distance, l'utilisateur doit également décider du critère de connexion. Puisqu'un cluster est constitué de plusieurs objets, il existe de nombreuses options pour le calculer. Un choix populaire est connu sous le nom de groupement à levier unique, c'est la méthodelien complet, qui contient UPGMA ou WPGMA (ensemble non pondéré ou pondéré de paires avec moyenne arithmétique, également connu sous le nom de regroupement de liens moyens). De plus, le système hiérarchique peut être agglomérant (commençant par des éléments individuels et les combinant en groupes) ou divisant (commençant par un ensemble de données complet et le divisant en sections).
Clusterage distribué
Ces modèles sont plus étroitement liés aux statistiques basées sur les répartitions. Les clusters peuvent être facilement définis comme des objets qui appartiennent très probablement à la même distribution. Une caractéristique pratique de cette approche est qu'elle est très similaire à la façon dont les ensembles de données artificiels sont créés. En échantillonnant des objets aléatoires à partir d'une distribution.
Bien que la base théorique de ces méthodes soit excellente, elles souffrent d'un problème clé, connu sous le nom de surajustement, à moins que des limites ne soient imposées à la complexité du modèle. Une association plus large expliquera généralement mieux les données, ce qui rendra difficile le choix de la bonne méthode.
Modèle de mélange gaussien
Cette méthode utilise toutes sortes d'algorithmes de maximisation des attentes. Ici, l'ensemble de données est généralement modélisé avec un nombre fixe (pour éviter de remplacer) de distributions gaussiennes qui sont initialisées de manière aléatoire et dont les paramètres sont optimisés de manière itérative pour mieux s'adapter à l'ensemble de données. Ce système convergera vers un optimum local. C'est pourquoi plusieurs passages peuvent donnerrésultats différents. Pour obtenir le regroupement le plus serré, les entités sont souvent affectées à la distribution gaussienne à laquelle elles sont le plus susceptibles d'appartenir. Et pour les groupes plus doux, ce n'est pas nécessaire.
Le clustering basé sur la distribution crée des modèles complexes qui peuvent finalement capturer la corrélation et la dépendance entre les attributs. Cependant, ces algorithmes imposent une charge supplémentaire à l'utilisateur. Pour de nombreux ensembles de données du monde réel, il peut ne pas y avoir de modèle mathématique défini de manière concise (par exemple, en supposant qu'une distribution gaussienne est une hypothèse assez forte).
Clusterisation basée sur la densité
Dans cet exemple, les groupes sont essentiellement définis comme des zones avec une imperméabilité plus élevée que le reste de l'ensemble de données. Les objets dans ces parties rares, qui sont nécessaires pour séparer tous les composants, sont généralement considérés comme des points de bruit et de bord.
La méthode de clustering basée sur la densité la plus populaire est DBSCAN (Spatial Noise Clustering Algorithm). Contrairement à de nombreuses méthodes plus récentes, il possède un composant de cluster bien défini appelé "accessibilité de densité". Semblable au clustering basé sur les liens, il est basé sur des points de connexion à l'intérieur de certains seuils de distance. Cependant, cette méthode ne collecte que les éléments qui satisfont au critère de densité. Dans la version originale, défini comme le nombre minimum d'autres objets dans ce rayon, le cluster est constitué de tousles éléments liés à la densité (qui peuvent former un groupe de forme libre, contrairement à de nombreuses autres méthodes), et tous les objets qui se trouvent dans la plage autorisée.
Une autre propriété intéressante de DBSCAN est que sa complexité est assez faible - elle nécessite un nombre linéaire de requêtes de plage dans la base de données. Et aussi inhabituel est qu'il trouvera essentiellement les mêmes résultats (ceci est déterministe pour les points de noyau et de bruit, mais pas pour les éléments de frontière) dans chaque exécution. Par conséquent, il n'est pas nécessaire de l'exécuter plusieurs fois.
Le principal inconvénient de DBSCAN et OPTICS est qu'ils s'attendent à une certaine baisse de densité pour détecter les limites des clusters. Par exemple, dans les ensembles de données avec des distributions gaussiennes qui se chevauchent - un cas d'utilisation courant pour les objets artificiels - les limites de cluster générées par ces algorithmes semblent souvent arbitraires. Cela se produit parce que la densité des groupes diminue continuellement. Et dans un ensemble de données de mélange gaussien, ces algorithmes surpassent presque toujours les méthodes telles que le clustering EM, qui sont capables de modéliser avec précision ces types de systèmes.
Le déplacement moyen est une approche de regroupement dans laquelle chaque objet se déplace vers la zone la plus dense du voisinage en fonction d'une estimation du noyau entier. Au final, les objets convergent vers des maxima d'impénétrabilité locale. Semblables au clustering k-means, ces "attracteurs de densité" peuvent servir de représentants pour un ensemble de données. Mais le décalage moyenpeut détecter des clusters de forme arbitraire similaires à DBSCAN. En raison de la procédure itérative coûteuse et de l'estimation de la densité, le déplacement moyen est généralement plus lent que DBSCAN ou k-Means. De plus, l'applicabilité de l'algorithme de décalage typique aux données de grande dimension est difficile en raison du comportement non uniforme de l'estimation de la densité du noyau, ce qui conduit à une fragmentation excessive des queues de cluster.
Classement
Vérifier les résultats du clustering est aussi difficile que le clustering lui-même. Les approches populaires incluent la notation "interne" (où le système est réduit à une seule mesure de qualité) et, bien sûr, la notation "externe" (où le regroupement est comparé à une classification "vérité terrain" existante). Et le score manuel de l'expert humain et le score indirect sont trouvés en examinant l'utilité du regroupement dans l'application prévue.
Les mesures d'indicateurs internes souffrent du problème qu'elles représentent des fonctionnalités qui peuvent elles-mêmes être considérées comme des cibles de regroupement. Par exemple, il est possible de regrouper des données données par le coefficient Silhouette, sauf qu'il n'existe aucun algorithme efficace connu pour le faire. En utilisant une telle mesure interne pour l'évaluation, il est préférable de comparer la similarité des problèmes d'optimisation.
La marque extérieure a des problèmes similaires. S'il existe de telles étiquettes de "vérité terrain", alors il n'est pas nécessaire de regrouper. Et dans les applications pratiques, il n'y a généralement pas de tels concepts. D'autre part, les étiquettes ne reflètent qu'une seule partition possible de l'ensemble de données, ce qui ne signifie pasqu'il n'y a pas d'autre regroupement (peut-être même mieux).
Donc, aucune de ces approches ne peut en définitive juger de la qualité réelle. Mais cela nécessite une évaluation humaine, qui est très subjective. Néanmoins, ces statistiques peuvent être utiles pour identifier les clusters défectueux. Mais il ne faut pas négliger l'évaluation subjective d'une personne.
Marque intérieure
Lorsque le résultat d'un regroupement est évalué sur la base de données qui ont elles-mêmes été regroupées, on parle de ce terme. Ces méthodes attribuent généralement le meilleur résultat à un algorithme qui crée des groupes avec une forte similarité à l'intérieur et une faible entre les groupes. L'un des inconvénients de l'utilisation de critères internes dans l'évaluation des clusters est que des scores élevés ne conduisent pas nécessairement à des applications efficaces de recherche d'informations. De plus, ce score est biaisé en faveur des algorithmes qui utilisent le même modèle. Par exemple, le clustering k-means optimise naturellement les distances des entités, et un critère interne basé sur celui-ci est susceptible de surestimer le clustering résultant.
Par conséquent, ces mesures d'évaluation sont les mieux adaptées pour se faire une idée des situations où un algorithme est plus performant qu'un autre. Mais cela ne signifie pas que chaque information donne des résultats plus fiables que les autres. La période de validité mesurée par un tel indice dépend de l'assertion que la structure existe dans l'ensemble de données. Un algorithme développé pour certains types n'a aucune chance si l'ensemble contient radicalementcomposition différente ou si l'évaluation mesure des critères différents. Par exemple, le clustering k-means ne peut trouver que des clusters convexes, et de nombreux indices de score adoptent le même format. Dans un ensemble de données avec des modèles non convexes, il est inapproprié d'utiliser des k-moyennes et des critères d'évaluation typiques.
Évaluation externe
Avec ce type de regroupement, les résultats de regroupement sont évalués en fonction des données qui n'ont pas été utilisées pour le regroupement. C'est-à-dire, comme les étiquettes de classe connues et les tests externes. Ces questions consistent en un ensemble d'items pré-classifiés et sont souvent créées par des experts (humains). En tant que tels, les kits de référence peuvent être considérés comme l'étalon-or pour l'évaluation. Ces types de méthodes de notation mesurent la proximité du regroupement par rapport à des classes de référence données. Cependant, il a été récemment discuté si cela est adéquat pour des données réelles ou uniquement pour des ensembles synthétiques avec une vérité terrain réelle. Étant donné que les classes peuvent contenir une structure interne et que les attributs existants peuvent ne pas permettre la séparation des clusters. De plus, du point de vue de la découverte des connaissances, la reproduction de faits connus ne produit pas nécessairement le résultat attendu. Dans un scénario de regroupement contraint spécial où les méta-informations (telles que les étiquettes de classe) sont déjà utilisées dans le processus de regroupement, il n'est pas trivial de conserver toutes les informations à des fins d'évaluation.
Maintenant, il est clair ce qui ne s'applique pas aux méthodes de clustering, et quels modèles sont utilisés à ces fins.