Échelle multidimensionnelle : définition, buts, objectifs et exemple

Table des matières:

Échelle multidimensionnelle : définition, buts, objectifs et exemple
Échelle multidimensionnelle : définition, buts, objectifs et exemple
Anonim

La mise à l'échelle multivariée (MDS) est un outil permettant de visualiser le niveau de similarité des cas individuels dans un ensemble de données. Il fait référence à un ensemble de méthodes d'ordination connexes utilisées dans la visualisation d'informations, en particulier pour afficher les informations contenues dans une matrice de distance. Il s'agit d'une forme de réduction de dimensionnalité non linéaire. L'algorithme MDS vise à placer chaque objet dans un espace à N dimensions de manière à ce que les distances entre objets soient conservées au mieux. Chaque objet se voit alors attribuer des coordonnées dans chacune des N dimensions.

Le nombre de dimensions du graphe MDS peut dépasser 2 et est spécifié a priori. La sélection de N=2 optimise le placement des objets pour le nuage de points 2D. Vous pouvez voir des exemples de mise à l'échelle multidimensionnelle dans les images de l'article. Les exemples avec des symboles en russe sont particulièrement illustratifs.

Échelle multidimensionnelle
Échelle multidimensionnelle

Essence

Méthode de mise à l'échelle multidimensionnelle (MMS,MDS) est un ensemble étendu d'outils classiques qui généralise la procédure d'optimisation pour un ensemble de fonctions de perte et de matrices d'entrée de distances connues avec des poids, etc. Dans ce contexte, une fonction de perte utile est appelée contrainte, qui est souvent minimisée par une procédure appelée majoration de contrainte.

Manuel

Il existe plusieurs options pour la mise à l'échelle multidimensionnelle. Les programmes MDS minimisent automatiquement la charge pour obtenir une solution. Le cœur de l'algorithme MDS non métrique est un processus d'optimisation double. Tout d'abord, la transformation de proximité monotone optimale doit être trouvée. Deuxièmement, les points de configuration doivent être positionnés de manière optimale afin que leurs distances correspondent le plus possible aux valeurs de proximité mises à l'échelle.

Exemple de mise à l'échelle multidimensionnelle
Exemple de mise à l'échelle multidimensionnelle

Expansion

Une extension de la mise à l'échelle multidimensionnelle métrique dans les statistiques où l'espace cible est un espace lisse non euclidien arbitraire. Où les différences sont des distances sur une surface et l'espace cible est une surface différente. Les programmes thématiques vous permettent de trouver une pièce jointe avec une distorsion minimale d'une surface à l'autre.

Étapes

La réalisation d'une étude à l'aide d'une échelle multivariée comporte plusieurs étapes:

  1. Formulation du problème. Quelles variables voulez-vous comparer ? Combien de variables voulez-vous comparer ? Dans quel but l'étude sera-t-elle utilisée ?
  2. Récupération des données d'entrée. Les répondants se voient poser une série de questions. Pour chaque paire de produits, on leur demande d'évaluer la similarité (généralement sur une échelle de Likert en 7 points allant de très similaire à très différent). La première question pourrait être pour Coca-Cola/Pepsi, par exemple, la suivante pour la bière, la suivante pour Dr. Pepper, etc. Le nombre de questions dépend du nombre de marques.
Mise à l'échelle des distances
Mise à l'échelle des distances

Approches alternatives

Il existe deux autres approches. Il existe une technique appelée "Perceptual Data: Derived Approach" dans laquelle les produits sont décomposés en attributs et l'évaluation se fait sur une échelle différentielle sémantique. Une autre méthode est « l'approche des données de préférence », dans laquelle les répondants sont interrogés sur leurs préférences plutôt que sur leurs similitudes.

Il se compose des étapes suivantes:

  1. Lancement du programme statistique MDS. Le logiciel pour exécuter la procédure est disponible dans de nombreux progiciels statistiques. On a souvent le choix entre un MDS métrique (qui traite des données de niveau intervalle ou ratio) et un MDS non métrique (qui traite des données ordinales).
  2. Détermination du nombre de mesures. Le chercheur doit déterminer le nombre de mesures qu'il veut créer sur l'ordinateur. Plus il y a de mesures, meilleur est l'ajustement statistique, mais plus il est difficile d'interpréter les résultats.
  3. Afficher les résultats et définir les mesures - le programme statistique (ou le module associé) affichera les résultats. La carte affichera chaque produit (généralement en 2D).espace). La proximité des produits les uns par rapport aux autres indique soit leur similarité, soit leur préférence, selon l'approche utilisée. Cependant, la façon dont les mesures correspondent réellement aux mesures du comportement du système n'est pas toujours claire. Un jugement subjectif de conformité peut être fait ici.
  4. Vérifiez la fiabilité et la validité des résultats - calculez le R au carré pour déterminer la proportion de la variance des données mises à l'échelle qui peut être prise en compte par la procédure MDS. Le carré R 0,6 est considéré comme le niveau minimum acceptable. R au carré 0,8 est considéré comme bon pour la mise à l'échelle métrique, tandis que 0,9 est considéré comme bon pour la mise à l'échelle non métrique.
Résultats de mise à l'échelle multivariée
Résultats de mise à l'échelle multivariée

Tests divers

Les autres tests possibles sont les tests de résistance de type Kruskal, les tests de données fractionnées, les tests de stabilité des données et les tests de fiabilité de retest. Écrivez en détail sur les résultats du test. Parallèlement à la cartographie, au moins une mesure de distance (par exemple, indice de Sorenson, indice de Jaccard) et de fiabilité (par exemple, valeur de contrainte) doit être spécifiée.

Il est également fortement souhaitable de donner un algorithme (par exemple Kruskal, Mather) qui est souvent déterminé par le programme utilisé (remplaçant parfois le rapport d'algorithme), si vous avez donné une configuration de départ ou un choix aléatoire, numéro des exécutions de dimension, des résultats de Monte Carlo, du nombre d'itérations, du score de stabilité et de la variance proportionnelle de chaque axe (r-carré).

Informations visuelles et méthode d'analyse des donnéesmise à l'échelle multidimensionnelle

La visualisation de l'information est l'étude des représentations interactives (visuelles) de données abstraites pour améliorer la cognition humaine. Les données abstraites comprennent à la fois des données numériques et non numériques telles que des informations textuelles et géographiques. Cependant, la visualisation de l'information diffère de la visualisation scientifique: "elle est informationnelle (visualisation de l'information) lorsqu'une représentation spatiale est choisie, et scivis (visualisation scientifique) lorsqu'une représentation spatiale est donnée."

Le domaine de la visualisation de l'information est issu de la recherche sur l'interaction homme-machine, les applications informatiques, le graphisme, la conception visuelle, la psychologie et les méthodes commerciales. Il est de plus en plus utilisé comme composant essentiel dans la recherche scientifique, les bibliothèques numériques, l'exploration de données, les données financières, les études de marché, le contrôle de la production, etc.

Méthodes et principes

La visualisation de l'information suggère que les méthodes de visualisation et d'interaction tirent parti de la richesse de la perception humaine, permettant aux utilisateurs de voir, d'explorer et de comprendre simultanément de grandes quantités d'informations. La visualisation de l'information vise à créer des approches pour communiquer des données abstraites, des informations de manière intuitive.

Mise à l'échelle multidimensionnelle des couleurs
Mise à l'échelle multidimensionnelle des couleurs

L'analyse des données fait partie intégrante de toute recherche appliquée et de la résolution de problèmes dans l'industrie. PlusLes approches fondamentales de l'analyse de données sont la visualisation (histogrammes, diagrammes de dispersion, diagrammes de surface, cartes d'arbres, diagrammes de coordonnées parallèles, etc.), les statistiques (test d'hypothèse, régression, PCA, etc.), l'analyse de données (appariement, etc.)..d.) et des méthodes d'apprentissage automatique (clustering, classification, arbres de décision, etc.).

Parmi ces approches, la visualisation de l'information ou l'analyse visuelle des données est la plus dépendante des compétences cognitives du personnel d'analyse et permet la découverte d'idées exploitables non structurées qui ne sont limitées que par l'imagination et la créativité humaines. Un analyste n'a pas besoin d'apprendre de techniques complexes pour pouvoir interpréter les visualisations de données. La visualisation d'informations est également un schéma de génération d'hypothèses qui peut et est généralement accompagné d'une analyse plus analytique ou formelle telle que le test d'hypothèses statistiques.

Étude

L'étude moderne de la visualisation a commencé avec l'infographie, qui "dès le début a été utilisée pour étudier des problèmes scientifiques. Cependant, dans les premières années, le manque de puissance graphique a souvent limité son utilité. La priorité à la visualisation a commencé à développer en 1987, avec la sortie d'un logiciel spécial pour l'infographie et la visualisation en calcul scientifique. Depuis lors, plusieurs conférences et ateliers ont été organisés conjointement par l'IEEE Computer Society et ACM SIGGRAPH".

Ils ont abordé les thèmes généraux de la visualisation de données, de la visualisation d'informations et de la visualisation scientifique,ainsi que des domaines plus spécifiques tels que le rendu du volume.

Mise à l'échelle multidimensionnelle de la marque
Mise à l'échelle multidimensionnelle de la marque

Résumé

La mise à l'échelle multidimensionnelle généralisée (GMDS) est une extension de la mise à l'échelle multidimensionnelle métrique dans laquelle l'espace cible n'est pas euclidien. Lorsque les différences sont des distances sur une surface et que l'espace cible est une autre surface, GMDS vous permet de trouver l'imbrication d'une surface dans une autre avec une distorsion minimale.

GMDS est une nouvelle ligne de recherche. Actuellement, les principales applications sont la reconnaissance d'objets déformables (par exemple, pour la reconnaissance faciale 3D) et le mappage de texture.

Le but de la mise à l'échelle multidimensionnelle est de représenter des données multidimensionnelles. Les données multidimensionnelles, c'est-à-dire les données qui nécessitent plus de deux ou trois dimensions pour être représentées, peuvent être difficiles à interpréter. Une approche de simplification consiste à supposer que les données d'intérêt se trouvent sur une variété non linéaire intégrée dans un espace de grande dimension. Si le collecteur a une dimension suffisamment faible, les données peuvent être visualisées dans un espace de faible dimension.

De nombreuses méthodes de réduction de dimensionnalité non linéaires sont liées aux méthodes linéaires. Les méthodes non linéaires peuvent être globalement classées en deux groupes: celles qui fournissent une cartographie (soit de l'espace de grande dimension à l'intégration de faible dimension, ou vice versa), et celles qui fournissent simplement une visualisation. Dans le contexte de l'apprentissage automatique, les méthodes de cartographie peuvent être considérées commeune étape préliminaire d'extraction de caractéristiques, après laquelle des algorithmes de reconnaissance de formes sont appliqués. Habituellement, ceux qui ne donnent que des visualisations sont basés sur des données de proximité, c'est-à-dire des mesures de distance. La mise à l'échelle multidimensionnelle est également assez courante en psychologie et dans d'autres sciences humaines.

Mise à l'échelle multidimensionnelle diagonale
Mise à l'échelle multidimensionnelle diagonale

Si le nombre d'attributs est grand, alors l'espace des chaînes uniques possibles est également exponentiellement grand. Ainsi, plus la dimension est grande, plus il devient difficile de représenter l'espace. Cela cause beaucoup de problèmes. Les algorithmes qui fonctionnent sur des données de grande dimension ont tendance à avoir une complexité temporelle très élevée. La réduction des données à moins de dimensions rend souvent les algorithmes d'analyse plus efficaces et peut aider les algorithmes d'apprentissage automatique à faire des prédictions plus précises. C'est pourquoi la mise à l'échelle des données multidimensionnelles est si populaire.

Conseillé: