Informations statistiques : collecte, traitement, analyse

Table des matières:

Informations statistiques : collecte, traitement, analyse
Informations statistiques : collecte, traitement, analyse
Anonim

Tout au long de l'histoire des statistiques, diverses tentatives ont été faites pour créer une taxonomie des niveaux de mesure. Le psychophysicien Stanley Smith Stevens a défini les échelles nominale, ordinale, d'intervalle et proportionnelle.

Les mesures nominales n'ont pas d'ordre de classement significatif entre les valeurs et permettent toute conversion un à un.

Les dimensions régulières ont des différences inexactes entre les valeurs consécutives, mais ont un ordre spécifique de ces valeurs et permettent toute transformation préservant l'ordre.

Les mesures d'intervalle ont des distances significatives entre les points, mais la valeur zéro est arbitraire (comme dans le cas des mesures de longitude et de température en degrés Celsius ou Fahrenheit) et permet toute transformation linéaire.

Les dimensions de rapport ont à la fois une valeur zéro significative et des distances entre différentes dimensions, et permettent toute transformation de mise à l'échelle.

Image
Image

Variables et classification des informations

Parce que les variablescorrespondant uniquement à des mesures nominales ou ordinales ne peuvent raisonnablement être mesurés numériquement et sont parfois regroupés en tant que variables catégorielles. Les mesures de rapport et d'intervalle sont regroupées sous forme de variables quantitatives, qui peuvent être discrètes ou continues en raison de leur nature numérique. De telles distinctions sont souvent vaguement liées au type de données en informatique, puisque les variables catégorielles dichotomiques peuvent être représentées par des valeurs booléennes, des variables catégorielles polytomiques avec des entiers arbitraires dans un type de données intégral et des variables continues avec des composants réels qui impliquent un calcul en virgule flottante. Mais l'affichage des types de données d'informations statistiques dépend de la classification appliquée.

Informations statistiques sur les travailleurs
Informations statistiques sur les travailleurs

Autres classifications

D'autres classifications de données statistiques (informations) ont également été créées. Par exemple, Mosteller et Tukey ont distingué les grades, les rangs, les parts comptées, les décomptes, les montants et les soldes. Nelder a décrit à un moment donné les comptages continus, les rapports continus, la corrélation des comptages et les moyens catégoriques de communiquer les données. Toutes ces méthodes de classification sont utilisées dans la collecte d'informations statistiques.

Problèmes

La question de savoir s'il est approprié d'appliquer différents types de méthodes statistiques aux données obtenues par le biais de différentes procédures de mesure (collecte) est compliquée par des problèmes liés à la conversion des variables et à l'interprétation précise des questionsrechercher. « La relation entre les données et ce qu'elles décrivent reflète simplement le fait que certains types d'énoncés statistiques peuvent avoir des valeurs de vérité qui ne sont pas invariantes sous certaines transformations. La valeur de la transformation dépend de la question à laquelle vous essayez de répondre.

Un exemple d'information statistique
Un exemple d'information statistique

Qu'est-ce qu'un type de données

Le type de données est un composant fondamental du contenu sémantique d'une variable et contrôle les types de distributions de probabilité qui peuvent être logiquement utilisés pour décrire la variable, les opérations autorisées sur celle-ci, le type d'analyse de régression utilisé pour la prédire, etc. Le concept de type de données est similaire au concept de niveau de mesure, mais plus spécifique - par exemple, les comptages de données nécessitent une distribution différente (Poisson ou binomiale) que pour les valeurs réelles non négatives, mais les deux relèvent du même niveau de mesure (échelle de coefficient).

Informations statistiques sur les juges
Informations statistiques sur les juges

Balance

Plusieurs tentatives ont été faites pour créer une taxonomie des niveaux de mesure pour le traitement des informations statistiques. Le psychophysicien Stanley Smith Stevens a défini les échelles nominale, ordinale, d'intervalle et proportionnelle. Les mesures nominales n'ont pas d'ordre de classement significatif parmi les valeurs et permettent toute conversion un à un. Les mesures ordinaires ont des différences imprécises entre les valeurs successives, mais diffèrent dans l'ordre significatif de ces valeurs, et permettenttoute transformation préservant l'ordre. Les mesures d'intervalle ont des distances significatives entre les mesures, mais la valeur zéro est arbitraire (comme dans le cas des mesures de longitude et de température en degrés Celsius ou Fahrenheit) et permet toute transformation linéaire. Les dimensions de rapport ont à la fois une valeur zéro significative et des distances entre différentes dimensions définies, et permettent toute transformation de mise à l'échelle.

Modèle de diagramme
Modèle de diagramme

Les données qui ne peuvent pas être décrites à l'aide d'un seul nombre sont souvent incluses dans des vecteurs aléatoires de variables aléatoires réelles, bien qu'il existe une tendance croissante à les traiter vous-même. Ces exemples seront discutés ci-dessous.

Vecteurs aléatoires

Les éléments individuels peuvent ou non être corrélés. Des exemples de distributions utilisées pour décrire des vecteurs aléatoires corrélés sont la distribution normale multivariée et la distribution t multivariée. En général, il peut y avoir des corrélations arbitraires entre n'importe quel élément, mais cela devient souvent ingérable au-delà d'une certaine taille, nécessitant des contraintes supplémentaires sur les composants corrélés.

attributs statistiques
attributs statistiques

Matrices aléatoires

Les matrices aléatoires peuvent être disposées linéairement et traitées comme des vecteurs aléatoires, mais cela peut ne pas être un moyen efficace de représenter les corrélations entre différents éléments. Certaines distributions de probabilité sont spécifiquement conçues pour les matrices aléatoires, telles que la matrice normaledistribution et distribution de Wishart.

Séquences aléatoires

Parfois, ils sont considérés comme des vecteurs aléatoires, mais dans d'autres cas, le terme s'applique spécifiquement aux cas où chaque variable aléatoire n'est corrélée qu'avec des variables proches (comme dans un modèle de Markov). Il s'agit d'un cas particulier du réseau bayésien et est utilisé pour de très longues séquences, telles que des chaînes de gènes ou de longs documents textuels. Un certain nombre de modèles sont spécialement conçus pour de telles séquences, comme les séquences de Markov cachées.

Tableau typique
Tableau typique

Processus aléatoires

Elles sont similaires aux séquences aléatoires, mais uniquement lorsque la longueur de la séquence est indéfinie ou infinie, et que les éléments de la séquence sont traités un par un. Ceci est souvent utilisé pour les données qui peuvent être décrites comme des séries chronologiques. C'est vrai lorsqu'il s'agit, par exemple, du cours de l'action le lendemain.

Conclusion

L'analyse des informations statistiques dépend entièrement de la qualité de leur collecte. Ce dernier, à son tour, est fortement lié aux possibilités de sa classification. Bien sûr, il existe de nombreux types de classification des informations statistiques, que le lecteur pourra constater par lui-même à la lecture de cet article. Néanmoins, la présence d'outils efficaces et une bonne maîtrise des mathématiques, ainsi que des connaissances dans le domaine de la sociologie, feront leur travail, vous permettant de mener n'importe quelle enquête ou étude sans corrections d'erreur importantes. Sources d'informations statistiques dans le formulaireles personnes, les organisations et d'autres sujets de sociologie, heureusement, sont représentés en grande abondance. Et aucune difficulté ne peut s'opposer à un véritable explorateur.

Conseillé: