Distribution de Pearson : définition, application

Table des matières:

Distribution de Pearson : définition, application
Distribution de Pearson : définition, application
Anonim

Quelle est la loi de distribution de Pearson ? La réponse à cette vaste question ne peut être simple et concise. Le système Pearson a été conçu à l'origine pour modéliser des observations déformées visibles. À l'époque, on savait comment régler un modèle théorique pour qu'il corresponde aux deux premiers cumulants ou moments des données observées: toute distribution de probabilité peut être directement étendue pour former un groupe d'échelles de localisation.

Hypothèse de Pearson sur la distribution normale des critères

Sauf dans les cas pathologiques, l'échelle de localisation peut être faite pour correspondre à la moyenne (premier cumulant) et à la variance (deuxième cumulant) observées de manière arbitraire. Cependant, on ne savait pas comment construire des distributions de probabilité dans lesquelles l'asymétrie (troisième cumulant standardisé) et l'aplatissement (quatrième cumulant standardisé) pouvaient être contrôlés aussi librement. Ce besoin est devenu évident lorsque l'on a essayé d'ajuster des modèles théoriques connus aux données observées,qui a montré une asymétrie.

Dans la vidéo ci-dessous, vous pouvez voir l'analyse de la distribution du chi de Pearson.

Image
Image

Histoire

Dans son travail original, Pearson a identifié quatre types de distributions (numérotées de I à IV) en plus de la distribution normale (qui était à l'origine connue sous le nom de type V). La classification dépend du fait que les distributions sont supportées sur un intervalle limité, sur un demi-axe ou sur toute la ligne réelle, et si elles étaient potentiellement asymétriques ou nécessairement symétriques.

Deux omissions ont été corrigées dans le deuxième article: il a redéfini la distribution de type V (à l'origine, il s'agissait uniquement de la distribution normale, mais maintenant avec gamma inverse) et a introduit la distribution de type VI. Ensemble, les deux premiers articles couvrent les cinq principaux types de système Pearson (I, III, IV, V et VI). Dans le troisième article, Pearson (1916) a introduit des sous-types supplémentaires.

Fonctions de distribution de Pearson
Fonctions de distribution de Pearson

Améliorer le concept

Rind a inventé un moyen simple de visualiser l'espace des paramètres du système de Pearson (ou la distribution des critères), qu'il a ensuite adopté. Aujourd'hui, de nombreux mathématiciens et statisticiens utilisent cette méthode. Les types de distributions de Pearson sont caractérisés par deux quantités, généralement appelées β1 et β2. Le premier est le carré de l'asymétrie. Le second est le kurtosis traditionnel, ou le quatrième moment standardisé: β2=γ2 + 3.

Les méthodes mathématiques modernes définissent l'aplatissement γ2 comme des cumulants au lieu de moments, donc pour une normaledistribution, nous avons γ2=0 et β2=3. Ici, il vaut la peine de suivre le précédent historique et d'utiliser β2. Le diagramme de droite montre de quel type est une distribution de Pearson particulière (indiquée par le point (β1, β2).

Statistiques de Pearson
Statistiques de Pearson

Beaucoup des distributions asymétriques et/ou non mésokurtiques que nous connaissons aujourd'hui n'étaient pas encore connues au début des années 1890. Ce qui est maintenant connu sous le nom de distribution bêta a été utilisé par Thomas Bayes comme paramètre postérieur de la distribution de Bernoulli dans son article de 1763 sur la probabilité inverse.

La distribution bêta a pris de l'importance en raison de sa présence dans le système Pearson et était connue jusqu'aux années 1940 sous le nom de distribution Pearson de type I. La distribution de type II est un cas particulier du type I, mais elle n'est généralement plus isolée.

La distribution Gamma est issue de ses propres travaux et était connue sous le nom de distribution normale de Pearson de type III avant d'acquérir son nom moderne dans les années 1930 et 1940. Un article de 1895 d'un scientifique a présenté la distribution de type IV, qui contient la distribution t de Student, comme un cas particulier, antérieur à l'utilisation ultérieure de William Seely Gosset de plusieurs années. Son article de 1901 présentait une distribution avec gamma inverse (type V) et bêta premiers (type VI).

Un autre avis

Selon Ord, Pearson a développé la forme de base de l'équation (1) basée sur la formule de la dérivée du logarithme de la fonction de densité de distribution normale (qui donne une division linéaire par le quadratiquestructure). De nombreux spécialistes sont encore en train de tester l'hypothèse sur la distribution des critères de Pearson. Et cela prouve son efficacité.

Distribution alternative de Pearson
Distribution alternative de Pearson

Qui était Karl Pearson

Karl Pearson était un mathématicien et biostatisticien anglais. On lui attribue la création de la discipline des statistiques mathématiques. En 1911, il a fondé le premier département de statistiques au monde à l'University College de Londres et a apporté d'importantes contributions aux domaines de la biométrie et de la météorologie. Pearson était également un partisan du darwinisme social et de l'eugénisme. Il était le protégé et le biographe de Sir Francis G alton.

Biométrique

Karl Pearson a joué un rôle déterminant dans la création de l'école de la biométrie, qui était une théorie concurrente pour décrire l'évolution et l'héritage des populations au tournant du XXe siècle. Sa série de dix-huit articles "Contributions mathématiques à la théorie de l'évolution" l'a établi comme le fondateur de l'école biométrique de l'héritage. En fait, Pearson consacra une grande partie de son temps de 1893 à 1904 à développement de méthodes statistiques pour la biométrie. Ces méthodes, largement utilisées aujourd'hui pour l'analyse statistique, comprennent le test du chi carré, l'écart type, les coefficients de corrélation et de régression.

Coefficient de corrélation de Pearson
Coefficient de corrélation de Pearson

La question de l'hérédité

La loi d'hérédité de Pearson stipule que le plasma germinatif est constitué d'éléments hérités des parents, ainsi que d'ancêtres plus éloignés, dont la proportion varie selon diverses caractéristiques. Karl Pearson était un disciple de G alton, et bien que leurtravaux différaient à certains égards, Pearson a utilisé une quantité importante des concepts statistiques de son professeur pour formuler une école biométrique pour l'héritage, comme la loi de régression.

distribution de Pearson
distribution de Pearson

Caractéristiques de l'école

L'école biométrique, contrairement aux mendéliens, ne s'est pas concentrée sur la fourniture d'un mécanisme d'héritage, mais sur la fourniture d'une description mathématique qui n'était pas de nature causale. Alors que G alton proposait une théorie discontinue de l'évolution dans laquelle les espèces changeraient par grands sauts plutôt que par de petits changements qui s'accumuleraient au fil du temps, Pearson a souligné les défauts de cet argument et a en fait utilisé ses idées pour développer une théorie continue de l'évolution. Les mendéliens préféraient la théorie discontinue de l'évolution.

Alors que G alton se concentrait principalement sur l'application de méthodes statistiques à l'étude de l'hérédité, Pearson et son collègue Weldon ont élargi leur raisonnement dans ce domaine, la variation, les corrélations de la sélection naturelle et sexuelle.

Répartition typique
Répartition typique

Regard sur l'évolution

Pour Pearson, la théorie de l'évolution n'avait pas pour but d'identifier le mécanisme biologique qui explique les modes d'hérédité, alors que l'approche mendélienne déclarait que le gène était le mécanisme de l'hérédité.

Pearson a critiqué Bateson et d'autres biologistes pour ne pas avoir adopté de méthodes biométriques dans leur étude de l'évolution. Il a condamné les scientifiques qui ne se concentraient pas survalidité statistique de leurs théories, indiquant:

"Avant de pouvoir accepter [toute cause de changement progressif] comme facteur, nous devons non seulement montrer sa plausibilité, mais, si possible, démontrer sa capacité quantitative."

Les biologistes ont succombé à "des spéculations presque métaphysiques sur les causes de l'hérédité" qui ont remplacé le processus de collecte de données expérimentales, ce qui peut en fait permettre aux scientifiques d'affiner les théories potentielles.

pont statistique
pont statistique

Les lois de la nature

Pour Pearson, les lois de la nature étaient utiles pour faire des prédictions précises et pour résumer les tendances dans les données observées. La raison était l'expérience "qu'une certaine séquence s'est produite et s'est répétée dans le passé".

Ainsi, l'identification d'un mécanisme particulier de la génétique n'a pas été une entreprise louable pour les biologistes, qui devraient plutôt se concentrer sur les descriptions mathématiques des données empiriques. Cela a en partie conduit à une dispute amère entre les biométristes et les mendéliens, dont Bateson.

Après que ce dernier ait rejeté l'un des manuscrits de Pearson décrivant une nouvelle théorie de la variation ou de l'homotypie de la progéniture, Pearson et Weldon ont fondé la société Biometrika en 1902. Bien que l'approche biométrique de l'héritage ait finalement perdu sa perspective mendélienne, les méthodes qu'ils ont développées à l'époque sont aujourd'hui vitales pour l'étude de la biologie et de l'évolution.

Conseillé: