Modélisation statistique : méthodes, description, application

Table des matières:

Modélisation statistique : méthodes, description, application
Modélisation statistique : méthodes, description, application
Anonim

Les hypothèses incorporées dans la modélisation statistique décrivent un ensemble de distributions de probabilité, dont certaines sont supposées se rapprocher de manière adéquate de la distribution. Un ensemble spécifique de données est sélectionné à partir de la définition. Les distributions de probabilité inhérentes à la modélisation statistique sont ce qui distingue les modèles statistiques des autres modèles mathématiques non statistiques.

Image
Image

Connexion avec les mathématiques

Cette méthode scientifique est principalement ancrée dans les mathématiques. La modélisation statistique des systèmes est généralement donnée par des équations mathématiques qui relient une ou plusieurs variables aléatoires et éventuellement d'autres variables non aléatoires. Ainsi, un modèle statistique est une "représentation formelle d'une théorie" (Hermann Ader, citant Kenneth Bollen).

Tous les tests d'hypothèses statistiques et toutes les estimations statistiques sont dérivés de modèles statistiques. Plus généralement, les modèles statistiques font partie de la base de l'inférence statistique.

Méthodes de statistiquesmodélisation

De manière informelle, un modèle statistique peut être considéré comme une hypothèse statistique (ou un ensemble d'hypothèses statistiques) avec une certaine propriété: cette hypothèse nous permet de calculer la probabilité de tout événement. À titre d'exemple, considérons une paire de dés ordinaires à six faces. Nous étudierons deux hypothèses statistiques différentes sur l'os.

La première hypothèse statistique constitue le modèle statistique, car avec une seule hypothèse, nous pouvons calculer la probabilité de n'importe quel événement. L'hypothèse statistique alternative ne constitue pas un modèle statistique, car avec une seule hypothèse, nous ne pouvons pas calculer la probabilité de chaque événement.

Modèle statistique typique
Modèle statistique typique

Dans l'exemple ci-dessus avec la première hypothèse, il est facile de calculer la probabilité d'un événement. Cependant, dans certains autres exemples, le calcul peut être complexe ou même peu pratique (par exemple, il peut nécessiter des millions d'années de calcul). Pour l'hypothèse qui constitue un modèle statistique, cette difficulté est acceptable: effectuer le calcul n'a pas à être pratiquement faisable, mais seulement théoriquement possible.

Exemples de modèles

Supposons que nous ayons une population d'écoliers avec des enfants uniformément répartis. La taille d'un enfant sera liée stochastiquement à son âge: par exemple, quand on sait qu'un enfant a 7 ans, cela affecte la probabilité que l'enfant mesure 5 pieds (environ 152 cm). On pourrait formaliser cette relation dans un modèle de régression linéaire, par exemple: croissance=b0 + b1agei+ εi, où b0 est l'intersection, b1 est le paramètre par lequel l'âge est multiplié lors de l'obtention de la prévision de croissance, εi est le terme d'erreur. Cela implique que la taille est prédite par l'âge avec une certaine erreur.

Un modèle valide doit correspondre à tous les points de données. Ainsi, une ligne droite (heighti=b0 + b1agei) ne peut pas être une équation pour un modèle de données - à moins qu'elle ne corresponde exactement à tous les points de données, c'est-à-dire que tous les points de données se trouvent parfaitement sur la ligne. Le terme d'erreur εi doit être inclus dans l'équation pour que le modèle s'adapte à tous les points de données.

statistiques de genre
statistiques de genre

Pour faire une inférence statistique, nous devons d'abord supposer certaines distributions de probabilité pour εi. Par exemple, on peut supposer que les distributions de εi sont gaussiennes, de moyenne nulle. Dans ce cas, le modèle aura 3 paramètres: b0, b1 et la variance de la distribution gaussienne.

Description générale

Un modèle statistique est une classe spéciale de modèle mathématique. Ce qui distingue un modèle statistique des autres modèles mathématiques, c'est qu'il est non déterministe. Il est utilisé pour modéliser des données statistiques. Ainsi, dans un modèle statistique défini avec des équations mathématiques, certaines variables n'ont pas de valeurs spécifiques, mais ont plutôt des distributions de probabilité; c'est-à-dire que certaines variables sont stochastiques. Dans l'exemple ci-dessus, ε est une variable stochastique; sans cette variable, le modèle étaitserait déterministe.

Les modèles statistiques sont souvent utilisés dans l'analyse statistique et la modélisation, même si le processus physique modélisé est déterministe. Par exemple, lancer des pièces est en principe un processus déterministe; pourtant, il est généralement modélisé comme stochastique (via un processus de Bernoulli).

statistiques de réchauffement
statistiques de réchauffement

Modèles paramétriques

Les modèles paramétriques sont les modèles statistiques les plus couramment utilisés. Concernant les modèles semi-paramétriques et non paramétriques, Sir David Cox a déclaré: "Ils incluent généralement moins d'hypothèses sur la structure et la forme de la distribution, mais contiennent généralement de fortes hypothèses d'indépendance." Comme tous les autres modèles mentionnés, ils sont également souvent utilisés dans la méthode statistique de la modélisation mathématique.

Modèles à plusieurs niveaux

Les modèles à plusieurs niveaux (également appelés modèles linéaires hiérarchiques, modèles de données imbriqués, modèles mixtes, coefficients aléatoires, modèles à effets aléatoires, modèles à paramètres aléatoires ou modèles partitionnés) sont des modèles à paramètres statistiques qui varient à plusieurs niveaux. Un exemple est un modèle de réussite des élèves qui contient des métriques pour les élèves individuels ainsi que des métriques pour les salles de classe dans lesquelles les élèves sont regroupés. Ces modèles peuvent être considérés comme des généralisations de modèles linéaires (en particulier, la régression linéaire), bien qu'ils puissent également être étendus à des modèles non linéaires. Ces modèles sont devenusbeaucoup plus populaire une fois qu'une puissance de calcul et des logiciels suffisants sont devenus disponibles.

Statistiques sectorielles
Statistiques sectorielles

Les modèles multiniveaux sont particulièrement adaptés aux projets de recherche où les données des participants sont organisées à plusieurs niveaux (c'est-à-dire des données imbriquées). Les unités d'analyse sont généralement des individus (à un niveau inférieur) qui sont imbriqués dans des unités contextuelles/agrégées (à un niveau supérieur). Bien que le niveau de données le plus bas dans les modèles multiniveaux soit généralement individuel, des mesures répétées d'individus peuvent également être envisagées. Ainsi, les modèles multiniveaux fournissent un type d'analyse alternatif pour l'analyse de mesures répétées univariées ou multivariées. Des différences individuelles dans les courbes de croissance peuvent être prises en compte. De plus, des modèles multiniveaux peuvent être utilisés comme alternative à l'ANCOVA, où les scores des variables dépendantes sont ajustés pour les covariables (par exemple, les différences individuelles) avant de tester les différences de traitement. Les modèles multiniveaux sont capables d'analyser ces expériences sans l'hypothèse de pentes de régression uniformes requises par l'ANCOVA.

Les modèles à plusieurs niveaux peuvent être utilisés pour les données à plusieurs niveaux, bien que les modèles à deux niveaux soient les plus courants et que le reste de cet article se concentre sur ceux-ci. La variable dépendante doit être examinée au niveau d'analyse le plus bas.

Graphique de la pression atmosphérique
Graphique de la pression atmosphérique

Sélection du modèle

Sélection du modèleconsiste à sélectionner parmi un ensemble de modèles candidats compte tenu des données, réalisé dans le cadre d'une modélisation statistique. Dans les cas les plus simples, un jeu de données déjà existant est considéré. Cependant, la tâche peut également impliquer la conception d'expériences afin que les données collectées soient bien adaptées à la tâche de sélection du modèle. Étant donné les modèles candidats ayant un pouvoir prédictif ou explicatif similaire, le modèle le plus simple est susceptible d'être le meilleur choix (rasoir d'Occam).

Konishi & Kitagawa déclarent: "La plupart des problèmes d'inférence statistique peuvent être considérés comme des problèmes liés à la modélisation statistique." De même, Cox a déclaré: "La façon dont la traduction du sujet dans le modèle statistique est effectuée est souvent la partie la plus importante de l'analyse."

La sélection de modèles peut également faire référence au problème de la sélection de quelques modèles représentatifs parmi un large ensemble de modèles informatiques à des fins de décision ou d'optimisation dans des conditions d'incertitude.

Motifs graphiques

Modèle graphique, ou modèle graphique probabiliste, (PGM) ou modèle probabiliste structuré, est un modèle probabiliste pour lequel le graphe exprime la structure d'une relation conditionnelle entre des variables aléatoires. Ils sont couramment utilisés dans la théorie des probabilités, les statistiques (en particulier les statistiques bayésiennes) et l'apprentissage automatique.

Modèle statistique avec un graphique
Modèle statistique avec un graphique

Modèles économétriques

Les modèles économétriques sont des modèles statistiques utilisés danséconométrie. Un modèle économétrique définit les relations statistiques censées exister entre diverses quantités économiques liées à un phénomène économique particulier. Un modèle économétrique peut être dérivé d'un modèle économique déterministe prenant en compte l'incertitude, ou d'un modèle économique lui-même stochastique. Cependant, il est également possible d'utiliser des modèles économétriques qui ne sont liés à aucune théorie économique particulière.

Conseillé: