Un modèle statistique est une projection mathématique qui incarne un ensemble d'hypothèses différentes sur la génération de certaines données d'échantillon. Le terme est souvent présenté sous une forme très idéalisée.
Les hypothèses exprimées dans le modèle statistique montrent un ensemble de distributions de probabilité. Beaucoup d'entre eux sont destinés à approximer correctement la distribution à partir de laquelle un ensemble particulier d'informations est tiré. Les distributions de probabilité inhérentes aux modèles statistiques sont ce qui distingue la projection des autres modifications mathématiques.
Projection générale
Le modèle mathématique est une description du système utilisant certains concepts et langage. Ils s'appliquent aux sciences naturelles (telles que la physique, la biologie, les sciences de la terre, la chimie) et les disciplines d'ingénierie (telles que l'informatique, le génie électrique), ainsi qu'aux sciences sociales (telles que l'économie, la psychologie, la sociologie, les sciences politiques).
Le modèle peut aider à expliquer le système etétudier l'influence de divers composants et faire des prédictions de comportement.
Les modèles mathématiques peuvent prendre de nombreuses formes, notamment des systèmes dynamiques, des projections statistiques, des équations différentielles ou des paramètres de la théorie des jeux. Ces types et d'autres peuvent se chevaucher, et ce modèle comprend de nombreuses structures abstraites. En général, les projections mathématiques peuvent également inclure des composants logiques. Dans de nombreux cas, la qualité d'un domaine scientifique dépend de la mesure dans laquelle les modèles mathématiques développés du côté théorique concordent avec les résultats d'expériences répétées. Le manque de concordance entre les processus théoriques et les mesures expérimentales conduit souvent à des avancées importantes à mesure que de meilleures théories sont développées.
En sciences physiques, le modèle mathématique traditionnel contient un grand nombre des éléments suivants:
- Équations de contrôle.
- Sous-modèles supplémentaires.
- Définir les équations.
- Équations constitutives.
- Hypothèses et limites.
- Conditions initiales et aux limites.
- Contraintes classiques et équations cinématiques.
Formule
Un modèle statistique, en règle générale, est défini par des équations mathématiques qui combinent une ou plusieurs variables aléatoires et, éventuellement, d'autres variables naturelles. De même, la projection est considérée comme "le concept formel d'un concept".
Tous les tests d'hypothèses statistiques et les évaluations statistiques sont obtenus à partir de modèles mathématiques.
Présentation
De manière informelle, un modèle statistique peut être considéré comme une hypothèse (ou un ensemble d'hypothèses) avec une propriété spécifique: il permet de calculer la probabilité de n'importe quel événement. À titre d'exemple, considérons une paire de dés ordinaires à six faces. Deux hypothèses statistiques différentes sur l'os doivent être explorées.
La première hypothèse est:
Pour chacun des dés, la probabilité d'obtenir un des nombres (1, 2, 3, 4, 5 et 6) est: 1/6.
À partir de cette hypothèse, nous pouvons calculer la probabilité des deux dés: 1:1/6×1/6=1/36.
Plus généralement, vous pouvez calculer la probabilité de n'importe quel événement. Cependant, il faut comprendre qu'il est impossible de calculer la probabilité d'un autre événement non trivial.
Seul le premier avis recueille un modèle mathématique statistique: du fait qu'avec une seule hypothèse, il est possible de déterminer la probabilité de chaque action.
Dans l'exemple ci-dessus avec autorisation initiale, il est facile de déterminer la possibilité d'un événement. Avec certains autres exemples, le calcul peut être difficile ou même irréaliste (par exemple, il peut nécessiter de nombreuses années de calculs). Pour une personne concevant un modèle d'analyse statistique, une telle complexité est considérée comme inacceptable: la mise en œuvre des calculs ne devrait pas être pratiquement impossible et théoriquement impossible.
Définition formelle
En termes mathématiques, le modèle statistique d'un système est généralement considéré comme une paire (S, P), où S estl'ensemble des observations possibles, c'est-à-dire l'espace d'échantillonnage, et P est l'ensemble des distributions de probabilité sur S.
L'intuition de cette définition est la suivante. On suppose qu'il existe une "véritable" distribution de probabilité causée par le processus qui génère certaines données.
Régler
C'est lui qui détermine les paramètres du modèle. La paramétrisation nécessite généralement des valeurs différentes pour aboutir à des distributions différentes, c'est-à-dire
doit tenir (en d'autres termes, il doit être injectif). Une paramétrisation qui satisfait à l'exigence est dite identifiable.
Exemple
Supposons qu'il y ait un certain nombre d'élèves d'âges différents. La taille de l'enfant sera liée de manière stochastique à l'année de naissance: par exemple, lorsqu'un écolier a 7 ans, cela affecte la probabilité de croissance, uniquement pour que la personne mesure plus de 3 centimètres.
Vous pouvez formaliser cette approche dans un modèle de régression rectiligne, par exemple, comme suit: taille i=b 0 + b 1agei + εi, où b 0 est l'intersection, b 1 est le paramètre par lequel l'âge est multiplié lors de l'obtention de la surveillance de l' altitude. C'est un terme d'erreur. Autrement dit, il suppose que la taille est prédite par l'âge avec une certaine erreur.
Un formulaire valide doit correspondre à tous les points d'information. Ainsi, la direction rectiligne (niveau i=b 0 + b 1agei) n'est pas susceptible d'être une équation pour un modèle de données - si elle ne répond pas clairement à absolument tous les points. C'est à diresans exception, toutes les informations se trouvent parfaitement sur la ligne. La marge d'erreur εi doit être entrée dans l'équation pour que la forme corresponde absolument à toutes les informations.
Pour faire une inférence statistique, nous devons d'abord supposer certaines distributions de probabilité pour ε i. Par exemple, on peut supposer que les distributions de ε i ont une forme gaussienne de moyenne nulle. Dans ce cas, le modèle aura 3 paramètres: b 0, b 1 et la variance de la distribution gaussienne.
Vous pouvez spécifier formellement le modèle comme (S, P).
Dans cet exemple, le modèle est défini en spécifiant S et certaines hypothèses peuvent donc être faites à propos de P. Il y a deux options:
Cette croissance peut être approchée par une fonction linéaire de l'âge;
Que les erreurs dans l'approximation sont distribuées comme à l'intérieur d'une gaussienne.
Remarques générales
Les paramètres statistiques des modèles sont une classe spéciale de projection mathématique. Qu'est-ce qui différencie une espèce d'une autre ? C'est pourquoi le modèle statistique est non déterministe. Ainsi, contrairement aux équations mathématiques, certaines variables n'ont pas certaines valeurs, mais ont plutôt une distribution de possibilités. Autrement dit, les variables individuelles sont considérées comme stochastiques. Dans l'exemple ci-dessus, ε est une variable stochastique. Sans cela, la projection serait déterministe.
Construire un modèle statistique est souvent utilisé, même si le processus matériel est considéré comme déterministe. Par exemple, lancer des pièces de monnaie est, en principe, une action prédéterminante. Cependant, cela reste dans la plupart des cas modélisé comme stochastique (via un processus de Bernoulli).
Selon Konishi et Kitagawa, un modèle statistique a trois objectifs:
- Pronostics.
- Exploration d'informations.
- Description des structures stochastiques.
Taille de projection
Supposons qu'il existe un modèle de prédiction statistique, Le modèle est dit paramétrique si O est de dimension finie. Dans la solution, vous devez écrire que
où k est un entier positif (R représente tout nombre réel). Ici k est appelé la dimension du modèle.
A titre d'exemple, nous pouvons supposer que toutes les données proviennent d'une distribution gaussienne univariée:
Dans cet exemple, la dimension de k est 2.
Et comme autre exemple, on peut supposer que les données sont constituées de points (x, y), qui sont supposés être distribués en ligne droite avec des résidus gaussiens (avec une moyenne nulle). Alors la dimension du modèle économique statistique est égale à 3: l'intersection de la droite, sa pente et la variance de la distribution des résidus. Il convient de noter qu'en géométrie une droite a pour dimension 1.
Bien que la valeur ci-dessus soit techniquement le seul paramètre ayant une dimension k, elle est parfois considérée comme contenant k valeurs distinctes. Par exemple, avec une distribution gaussienne unidimensionnelle, O est le seul paramètre de taille 2, mais est parfois considéré comme contenant deuxparamètre individuel - valeur moyenne et écart type.
Un modèle de processus statistique est non paramétrique si l'ensemble des valeurs O est de dimension infinie. Il est également semi-paramétrique s'il a à la fois des paramètres de dimension finie et de dimension infinie. Formellement, si k est une dimension de O et n est le nombre d'échantillons, les modèles semi-paramétriques et non paramétriques ont
alors le modèle est semi-paramétrique. Sinon, la projection est non paramétrique.
Les modèles paramétriques sont les statistiques les plus couramment utilisées. Concernant les projections semi-paramétriques et non paramétriques, Sir David Cox a déclaré:
"Généralement, ils impliquent le moins d'hypothèses sur la texture et la forme de la distribution, mais ils incluent des théories puissantes sur l'autosuffisance."
Modèles imbriqués
Ne les confondez pas avec les projections à plusieurs niveaux.
Deux modèles statistiques sont imbriqués si le premier peut être converti en second en imposant des contraintes sur les paramètres du premier. Par exemple, l'ensemble de toutes les distributions gaussiennes a un ensemble imbriqué de distributions à moyenne nulle:
C'est-à-dire que vous devez limiter la moyenne dans l'ensemble de toutes les distributions gaussiennes pour obtenir des distributions avec une moyenne nulle. Comme deuxième exemple, le modèle quadratique y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) a un modèle linéaire intégré y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - c'est-à-dire que le paramètre b2 est égal à 0.
Dans ces deux exemples, le premier modèle a une dimensionnalité plus élevée que le second modèle. C'est souvent, mais pas toujours le cas. Un autre exemple est l'ensemble des distributions gaussiennes avec une moyenne positive, qui a la dimension 2.
Comparaison des modèles
On suppose qu'il existe une "véritable" distribution de probabilité sous-jacente aux données observées induites par le processus qui les a générées.
Et aussi les modèles peuvent être comparés les uns aux autres, en utilisant une analyse exploratoire ou confirmatoire. Dans une analyse exploratoire, différents modèles sont formulés et une évaluation est faite de la façon dont chacun d'eux décrit les données. Dans une analyse confirmatoire, l'hypothèse précédemment formulée est comparée à l'hypothèse originale. Les critères communs pour cela incluent P 2, le facteur bayésien et la probabilité relative.
Konishi et la pensée de Kitagawa
La plupart des problèmes d'un modèle mathématique statistique peuvent être considérés comme des questions prédictives. Ils sont généralement formulés comme des comparaisons de plusieurs facteurs. »
En outre, Sir David Cox a déclaré: "Pour traduire le sujet, le problème du modèle statistique est souvent la partie la plus importante de l'analyse."