Les statistiques mathématiques sont une méthodologie qui vous permet de prendre des décisions éclairées face à des conditions incertaines. L'étude des méthodes de collecte et de systématisation des données, le traitement des résultats finaux d'expériences et d'expériences avec un caractère aléatoire de masse et la découverte de modèles, c'est ce que fait cette branche des mathématiques. Considérez les concepts de base des statistiques mathématiques.
Différence avec la théorie des probabilités
Les méthodes des statistiques mathématiques recoupent étroitement la théorie des probabilités. Les deux branches des mathématiques traitent de l'étude de nombreux phénomènes aléatoires. Les deux disciplines sont liées par des théorèmes limites. Cependant, il existe une grande différence entre ces sciences. Si la théorie des probabilités détermine les caractéristiques d'un processus dans le monde réel sur la base d'un modèle mathématique, alors la statistique mathématique fait le contraire - elle définit les propriétés du modèle pourbasé sur des informations observées.
Étapes
L'application des statistiques mathématiques ne peut être effectuée qu'en relation avec des événements ou des processus aléatoires, ou plutôt, avec des données obtenues en les observant. Et cela se passe en plusieurs étapes. Premièrement, les données d'expériences et d'expériences subissent un certain traitement. Ils sont ordonnés pour plus de clarté et de facilité d'analyse. Ensuite, une estimation exacte ou approximative des paramètres requis du processus aléatoire observé est effectuée. Ils peuvent être:
- évaluation de la probabilité d'un événement (sa probabilité est initialement inconnue);
- étudier le comportement d'une fonction de distribution indéfinie;
- estimation des attentes;
- estimation de la variance
- etc.
La troisième étape est la vérification des hypothèses posées avant l'analyse, c'est-à-dire l'obtention d'une réponse à la question de savoir comment les résultats des expériences correspondent aux calculs théoriques. En fait, c'est l'étape principale de la statistique mathématique. Un exemple serait de déterminer si le comportement d'un processus aléatoire observé se situe dans la distribution normale.
Population
Les concepts de base des statistiques mathématiques incluent les populations générales et les échantillons. Cette discipline concerne l'étude d'un ensemble de certains objets par rapport à une propriété. Un exemple est le travail d'un chauffeur de taxi. Considérez ces variables aléatoires:
- charge ou nombre de clients: par jour, avant le déjeuner, après le déjeuner, …;
- temps de trajet moyen;
- nombre de candidatures entrantes ou leur rattachement aux quartiers de la ville et bien plus encore.
Il convient également de noter qu'il est possible d'étudier un ensemble de processus aléatoires similaires, qui seront également une variable aléatoire observable.
Ainsi, dans les méthodes de la statistique mathématique, l'ensemble des objets étudiés ou les résultats de diverses observations effectuées dans les mêmes conditions sur un objet donné est appelé la population générale. Autrement dit, mathématiquement plus strictement, c'est une variable aléatoire définie dans l'espace des événements élémentaires, avec une classe de sous-ensembles désignés en elle, dont les éléments ont une probabilité connue.
Population échantillon
Il y a des cas où il est impossible ou peu pratique pour une raison quelconque (coût, temps) de mener une étude continue pour étudier chaque objet. Par exemple, ouvrir chaque pot de confiture scellé pour vérifier sa qualité est une décision douteuse, et essayer d'estimer la trajectoire de chaque molécule d'air dans un mètre cube est impossible. Dans de tels cas, la méthode d'observation sélective est utilisée: un certain nombre d'objets sont sélectionnés (généralement au hasard) dans la population générale, et ils sont soumis à leur analyse.
Ces concepts peuvent sembler compliqués au premier abord. Par conséquent, afin de bien comprendre le sujet, vous devez étudier le manuel de V. E. Gmurman "Théorie des probabilités et statistiques mathématiques". Ainsi, un ensemble d'échantillonnage ou échantillon est une série d'objets choisis au hasard dans l'ensemble général. En termes mathématiques stricts, il s'agit d'une séquence de variables aléatoires indépendantes uniformément distribuées, pour chacune desquelles la distribution coïncide avec celle indiquée pour la variable aléatoire générale.
Concepts de base
Considérons brièvement un certain nombre d'autres concepts de base des statistiques mathématiques. Le nombre d'objets dans la population générale ou l'échantillon est appelé volume. Les valeurs d'échantillon obtenues au cours de l'expérience sont appelées réalisation d'échantillon. Pour qu'une estimation de la population générale basée sur un échantillon soit fiable, il est important de disposer d'un échantillon dit représentatif ou représentatif. Cela signifie que l'échantillon doit pleinement représenter la population. Cela ne peut être réalisé que si tous les éléments de la population ont une probabilité égale d'être dans l'échantillon.
Les échantillons font la distinction entre retour et non-retour. Dans le premier cas, dans le contenu de l'échantillon, l'élément répété est renvoyé dans l'ensemble général, dans le second cas, il ne l'est pas. Habituellement, dans la pratique, l'échantillonnage sans remise est utilisé. Il convient également de noter que la taille de la population générale dépasse toujours de manière significative la taille de l'échantillon. Existerde nombreuses options pour le processus d'échantillonnage:
- simple - les éléments sont sélectionnés au hasard un par un;
- typé - la population générale est divisée en types, et un choix est fait parmi chacun; un exemple est une enquête auprès des résidents: hommes et femmes séparément;
- mécanique - par exemple, sélectionnez tous les 10 éléments;
- serial - la sélection se fait en série d'éléments.
Répartition statistique
Selon Gmurman, la théorie des probabilités et les statistiques mathématiques sont des disciplines extrêmement importantes dans le monde scientifique, en particulier dans sa partie pratique. Tenez compte de la distribution statistique de l'échantillon.
Supposons que nous ayons un groupe d'élèves qui ont été testés en mathématiques. En conséquence, nous avons un ensemble d'estimations: 5, 3, 1, 4, 3, 4, 2, 5, 4, 4, 5 - c'est notre principal matériel statistique.
Tout d'abord, nous devons le trier, ou effectuer une opération de classement: 1, 2, 3, 3, 4, 4, 4, 4, 5, 5, 5 - et ainsi obtenir une série variationnelle. Le nombre de répétitions de chacune des évaluations est appelé la fréquence d'évaluation, et leur rapport à la taille de l'échantillon est appelé la fréquence relative. Faisons un tableau de la distribution statistique de l'échantillon, ou simplement une série statistique:
ai | 1 | 2 | 3 | 4 | 5 |
pi | 1 | 1 | 2 | 4 | 3 |
ou
ai | 1 | 2 | 3 | 4 | 5 |
pi | 1/11 | 1/11 | 2/11 | 4/11 | 3/11 |
Prenons une variable aléatoire sur laquelle nous allons mener une série d'expériences et voir quelle valeur prend cette variable. Supposons qu'elle ait pris la valeur a1 - m1 fois; a2 - m2 fois, etc. La taille de cet échantillon sera m1 + … + mk=m. L'ensemble ai, où i varie de 1 à k, est une série statistique.
Distribution d'intervalle
Dans le livre de VE Gmurman "Probability Theory and Mathematical Statistics", une série statistique d'intervalle est également présentée. Sa compilation est possible lorsque la valeur de la caractéristique étudiée est continue dans un certain intervalle et que le nombre de valeurs est important. Considérez un groupe d'étudiants, ou plutôt, leur taille: 163, 180, 185, 172, 161, 171, 189, 157, 165, 174, 180, 181, 175, 182, 167, 159, 173, 171, 164, 179, 160, 180, 166, 178, 156, 180, 189, 173, 174, 175 - 30 élèves au total. Évidemment, la taille d'une personne est une valeur continue. Nous devons définir le pas d'intervalle. Pour cela, la formule de Sturges est utilisée.
h= | max - min | = | 190 - 156 | = | 33 | = | 5, 59 |
1+log2m | 1+log230 | 5, 9 |
Ainsi, la valeur de 6 peut être prise comme la taille de l'intervalle. Il faut aussi dire que la valeur 1+log2m est la formule dedéterminer le nombre d'intervalles (bien sûr, avec arrondi). Ainsi, selon les formules, 6 intervalles sont obtenus, chacun ayant une taille de 6. Et la première valeur de l'intervalle initial sera le nombre déterminé par la formule: min - h / 2=156 - 6/2=153. Faisons un tableau qui contiendra des intervalles et le nombre d'élèves dont la croissance est tombée dans un certain intervalle.
H | [153; 159) | [159; 165) | [165; 171) | [171; 177) | [177; 183) | [183; 189) |
P | 2 | 5 | 3 | 9 | 8 | 3 |
P | 0, 06 | 0, 17 | 0, 1 | 0, 3 | 0, 27 | 0, 1 |
Bien sûr, ce n'est pas tout, car il y a beaucoup plus de formules dans les statistiques mathématiques. Nous n'avons considéré que quelques concepts de base.
Calendrier de distribution
Les concepts de base des statistiques mathématiques incluent également une représentation graphique de la distribution, qui se distingue par sa clarté. Il existe deux types de graphiques: les polygones et les histogrammes. Le premier est utilisé pour une série statistique discrète. Et pour la distribution continue, respectivement, le second.