Régression logistique : modèle et méthodes

Table des matières:

Régression logistique : modèle et méthodes
Régression logistique : modèle et méthodes
Anonim

Les méthodes de régression logistique et d'analyse discriminante sont utilisées lorsqu'il est nécessaire de différencier clairement les répondants par catégories cibles. Dans ce cas, les groupes eux-mêmes sont représentés par des niveaux d'un paramètre à une seule variante. Examinons de plus près le modèle de régression logistique et découvrons pourquoi il est nécessaire.

régression logistique
régression logistique

Informations générales

Un exemple de problème dans lequel la régression logistique est utilisée est la classification des répondants en groupes qui achètent et n'achètent pas de moutarde. La différenciation s'effectue en fonction des caractéristiques sociodémographiques. Il s'agit notamment de l'âge, du sexe, du nombre de proches, des revenus, etc. Dans les opérations, il existe des critères de différenciation et une variable. Ce dernier encode les catégories cibles dans lesquelles, en fait, les répondants devraient être répartis.

Nuances

Il faut dire que l'éventail des cas dans lesquels la régression logistique est appliquée est beaucoup plus étroit que pour l'analyse discriminante. À cet égard, l'utilisation de ce dernier comme méthode universelle de différenciation est considéréeplus préféré. De plus, les experts recommandent de commencer les études de classification par une analyse discriminante. Et seulement en cas d'incertitude sur les résultats, vous pouvez utiliser la régression logistique. Ce besoin est dû à plusieurs facteurs. La régression logistique est utilisée lorsqu'il existe une compréhension claire du type de variables indépendantes et dépendantes. En conséquence, l'une des 3 procédures possibles est sélectionnée. Dans l'analyse discriminante, le chercheur traite toujours une opération statique. Il implique une variable catégorique dépendante et plusieurs variables catégorielles indépendantes avec n'importe quel type d'échelle.

Vues

La tâche d'une étude statistique qui utilise la régression logistique est de déterminer la probabilité qu'un répondant particulier soit affecté à un groupe particulier. La différenciation s'effectue en fonction de certains paramètres. En pratique, selon les valeurs d'un ou plusieurs facteurs indépendants, il est possible de classer les répondants en deux groupes. Dans ce cas, une régression logistique binaire a lieu. En outre, les paramètres spécifiés peuvent être utilisés lors de la division en groupes de plus de deux. Dans une telle situation, une régression logistique multinomiale a lieu. Les groupes résultants sont exprimés en niveaux d'une seule variable.

régression logistique
régression logistique

Exemple

Disons qu'il y a des réponses des répondants à la question de savoir s'ils sont intéressés par l'offre d'achat d'un terrain dans la banlieue de Moscou. Les options sont "non"et oui. Il est nécessaire de déterminer quels facteurs ont une influence prédominante sur la décision des acheteurs potentiels. Pour ce faire, on pose aux répondants des questions sur l'infrastructure du territoire, la distance à la capitale, la superficie du site, la présence/absence d'un immeuble résidentiel, etc. En utilisant la régression binaire, il est possible de répartir les répondants en deux groupes. Le premier comprendra ceux qui sont intéressés par l'acquisition - les acheteurs potentiels, et le second, respectivement, ceux qui ne sont pas intéressés par une telle offre. Pour chaque répondant, en outre, la probabilité d'être affecté à l'une ou l'autre catégorie sera calculée.

Caractéristiques comparatives

La différence entre les deux options ci-dessus est le nombre différent de groupes et le type de variables dépendantes et indépendantes. Dans la régression binaire, par exemple, la dépendance d'un facteur dichotomique à une ou plusieurs conditions indépendantes est étudiée. De plus, ce dernier peut avoir tout type d'échelle. La régression multinomiale est considérée comme une variante de cette option de classification. Dans celui-ci, plus de 2 groupes appartiennent à la variable dépendante. Les facteurs indépendants doivent avoir une échelle ordinale ou nominale.

Régression logistique dans spss

Dans le package statistique 11-12, une nouvelle version de l'analyse a été introduite - ordinale. Cette méthode est utilisée lorsque le facteur dépendant appartient à la même échelle de nom (ordinal). Dans ce cas, les variables indépendantes sont sélectionnées d'un type spécifique. Ils doivent être ordinaux ou nominaux. Le classement en plusieurs catégories est considéré comme le plusuniversel. Cette méthode peut être utilisée dans toutes les études qui utilisent la régression logistique. Cependant, la seule façon d'améliorer la qualité d'un modèle est d'utiliser les trois techniques.

vérification de la qualité de l'adéquation et régression logistique
vérification de la qualité de l'adéquation et régression logistique

Classification ordinale

Il faut dire qu'auparavant dans le package statistique, il n'y avait aucune possibilité typique d'effectuer une analyse spécialisée pour les facteurs dépendants avec une échelle ordinale. Pour toutes les variables avec plus de 2 groupes, la variante multinominale a été utilisée. L'analyse ordinale introduite relativement récemment présente un certain nombre de caractéristiques. Ils tiennent compte des spécificités de l'échelle. Pendant ce temps, dans les aides pédagogiques, la régression logistique ordinale n'est souvent pas considérée comme une technique distincte. Cela est dû à ce qui suit: l'analyse ordinale n'a pas d'avantages significatifs par rapport au multinomial. Le chercheur peut très bien utiliser cette dernière en présence à la fois d'une variable dépendante ordinale et d'une variable dépendante nominale. Dans le même temps, les processus de classification eux-mêmes ne diffèrent presque pas les uns des autres. Cela signifie que l'exécution d'une analyse ordinale ne causera aucune difficulté.

Option d'analyse

Considérons un cas simple - la régression binaire. Supposons que, dans le cadre d'une recherche marketing, la demande de diplômés d'une certaine université métropolitaine soit évaluée. Dans le questionnaire, les répondants devaient répondre à des questions, notamment:

  1. Êtes-vous employé ? (ql).
  2. Entrez l'année d'obtention du diplôme (q 21).
  3. Quelle est la moyennescore de fin d'études (moy).
  4. Sexe (q22).

La régression logistique évaluera l'impact des facteurs indépendants aver, q 21 et q 22 sur la variable ql. En termes simples, le but de l'analyse sera de déterminer l'emploi probable des diplômés en fonction des informations sur le domaine, l'année d'obtention du diplôme et le GPA.

indicateur de régression sigmoïde logistique
indicateur de régression sigmoïde logistique

Régression logistique

Pour définir les paramètres à l'aide de la régression binaire, utilisez le menu Analyze►Regression►Binary Logistic. Dans la fenêtre Régression logistique, sélectionnez le facteur dépendant dans la liste des variables disponibles sur la gauche. C'est ql. Cette variable doit être placée dans le champ Dépendant. Après cela, il est nécessaire d'introduire des facteurs indépendants dans le graphique des covariables - q 21, q 22, aver. Ensuite, vous devez choisir comment les inclure dans votre analyse. Si le nombre de facteurs indépendants est supérieur à 2, la méthode d'introduction simultanée de toutes les variables, définie par défaut, est utilisée, mais étape par étape. Le moyen le plus populaire est Backward:LR. À l'aide du bouton Sélectionner, vous pouvez inclure dans l'étude non pas tous les répondants, mais uniquement une catégorie cible spécifique.

Définir les variables catégorielles

Le bouton Catégoriel doit être utilisé lorsqu'une des variables indépendantes est nominale avec plus de 2 catégories. Dans cette situation, dans la fenêtre Définir les variables catégorielles, un tel paramètre est placé dans la section Covariables catégorielles. Dans cet exemple, il n'y a pas de telle variable. Après cela, dans la liste déroulante Contraste suitsélectionnez l'élément Écart et appuyez sur le bouton Modifier. En conséquence, plusieurs variables dépendantes seront formées à partir de chaque facteur nominal. Leur nombre correspond au nombre de catégories de la condition initiale.

Enregistrer les nouvelles variables

À l'aide du bouton Enregistrer dans la boîte de dialogue principale de l'étude, la création de nouveaux paramètres est définie. Ils contiendront les indicateurs calculés dans le processus de régression. En particulier, vous pouvez créer des variables qui définissent:

  1. Appartenir à une catégorie de classification spécifique (Groupmembership).
  2. Probabilité d'attribuer un répondant à chaque groupe d'étude (Probabilités).

Lorsque vous utilisez le bouton Options, le chercheur n'obtient aucune option significative. En conséquence, il peut être ignoré. Après avoir cliqué sur le bouton "OK", les résultats de l'analyse seront affichés dans la fenêtre principale.

coefficient de régression logistique
coefficient de régression logistique

Contrôle de qualité pour l'adéquation et la régression logistique

Considérez le tableau Omnibus Testsof Model Coefficients. Il affiche les résultats de l'analyse de la qualité de l'approximation du modèle. Étant donné qu'une option étape par étape a été définie, vous devez examiner les résultats de la dernière étape (étape 2). Un résultat positif sera considéré si une augmentation de l'indicateur du chi carré est constatée lors du passage à l'étape suivante à un degré de signification élevé (Sig. < 0,05). La qualité du modèle est évaluée dans la ligne Modèle. Si une valeur négative est obtenue, mais qu'elle n'est pas considérée comme significative avec la matérialité globale élevée du modèle, la dernièrepeut être considéré comme pratiquement approprié.

Tableaux

Model Summary permet d'estimer l'indice de variance totale, qui est décrit par le modèle construit (R Square index). Il est recommandé d'utiliser la valeur de Nagelker. Le paramètre Nagelkerke R Square peut être considéré comme un indicateur positif s'il est supérieur à 0,50. Après cela, les résultats de la classification sont évalués, dans lesquels les indicateurs réels d'appartenance à l'une ou l'autre catégorie étudiée sont comparés à ceux prédits sur la base du modèle de régression. Pour cela, le tableau de classification est utilisé. Cela nous permet également de tirer des conclusions sur l'exactitude de la différenciation pour chaque groupe considéré.

modèle de régression logistique
modèle de régression logistique

Le tableau suivant permet de connaître la signification statistique des facteurs indépendants entrés dans l'analyse, ainsi que chaque coefficient de régression logistique non standardisé. À partir de ces indicateurs, il est possible de prédire l'appartenance de chaque répondant de l'échantillon à un groupe particulier. À l'aide du bouton Enregistrer, vous pouvez saisir de nouvelles variables. Ils contiendront des informations sur l'appartenance à une catégorie de classification particulière (Predictedcategory) et la probabilité d'être inclus dans ces groupes (Predicted probabilities membership). Après avoir cliqué sur "OK", les résultats du calcul apparaîtront dans la fenêtre principale de Multinomial Logistic Regression.

Le premier tableau, qui contient des indicateurs importants pour le chercheur, est Model Fitting Information. Un niveau élevé de signification statistique indiquerait une haute qualité etpertinence d'utiliser le modèle pour résoudre des problèmes pratiques. Un autre tableau significatif est Pseudo R-Square. Il vous permet d'estimer la proportion de la variance totale dans le facteur dépendant, qui est déterminée par les variables indépendantes sélectionnées pour l'analyse. Selon le tableau des tests de rapport de vraisemblance, nous pouvons tirer des conclusions sur la signification statistique de ces derniers. Les estimations de paramètres reflètent des coefficients non normalisés. Ils sont utilisés dans la construction de l'équation. De plus, pour chaque combinaison de variables, la signification statistique de leur impact sur le facteur dépendant a été déterminée. Pendant ce temps, dans la recherche marketing, il devient souvent nécessaire de différencier les répondants par catégorie non pas individuellement, mais en tant que partie du groupe cible. Pour cela, le tableau des fréquences observées et prévues est utilisé.

Application pratique

La méthode d'analyse considérée est largement utilisée dans le travail des commerçants. En 1991, l'indicateur de régression sigmoïde logistique a été développé. C'est un outil facile à utiliser et efficace pour prédire les prix probables avant qu'ils ne « surchauffent ». L'indicateur est représenté sur le graphique sous la forme d'un canal formé de deux lignes parallèles. Ils sont également espacés de la tendance. La largeur du corridor dépendra uniquement de l'échéancier. L'indicateur est utilisé lorsque vous travaillez avec presque tous les actifs - des paires de devises aux métaux précieux.

régression logistique dans spss
régression logistique dans spss

En pratique, 2 stratégies clés d'utilisation de l'instrument ont été développées: pour l'évasion etpour un tour. Dans ce dernier cas, le trader se concentrera sur la dynamique des variations de prix au sein du canal. Lorsque la valeur approche de la ligne de support ou de résistance, un pari est placé sur la probabilité que le mouvement commence dans la direction opposée. Si le prix se rapproche de la limite supérieure, vous pouvez vous débarrasser de l'actif. Si c'est à la limite inférieure, alors vous devriez penser à acheter. La stratégie d'évasion implique l'utilisation d'ordres. Ils sont installés en dehors des limites à une distance relativement faible. Tenant compte du fait que le prix dans certains cas les viole pendant une courte période, vous devez jouer la sécurité et définir des stop loss. Dans le même temps, bien sûr, quelle que soit la stratégie choisie, le commerçant doit percevoir et évaluer la situation qui s'est produite sur le marché le plus sereinement possible.

Conclusion

Ainsi, l'utilisation de la régression logistique vous permet de classer rapidement et facilement les répondants en catégories en fonction des paramètres donnés. Lors de l'analyse, vous pouvez utiliser n'importe quelle méthode particulière. En particulier, la régression multinomiale est universelle. Cependant, les experts recommandent d'utiliser toutes les méthodes décrites ci-dessus en combinaison. Cela est dû au fait que dans ce cas, la qualité du modèle sera nettement supérieure. Ceci, à son tour, élargira la gamme de son application.

Conseillé: