Réseaux bayésiens : définition, exemples et fonctionnement

Table des matières:

Réseaux bayésiens : définition, exemples et fonctionnement
Réseaux bayésiens : définition, exemples et fonctionnement
Anonim

Une croyance, un réseau de décision, un modèle bayésien (ian) ou un modèle de graphe acyclique piloté par probabilité est un schéma variant (un type de modèle statistique) qui représente un ensemble de variables et leurs dépendances conditionnelles à travers un graphe acyclique dirigé (DAG).

Par exemple, un réseau bayésien peut représenter des relations probabilistes entre les maladies et les symptômes. Compte tenu de ce dernier, le réseau peut être utilisé pour calculer la possibilité d'avoir diverses maladies. Dans la vidéo ci-dessous, vous pouvez voir un exemple de réseau de croyance bayésien avec des calculs.

Image
Image

Efficacité

Des algorithmes efficaces peuvent effectuer des inférences et des apprentissages sur des réseaux bayésiens. Les réseaux qui modélisent des variables (telles que des signaux vocaux ou des séquences de protéines) sont appelés réseaux dynamiques. Les généralisations des réseaux bayésiens qui peuvent représenter et résoudre des problèmes sous incertitude sont appelées diagrammes d'influence.

Essence

FormellementLes réseaux bayésiens sont des DAG dont les nœuds représentent des variables au sens bayésien: il peut s'agir de valeurs observées, de variables cachées, de paramètres inconnus ou d'hypothèses. Parce que c'est très intéressant.

Exemple de réseau bayésien

Deux événements peuvent mouiller l'herbe: un arroseur actif ou la pluie. La pluie a un effet direct sur l'utilisation de l'arroseur (à savoir que lorsqu'il pleut, l'arroseur est généralement inactif). Cette situation peut être modélisée à l'aide d'un réseau bayésien.

Formule typique
Formule typique

Simulation

Parce que le réseau bayésien est un modèle complet pour ses variables et leurs relations, il peut être utilisé pour répondre à des requêtes probabilistes à leur sujet. Par exemple, il peut être utilisé pour mettre à jour les connaissances sur l'état d'un sous-ensemble de variables lorsque d'autres données (variables de preuve) sont observées. Ce processus intéressant est appelé inférence probabiliste.

A posteriori donne une statistique universellement suffisante pour les applications de découverte lors du choix des valeurs pour un sous-ensemble de variables. Ainsi, cet algorithme peut être considéré comme un mécanisme pour appliquer automatiquement le théorème de Bayes à des problèmes complexes. Dans les images de l'article, vous pouvez voir des exemples de réseaux de croyances bayésiens.

Réseau bayésien pratique
Réseau bayésien pratique

Méthodes de sortie

Les méthodes d'inférence exacte les plus courantes sont: l'élimination des variables, qui élimine (par intégration ou sommation) l'inobservableparamètres de non-requête un par un en attribuant le montant au produit.

Cliquez sur la propagation d'un "arbre" qui met en cache les calculs afin que de nombreuses variables puissent être interrogées à la fois et que de nouvelles preuves puissent être propagées rapidement; et l'appariement et/ou la recherche récursifs, qui permettent des compromis entre l'espace et le temps et correspondent à l'efficacité de l'élimination des variables lorsque suffisamment d'espace est utilisé.

Toutes ces méthodes ont une complexité particulière qui dépend de façon exponentielle de la longueur du réseau. Les algorithmes d'inférence approximative les plus courants sont l'élimination de mini-segments, la propagation cyclique des croyances, la propagation généralisée des croyances et les méthodes variationnelles.

Types de réseaux
Types de réseaux

Réseautage

Pour bien spécifier le réseau bayésien et donc bien représenter la distribution de probabilité jointe, il est nécessaire de spécifier pour chaque nœud X la distribution de probabilité pour X due aux parents de X.

La distribution conditionnelle de X par ses parents peut avoir n'importe quelle forme. Il est courant de travailler avec des distributions discrètes ou gaussiennes car cela simplifie les calculs. Parfois, seules les contraintes de distribution sont connues. Vous pouvez ensuite utiliser l'entropie pour déterminer la distribution unique qui a l'entropie la plus élevée compte tenu des contraintes.

De même, dans le contexte spécifique d'un réseau bayésien dynamique, la distribution conditionnelle de l'évolution temporelle de la latentestate est généralement défini pour maximiser le taux d'entropie du processus aléatoire implicite.

Réseau bayésien de confiance
Réseau bayésien de confiance

La maximisation directe de la probabilité (ou probabilité a posteriori) est souvent délicate compte tenu de la présence de variables non observées. Cela est particulièrement vrai pour un réseau de décision bayésien.

Approche classique

L'approche classique de ce problème est l'algorithme de maximisation des attentes, qui alterne le calcul des valeurs attendues des variables non observées dépendant des données observées avec la maximisation de la probabilité totale (ou valeur postérieure), en supposant que l'espérance calculée précédemment les valeurs sont correctes. Dans des conditions de régularité modérée, ce processus converge dans les valeurs maximales (ou maximales a posteriori) des paramètres.

Une approche bayésienne plus complète des paramètres consiste à les traiter comme des variables non observées supplémentaires et à calculer la distribution postérieure complète sur tous les nœuds compte tenu des données observées, puis à intégrer les paramètres. Cette approche peut être coûteuse et entraîner de grands modèles, ce qui rend les approches classiques de réglage des paramètres plus accessibles.

Dans le cas le plus simple, un réseau bayésien est défini par un expert, puis utilisé pour effectuer une inférence. Dans d'autres applications, la tâche de détermination est trop difficile pour un humain. Dans ce cas, la structure du réseau de neurones bayésien et les paramètres des distributions locales doivent être appris parmi les données.

Réseaux bayésiens
Réseaux bayésiens

Méthode alternative

Une méthode alternative d'apprentissage structuré utilise la recherche d'optimisation. Cela nécessite l'application d'une fonction d'évaluation et d'une stratégie de recherche. Un algorithme de notation courant est la probabilité a posteriori d'une structure compte tenu des données d'entraînement telles que BIC ou BDeu.

Le temps nécessaire pour une recherche exhaustive renvoyant une structure qui maximise le score est superexponentiel en nombre de variables. La stratégie de recherche locale apporte des modifications incrémentielles pour améliorer l'estimation de la structure. Friedman et ses collègues ont envisagé d'utiliser des informations mutuelles entre les variables pour trouver la structure souhaitée. Ils restreignent l'ensemble des candidats parents à k nœuds et les recherchent minutieusement.

Une méthode particulièrement rapide pour étudier exactement BN est d'imaginer le problème comme un problème d'optimisation et de le résoudre en utilisant la programmation en nombres entiers. Des contraintes d'acyclicité sont ajoutées au programme entier (IP) lors de la résolution sous forme de plans de coupe. Une telle méthode peut gérer des problèmes jusqu'à 100 variables.

Graphes et réseaux
Graphes et réseaux

Résolution de problèmes

Pour résoudre des problèmes avec des milliers de variables, une approche différente est nécessaire. L'une consiste à choisir d'abord un ordre, puis à trouver la structure BN optimale par rapport à cet ordre. Cela implique de travailler dans l'espace de recherche des ordonnancements possibles, ce qui est pratique car plus petit que l'espace des structures de réseau. Plusieurs commandes sont alors sélectionnées et évaluées. Cette méthode s'est avéréemieux disponible dans la littérature lorsque le nombre de variables est énorme.

Une autre méthode consiste à se concentrer sur une sous-classe de modèles décomposables pour lesquels les MLE sont fermés. Ensuite, vous pouvez trouver une structure cohérente pour des centaines de variables.

L'étude des réseaux bayésiens d'une largeur limitée à trois lignes est nécessaire pour fournir une inférence précise et interprétable, car la complexité de ces derniers dans le pire des cas est exponentielle en longueur d'arbre k (selon l'hypothèse de temps exponentiel). Cependant, en tant que propriété globale du graphe, il augmente considérablement la complexité du processus d'apprentissage. Dans ce contexte, K-tree peut être utilisé pour un apprentissage efficace.

Réseau court
Réseau court

Développement

Le développement d'un réseau de confiance bayésien commence souvent par la création d'un DAG G tel que X satisfait une propriété de Markov locale par rapport à G. Parfois, il s'agit d'un DAG causal. On estime les distributions de probabilité conditionnelles de chaque variable sur ses parents dans G. Dans de nombreux cas, en particulier lorsque les variables sont discrètes, si la distribution conjointe de X est le produit de ces distributions conditionnelles, alors X devient un réseau bayésien par rapport à G.

La "couverture de nœuds" de Markov est un ensemble de nœuds. La courtepointe de Markov rend le nœud indépendant du reste de l'ébauche du nœud du même nom et est une connaissance suffisante pour calculer sa distribution. X est un réseau bayésien par rapport à G si chaque nœud est conditionnellement indépendant de tous les autres nœuds, étant donné son markoviencouverture.

Conseillé: