Le développement des technologies de l'information apporte des résultats concrets. Mais des tâches telles que la recherche, l'analyse et l'utilisation d'informations n'ont pas encore reçu d'outil efficace de haute qualité. Il existe des outils analytiques et quantitatifs, ils fonctionnent vraiment. Mais une révolution qualitative dans l'utilisation de l'information n'a pas encore eu lieu.
Bien avant l'avènement de la technologie informatique, une personne avait besoin de traiter de grandes quantités d'informations et y faisait face au mieux de son expérience et des capacités techniques disponibles.
Le développement des connaissances et des compétences a toujours répondu à de réels besoins et correspondait aux tâches actuelles. L'exploration de données est un nom collectif utilisé pour désigner un ensemble de méthodes permettant de découvrir des connaissances jusque-là inconnues, non triviales, pratiquement utiles et accessibles dans les données, nécessaires à la prise de décisions dans divers domaines de l'activité humaine.
Humain, intelligence, programmation
Une personne sait toujours comment agir dans n'importe quelle situation. L'ignorance ou une situation inconnue ne l'empêche pas de prendre une décision. L'objectivité et le caractère raisonnable de toute décision humaine peuvent être remis en question, mais ils seront acceptés.
L'intelligence repose sur: un "mécanisme" héréditaire, des connaissances acquises et actives. Les connaissances sont appliquées pour résoudre les problèmes qui se posent devant une personne.
- L'intelligence est un ensemble unique de connaissances et de compétences: opportunités et fondements de la vie et du travail humains.
- L'intelligence évolue constamment et les actions humaines ont un impact sur les autres.
La programmation est la première tentative de formalisation de la représentation des données et du processus de création d'algorithmes.
L'intelligence artificielle (IA) est une perte de temps et de ressources, mais les résultats des tentatives infructueuses du siècle dernier dans le domaine de l'IA sont restés en mémoire, ont été utilisés dans divers systèmes experts (intelligents) et ont été transformés, en particulier, dans les algorithmes (règles) et l'analyse de données mathématiques (logiques) et l'exploration de données.
Information et la recherche habituelle d'une solution
Une bibliothèque ordinaire est un dépôt de connaissances, et l'imprimé et les graphiques n'ont pas encore cédé la place à la technologie informatique. Les livres sur la physique, la chimie, la mécanique théorique, le design, l'histoire naturelle, la philosophie, les sciences naturelles, la botanique, les manuels, les monographies, les travaux de scientifiques, les documents de conférence, les rapports sur les travaux de développement, etc. sont toujours pertinents et fiables.
Library est un grand nombre de sources différentes qui diffèrentforme de présentation du matériel, origine, structure, contenu, style de présentation, etc.
Extérieurement tout est visible (lisible, accessible) pour la compréhension et l'utilisation. Vous pouvez résoudre n'importe quel problème, définir correctement la tâche, justifier la solution, rédiger un essai ou une dissertation, sélectionner du matériel pour un diplôme, analyser des sources sur le sujet d'une thèse ou d'un rapport scientifique et analytique.
Tout problème d'information peut être résolu. Avec la persévérance et la compétence voulues, un résultat précis et fiable sera obtenu. Dans ce contexte, le Data Mining est une approche complètement différente.
En plus du résultat, une personne reçoit des "liens actifs" vers tout ce qui a été vu dans le processus d'atteinte de l'objectif. Les sources qu'il a utilisées pour résoudre le problème peuvent être consultées et personne ne contestera le fait de l'existence de la source. Ce n'est pas une garantie d'authenticité, mais c'est un témoignage sûr à qui la responsabilité de l'authenticité est « désinscrite ». De ce point de vue, le Data Mining signifie de gros doutes sur la fiabilité et pas de liens "actifs".
En résolvant plusieurs problèmes, une personne obtient des résultats et étend son potentiel intellectuel à de nombreux "liens actifs". Si une nouvelle tâche « active » un lien déjà existant, la personne saura comment la résoudre: il n'y a plus besoin de chercher quoi que ce soit.
"Lien actif" est une association fixe: comment et quoi faire dans un cas particulier. Le cerveau humain se souvient automatiquement de tout ce qui lui semble potentiellement intéressant, utile.ou susceptibles d'être nécessaires à l'avenir. À bien des égards, cela se produit à un niveau subconscient, mais dès qu'une tâche survient qui peut être associée à un "lien actif", elle apparaît instantanément dans l'esprit et une solution sera obtenue sans recherche supplémentaire d'informations. L'exploration de données est toujours une répétition de l'algorithme de recherche et cet algorithme ne change pas.
Recherche régulière: problèmes "artistiques"
La bibliothèque de mathématiques et la recherche d'informations dans celle-ci est une tâche relativement faible. Trouver une manière ou une autre de résoudre une intégrale, de construire une matrice ou d'effectuer l'opération d'addition de deux nombres imaginaires est laborieux, mais simple. Vous devez trier un certain nombre de livres, dont beaucoup sont écrits dans une langue spécifique, trouver le bon texte, l'étudier et obtenir la solution requise.
Au fil du temps, l'énumération deviendra familière et l'expérience accumulée vous permettra de naviguer dans les informations de la bibliothèque et d'autres problèmes mathématiques. Il s'agit d'un espace d'information limité de questions et réponses. Un trait caractéristique: une telle recherche d'informations accumule des connaissances pour résoudre des problèmes similaires. La recherche d'information d'une personne laisse des traces ("liens actifs") dans sa mémoire sur des solutions possibles à d'autres problèmes.
Dans la fiction, trouvez la réponse à la question: "Comment les gens vivaient-ils en janvier 1248 ?" très dur. Il est encore plus difficile de répondre à la question de savoir ce qu'il y avait dans les rayons des magasins et comment le commerce alimentaire était organisé. Même si un écrivain a clairement et directement écrit à ce sujet dans son roman, si le nom de cet écrivain pouvait être trouvé, alors des doutes surla fiabilité des données reçues restera. La fiabilité est une caractéristique essentielle de toute quantité d'informations. La source, l'auteur et les preuves qui excluent la fausseté du résultat sont importants.
Circonstances objectives d'une situation particulière
L'homme voit, entend, sent. Certains spécialistes parlent couramment un sentiment unique - l'intuition. L'énoncé du problème nécessite des informations, le processus de résolution du problème s'accompagne le plus souvent d'un affinement de l'énoncé du problème. C'est le moindre problème lié au transfert d'informations dans les entrailles d'un système informatique.
La bibliothèque et les collègues de travail sont des participants indirects au processus de décision. La conception du livre (source), les graphiques dans le texte, les fonctionnalités de division des informations en titres, les notes de bas de page par phrases, l'index des sujets, la liste des sources primaires - tout évoque des associations chez une personne qui affectent indirectement le processus de résolution le problème.
Le moment et le lieu de résolution du problème sont essentiels. Une personne est tellement arrangée qu'elle prête involontairement attention à tout ce qui l'entoure dans le processus de résolution d'un problème. Cela peut être distrayant ou stimulant. Le Data Mining ne "comprendra" jamais.
Informations dans l'espace virtuel
Une personne n'a toujours été intéressée que par des informations fiables sur un événement, un phénomène, un objet, un algorithme pour résoudre un problème. L'homme a toujours imaginé exactement comment il peut atteindre l'objectif souhaité.
L'apparition des ordinateurs et des systèmes d'information aurait dû faciliter la vie d'une personne, mais tout n'a fait que se compliquer. L'information a migré dans les entrailles des systèmes informatiques et a disparu de la vue. Pour sélectionner les données nécessaires, vous devez créer un algorithme correct ou formuler une requête dans la base de données.
La question doit être correcte. Ce n'est qu'alors que vous pourrez obtenir une réponse. Mais des doutes sur l'authenticité subsistent. En ce sens, le Data Mining c'est vraiment des "fouilles", c'est de l'"extraction d'information". C'est ainsi qu'il est à la mode de traduire cette phrase. La version russe est l'exploration de données ou la technologie d'exploration de données.
Dans les ouvrages de spécialistes faisant autorité, les tâches du Data Mining sont indiquées comme suit:
- classification;
- regroupement;
- association;
- séquence;
- prévision.
Du point de vue de la pratique qui guide une personne dans le traitement manuel de l'information, toutes ces positions sont discutables. Dans tous les cas, une personne traite automatiquement les informations et ne pense pas à classer les données, à compiler des groupes thématiques d'objets (clustering), à rechercher des modèles temporels (séquence) ou à prédire le résultat.
Toutes ces positions dans l'esprit humain sont représentées par des connaissances actives, qui couvrent plus de positions et utilisent dynamiquement la logique de traitement des données initiales. Le subconscient d'une personne joue un rôle important, surtout lorsqu'il s'agit d'un spécialiste dans un domaine de connaissances particulier.
Exemple: Commerce de gros de matériel informatique
La tâche est simple. Il y a plusieursdes dizaines de fournisseurs de matériel informatique et de périphériques. Chacun a une liste de prix au format xls (fichier Excel), qui peut être téléchargée sur le site officiel du fournisseur. Il est nécessaire de créer une ressource Web qui lit les fichiers Excel, les convertit en tables de base de données et permet aux clients de sélectionner les produits souhaités aux prix les plus bas.
Les problèmes surviennent immédiatement. Chaque fournisseur propose sa propre version de la structure et du contenu du fichier xls. Vous pouvez obtenir le fichier en le téléchargeant sur le site Web du fournisseur, en le commandant par e-mail ou en obtenant un lien de téléchargement via votre compte personnel, c'est-à-dire en vous inscrivant officiellement auprès du fournisseur.
La solution du problème (au tout début) est technologiquement simple. Lors du chargement des fichiers (données initiales), un algorithme de reconnaissance de fichier est écrit pour chaque fournisseur et les données sont placées dans un grand tableau de données initiales. Une fois que toutes les données ont été reçues, après que le mécanisme d'échange continu (quotidien, hebdomadaire ou en cas de changement) de nouvelles données a été établi:
- changer l'assortiment;
- changements de prix;
- clarification de la quantité en stock;
- ajustement des conditions de garantie, des spécifications, etc.
C'est là que les vrais problèmes commencent. Le fait est que le fournisseur peut écrire:
- ordinateur portable Acer;
- ordinateur portable Asus;
- Ordinateur portable Dell.
Nous parlons du même produit, mais de fabricants différents. Comment faire correspondre notebook=ordinateur portable ou comment supprimer Acer, Asus et Dell d'une gamme de produits ?
Pourl'humain n'est pas un problème, mais comment l'algorithme va-t-il « comprendre » qu'Acer, Asus, Dell, Samsung, LG, HP, Sony sont des marques ou des fournisseurs ? Comment faire correspondre "imprimante" et imprimante, "scanner" et "MFP", "copieur" et "MFP", "casque" avec "casque", "accessoires" avec "accessoires" ?
Construire une arborescence de catégories basée sur des données source (fichiers source) est déjà un problème lorsque vous devez tout régler sur automatique.
Échantillonnage des données: fouilles du "fraîchement coulé"
La tâche de créer une base de données des fournisseurs de matériel informatique a été résolue. Une arborescence de catégories a été construite, un tableau commun avec les offres de tous les fournisseurs fonctionne.
Tâches typiques de Data Mining dans le contexte de cet exemple:
- trouver un produit au prix le plus bas;
- sélectionnez l'article avec les frais d'expédition et le prix les plus bas;
- analyse des produits: caractéristiques et prix par critères.
Dans le vrai travail d'un manager utilisant les données de plusieurs dizaines de fournisseurs, il y aura de nombreuses variantes de ces tâches, et encore plus de situations réelles.
Par exemple, il y a un fournisseur "A" qui vend ASUS VivoBook S15: prépaiement, livraison 5 jours après la réception effective de l'argent. Il existe un fournisseur "B" du même produit du même modèle: paiement à réception, livraison après la conclusion du contrat dans la journée, le prix est une fois et demie plus élevé.
L'exploration de données commence - "excavations". Expressions figurées: "excavations" ou "data mining" sont synonymes. Il s'agit de trouver une raison de prendre une décision.
Les fournisseurs "A" et "B" ont un historique des livraisons. Gradeprépaiement dans le premier cas contre paiement à réception dans le second cas, en tenant compte du fait que le défaut de livraison dans le second cas est supérieur de 65 %. Le risque de pénalités de la part du client est supérieur/inférieur. Comment et quoi déterminer et quelle décision prendre ?
D'autre part: la base de données a été créée par un programmeur et un gestionnaire. Si le programmeur et le gestionnaire ont changé, comment déterminer l'état actuel de la base de données et apprendre à l'utiliser correctement ? Vous devrez également faire de l'exploration de données. L'exploration de données offre une variété de méthodes mathématiques et logiques qui ne se soucient pas du type de données recherchées. Cela donne la bonne solution dans certains cas, mais pas dans tous.
Passer à la virtualité et trouver du sens
Les méthodes de Data Mining prennent tout leur sens dès que l'information est inscrite dans la base de données et disparaît du « champ de vision ». Le commerce de matériel informatique est une tâche intéressante, mais ce n'est qu'un commerce. La qualité de son organisation dans l'entreprise dépend de son succès.
Les changements climatiques sur la planète et le temps qu'il fait dans une ville particulière intéressent tout le monde, pas seulement les climatologues professionnels. Des milliers de capteurs prennent des mesures du vent, de l'humidité, de la pression, des données des satellites artificiels de la Terre et il existe un historique des données depuis des années et des siècles.
Les données météorologiques ne concernent pas seulement la décision d'apporter ou non un parapluie au travail. Les technologies d'exploration de données sont le vol en toute sécurité d'un avion de ligne, le fonctionnement stable d'une autoroute et l'approvisionnement fiable en produits pétroliers par voie maritime.
Les données "brutes" sont envoyées aux informationssystème. Les tâches du Data Mining sont de les transformer en un système systématisé de tables, d'établir des liens, de mettre en évidence des groupes de données homogènes et de détecter des modèles.
Les méthodes mathématiques et logiques depuis l'époque de l'analyse quantitative OLAP (On-line Analytical Processing) ont montré leur praticité. Ici, la technologie permet de trouver du sens, et de ne pas le perdre, comme dans l'exemple de la vente de matériel informatique.
De plus, dans les tâches globales:
- entreprise transnationale;
- gestion du transport aérien;
- étude des entrailles de la terre ou des problèmes sociaux (au niveau de l'État);
- étude de l'effet des médicaments sur un organisme vivant;
- prédire les conséquences de la construction d'une entreprise industrielle, etc.
Les technologies d'extraction de données et la transformation de données "insignifiantes" en données réelles qui vous permettent de prendre des décisions objectives sont la seule option.
Les possibilités humaines s'arrêtent là où il y a une grande quantité d'informations brutes. Les systèmes d'exploration de données perdent leur utilité lorsqu'il est nécessaire de voir, de comprendre et de ressentir des informations.
Répartition raisonnable des fonctions et objectivité
L'homme et l'ordinateur doivent se compléter - c'est un axiome. La rédaction d'un mémoire est une priorité pour une personne, et un système d'information est une aide. Ici, les données dont dispose la technologie Data Mining sont des heuristiques, des règles, des algorithmes.
Préparer une météo hebdomadaire est la priorité du système d'information. L'homme gère les données, mais fonde ses décisions sur les résultats des calculs du système. Il combine les méthodes de Data Mining, la classification spécialisée des données, le contrôle manuel de l'application des algorithmes, la comparaison automatique des données passées, la prévision mathématique et beaucoup de connaissances et de compétences de personnes réelles impliquées dans l'application du système d'information.
La théorie des probabilités et les statistiques mathématiques ne sont pas les domaines de connaissance les plus "favoris" et compréhensibles. De nombreux spécialistes en sont très éloignés, mais les méthodes développées dans ces domaines donnent des résultats presque 100% corrects. En appliquant des systèmes basés sur les idées, les méthodes et les algorithmes de Data Mining, des solutions peuvent être obtenues de manière objective et fiable. Sinon, il est tout simplement impossible d'obtenir une solution.
Pharaons et mystères des siècles passés
L'histoire était périodiquement réécrite:
- États - au nom de leurs intérêts stratégiques;
- scientifiques faisant autorité - pour le bien de leurs croyances subjectives.
Il est difficile de dire ce qui est vrai et ce qui est faux. L'utilisation du Data Mining nous permet de résoudre ce problème. Par exemple, la technologie de construction des pyramides a été décrite par des chroniqueurs et étudiée par des scientifiques à différents siècles. Tous les matériaux ne sont pas disponibles sur Internet, tout n'est pas unique ici, et de nombreuses données peuvent ne pas avoir:
- point décrit dans le temps;
- heure de rédaction de la description;
- dates sur lesquelles la description est basée;
- auteur(s), avis (liens) pris en compte;
- confirmation d'objectivité.
Bbibliothèques, temples et "lieux inattendus", vous pouvez trouver des manuscrits de différents siècles et des preuves matérielles du passé.
Objectif intéressant: tout mettre ensemble et déterrer la "vérité". Caractéristique du problème: des informations peuvent être obtenues depuis la première description par un chroniqueur, du vivant des pharaons, jusqu'au siècle actuel, au cours duquel ce problème est résolu par des méthodes modernes par de nombreux scientifiques.
Raison d'être de l'utilisation du Data Mining: le travail manuel n'est pas possible. Trop de quantités:
- sources d'information;
- langues de représentation;
- chercheurs décrivant la même chose de différentes manières;
- dates, événements et termes;
- problèmes de corrélation de termes;
- l'analyse des statistiques par groupes de données dans le temps peut différer, etc.
À la fin du siècle dernier, lorsqu'un autre fiasco de l'idée d'intelligence artificielle est devenu évident non seulement pour le profane, mais aussi pour un spécialiste sophistiqué, l'idée est apparue: "recréer la personnalité".
Par exemple, selon les travaux de Pouchkine, Gogol, Tchekhov, un certain système de règles, des logiques de comportement se forment et un système d'information est créé qui peut répondre à certaines questions comme le ferait une personne: Pouchkine, Gogol ou Tchekhov. Théoriquement, une telle tâche est intéressante, mais en pratique, elle est extrêmement difficile à mettre en œuvre.
Cependant, l'idée d'une telle tâche suggère une idée très pratique: "comment créer une recherche intelligente d'informations". Internet représente de nombreuses ressources en développement, une énorme base de données et c'est une excellente occasion d'appliquer le Data Mining en combinaison avec l'humain.logique dans le format de développement conjoint.
Une machine et un homme jumelés est une excellente tâche et un succès incontestable dans le domaine de "l'archéologie de l'information", des fouilles de haute qualité dans les données et les résultats qui mettront quelque chose en doute, mais vous permettront sans aucun doute pour acquérir de nouvelles connaissances et sera en demande dans la société.