Il y a plusieurs décennies, les scientifiques ne pouvaient que rêver d'automatiser la recherche linguistique. Le travail a été fait à la main, un grand nombre d'élèves y ont participé, il y avait une probabilité importante d'erreur "d'inattention", et surtout, tout cela a pris beaucoup, beaucoup de temps.
Avec le développement de la technologie informatique, il est devenu possible de mener des recherches beaucoup plus rapidement, et aujourd'hui l'un des domaines prometteurs dans l'étude du langage est la linguistique de corpus. Sa principale caractéristique est l'utilisation de grandes quantités d'informations textuelles, consolidées dans une base de données unique, balisée d'une manière spéciale et appelée corpus.
Aujourd'hui, il existe de nombreux corpus créés à des fins différentes, basés sur différents matériaux linguistiques, couvrant des millions à des dizaines de milliards d'unités lexicales. Cette orientation est reconnue comme prometteuse et démontre des progrès significatifs dans l'atteinte des objectifs de recherche appliquée et de recherche. Des professionnels, d'une manière ou d'une autre, traitantlangage naturel, il est recommandé de se familiariser avec les corpus de texte au moins à un niveau de base.
Histoire de la linguistique de corpus
La formation de cette direction est liée à la création du Brown Corps aux États-Unis au début des années 60 du siècle dernier. La collection de textes se composait de seulement 1 million de formes de mots, et aujourd'hui un corpus d'un tel volume serait totalement non compétitif. Cela est dû en grande partie au rythme de développement de la technologie informatique, ainsi qu'à la demande croissante de nouvelles ressources de recherche.
Dans les années 90, la linguistique de corpus est devenue une discipline à part entière et indépendante, des collections de textes ont été compilées et annotées pour plusieurs dizaines de langues. Au cours de cette période, par exemple, le British National Corpus a été créé pour 100 millions d'utilisations de mots.
À mesure que cette direction de la linguistique se développe, le volume des textes devient plus grand (et atteint des milliards d'unités de vocabulaire), et le balisage devient de plus en plus diversifié. Aujourd'hui, dans l'espace Internet, vous pouvez trouver des corpus de discours écrits et oraux, multilingues et éducatifs, axés sur la fiction ou la littérature académique, ainsi que de nombreuses autres variétés.
Quels sont les cas
Les types de corpus en linguistique de corpus peuvent être représentés de plusieurs manières. Il est intuitivement clair que la base de la classification peut être la langue des textes (russe, allemand), le mode d'accès (source ouverte, source fermée, commercial), le genre du matériel source (fictionlittérature, documentaire, universitaire, journalisme).
De manière intéressante, la génération de matériaux représentant la parole orale est réalisée. Étant donné que l'enregistrement délibéré d'un tel discours créerait des conditions artificielles pour les répondants et que le matériel résultant ne pouvait être qualifié de "spontané", la linguistique de corpus moderne est allée dans l'autre sens. Le volontaire est équipé d'un micro, et pendant la journée toutes les conversations auxquelles il participe sont enregistrées. Les personnes qui nous entourent, bien sûr, ne peuvent pas savoir qu'au cours d'une conversation quotidienne, elles contribuent au développement de la science.
Plus tard, les enregistrements audio reçus sont stockés dans la banque de données et sont accompagnés d'un texte imprimé comme une transcription. De cette façon, le balisage nécessaire pour créer un corpus de discours quotidien parlé devient possible.
Demande
Là où il est possible d'utiliser le langage, il est également possible d'utiliser des corpus textuels. Le but de l'utilisation des méthodes de corpus en linguistique peut être:
- Créer des programmes d'analyse des sentiments largement utilisés en politique et dans les affaires pour suivre les commentaires positifs et négatifs des électeurs et des clients, respectivement.
- Connecter le système d'information aux dictionnaires et traducteurs pour améliorer leurs performances.
- Diverses tâches de recherche qui contribuent à la compréhension de la structure de la langue, de l'histoire de son développement et des prédictions de son évolution dans un proche avenir.
- Développement de systèmes d'extraction d'informations basés sur la morphologie,fonctionnalités syntaxiques, sémantiques et autres.
- Optimisation du travail de divers systèmes linguistiques, etc.
Utiliser des shells
L'interface de la ressource est similaire à un moteur de recherche typique et invite l'utilisateur à saisir un mot ou une combinaison de mots pour effectuer une recherche dans l'infobase. En plus du formulaire de demande exact, vous pouvez utiliser la version étendue, qui vous permet de trouver des informations textuelles selon presque tous les critères linguistiques.
La base de la recherche peut être:
- appartenant à un certain groupe de parties du discours;
- caractéristiques grammaticales;
- sémantique;
- coloration stylistique et émotionnelle.
Aussi, vous pouvez combiner des critères de recherche pour une séquence de mots: par exemple, trouver toutes les occurrences d'un verbe au présent, première personne, singulier suivi de la préposition "dans" et d'un nom à l'accusatif. Résoudre une tâche aussi simple prend quelques secondes à l'utilisateur et ne nécessite que quelques clics de souris dans les champs donnés.
Processus de création
La recherche elle-même peut être effectuée à la fois dans tous les sous-corpus et dans un seul, spécifiquement sélectionné, en fonction des besoins lors de la réalisation d'un objectif spécifique:
- Tout d'abord, on détermine quels textes formeront la base du corpus. À des fins pratiques, des documents journalistiques, des journaux, des commentaires sur Internet sont souvent utilisés. Dans les projets de recherche, le plusdifférents types de corpus, mais les textes doivent être sélectionnés sur une base commune.
- L'ensemble de textes résultant est prétraité, les erreurs sont corrigées, le cas échéant, une description bibliographique et extralinguistique du texte est préparée.
- Toutes les informations non textuelles sont filtrées: les graphiques, les images et les tableaux sont supprimés.
- Les jetons, généralement des mots, sont alloués pour un traitement ultérieur.
- Enfin, un balisage morphologique, syntaxique et autre de l'ensemble d'éléments résultant est effectué.
Le résultat de toutes les opérations effectuées est une structure syntaxique avec un ensemble d'éléments répartis dessus, pour chacun desquels une partie du discours, des caractéristiques grammaticales et, dans certains cas, des caractéristiques sémantiques sont définies.
Difficultés à créer des cas
Il est important de comprendre que pour obtenir un corpus, il ne suffit pas de rassembler beaucoup de mots ou de phrases. D'une part, une collection de textes doit être équilibrée, c'est-à-dire présenter différents types de textes dans certaines proportions. D'autre part, le contenu de l'étui doit être marqué d'une manière spéciale.
Le premier problème est résolu par convention: par exemple, la collection comprend 60 % de textes de fiction, 20 % de documentaires, une certaine proportion est accordée à la présentation écrite de discours oraux, d'actes législatifs, d'articles scientifiques, etc. La recette idéale pour un corpus équilibré n'existe pas aujourd'hui.
La deuxième question concernant le balisage du contenu est plus difficile à résoudre. Il existe des programmes et des algorithmes spéciaux utilisés pour le balisage automatique des textes, mais ils ne donnent pas un résultat à 100 %, peuvent provoquer des échecs et nécessiter un raffinement manuel. Les opportunités et les problèmes liés à la résolution de ce problème sont décrits en détail dans les travaux de V. P. Zakharov sur la linguistique de corpus.
Le balisage du texte est effectué à plusieurs niveaux, que nous énumérerons ci-dessous.
Marquage morphologique
Depuis le banc de l'école, nous nous souvenons que dans la langue russe, il existe différentes parties du discours, et chacune d'elles a ses propres caractéristiques. Par exemple, un verbe a des catégories d'humeur et de temps qu'un nom n'a pas. Un locuteur natif décline les noms et conjugue les verbes sans hésitation, mais le travail manuel n'est pas adapté pour marquer un corpus de 100 millions d'usages de mots. Toutes les opérations nécessaires peuvent être effectuées par un ordinateur, cependant, pour cela, il doit être enseigné.
Le balisage morphologique est nécessaire pour que l'ordinateur "comprenne" chaque mot comme une partie du discours qui possède certaines caractéristiques grammaticales. Étant donné qu'un certain nombre de règles régulières fonctionnent en russe (comme dans toute autre langue), il est possible de construire une procédure automatique d'analyse morphologique en mettant un certain nombre d'algorithmes dans la machine. Cependant, il existe des exceptions à la règle, ainsi que divers facteurs de complication. En conséquence, l'analyse informatique pure est aujourd'hui loin d'être idéale, et même 4 % d'erreurs donnent une valeur de 4 millions de mots dans un corpus de 100 millions d'unités, nécessitant un raffinement manuel.
Ce problème est décrit en détail dans le livre de V. P. Zakharov "Corpus Linguistics".
Marquage syntaxique
L'analyse syntaxique ou l'analyse syntaxique est une procédure qui détermine la relation entre les mots dans une phrase. À l'aide d'un ensemble d'algorithmes, il devient possible de déterminer le sujet, le prédicat, les ajouts et les différentes tournures de parole dans le texte. En déterminant quels mots de la séquence sont principaux et lesquels sont dépendants, nous pouvons extraire efficacement des informations du texte et entraîner la machine à ne renvoyer que les informations qui nous intéressent en réponse à une requête de recherche.
Au fait, les moteurs de recherche modernes l'utilisent pour donner des chiffres spécifiques au lieu de longs textes en réponse à des requêtes pertinentes telles que: "combien de calories contient une pomme" ou "distance entre Moscou et Saint-Pétersbourg". Cependant, pour comprendre même les bases mêmes du processus décrit, vous devrez vous familiariser avec "l'introduction à la linguistique de corpus" ou un autre manuel de base.
Marquage sémantique
La sémantique d'un mot est, en termes simples, sa signification. Une approche largement applicable en analyse sémantique est l'attribution de balises à un mot, reflétant son appartenance à un ensemble de catégories et sous-catégories sémantiques. Ces informations sont précieuses pour optimiser les algorithmes d'analyse des sentiments textuels, le référencement automatique et l'exécution d'autres tâches à l'aide de méthodes de linguistique de corpus.
Il y a un certain nombre de "racines" de l'arbre, qui sont des mots abstraits qui ontsémantique très large. Au fur et à mesure que cet arbre se ramifie, des nœuds se forment contenant de plus en plus d'éléments lexicaux spécifiques. Par exemple, le mot "créature" peut être associé à des concepts tels que "humain" et "animal". Le premier mot continuera à se ramifier en diverses professions, termes de parenté, nationalité, et le second - en classes et types d'animaux.
Utilisation des systèmes de recherche d'informations
Les domaines d'utilisation de la linguistique de corpus couvrent une grande variété de domaines d'activité. Les corpus sont utilisés pour compiler et corriger des dictionnaires, créer des systèmes de traduction automatique, résumer, extraire des faits, déterminer des sentiments et autres traitements de texte.
De plus, ces ressources sont activement utilisées dans l'étude des langues du monde et des mécanismes de fonctionnement de la langue dans son ensemble. L'accès à de grands volumes d'informations préparées à l'avance contribue à l'étude rapide et complète des tendances dans le développement des langues, la formation de néologismes et de tours de parole stables, les changements dans la signification des unités lexicales, etc.
Parce que travailler avec de si gros volumes de données nécessite de l'automatisation, il existe aujourd'hui une interaction étroite entre l'informatique et la linguistique de corpus.
Corpus national de la langue russe
Ce corpus (en abrégé NKRC) comprend un certain nombre de sous-corpus qui permettent d'utiliser la ressource pour résoudre une grande variété de tâches.
Les matériaux de la base de données NCRA sont divisés en:
- sur les publications dans les médias des années 90 et 2000ans, tant nationaux qu'étrangers;
- enregistrements de discours oraux;
- textes marqués accentologiquement (c'est-à-dire avec des accents);
- discours dialectal;
- oeuvres poétiques;
- matériel avec balisage syntaxique, etc.
Le système d'information comprend également des sous-corpus avec des traductions parallèles d'œuvres du russe vers l'anglais, l'allemand, le français et de nombreuses autres langues (et vice versa).
En outre, la base de données contient une section de textes historiques représentant le discours écrit en russe à diverses périodes de son développement. Il existe également un corpus de formation qui peut être utile aux citoyens étrangers pour maîtriser la langue russe.
Le corpus national de la langue russe comprend 400 millions d'unités lexicales et, à bien des égards, est en avance sur une partie importante des corpus de langues européennes.
Prospects
Un fait en faveur de la reconnaissance de ce domaine comme prometteur est la présence de laboratoires de linguistique de corpus dans les universités russes, ainsi qu'à l'étranger. Avec l'utilisation et la recherche dans le cadre des ressources de recherche d'information considérées, le développement de certains domaines dans le domaine des hautes technologies, les systèmes de questions-réponses sont associés, mais cela a été discuté ci-dessus.
Le développement ultérieur de la linguistique de corpus est prévu à tous les niveaux, de la technique, en termes d'introduction de nouveaux algorithmes qui optimisent les processus de recherche et de traitement de l'information, élargissent les capacités des ordinateurs, augmentent la capacité opérationnellemémoire, et se terminant par celles des ménages, car les utilisateurs trouvent de plus en plus de façons d'utiliser ce type de ressource dans la vie quotidienne et au travail.
En conclusion
Au milieu du siècle dernier, 2017 semblait être un futur lointain, dans lequel les engins spatiaux parcourent les étendues de l'Univers et les robots font tout le travail pour les gens. En réalité, cependant, la science regorge de "points blancs" et fait des tentatives désespérées pour répondre aux questions qui ont troublé l'humanité pendant des siècles. Les questions de fonctionnement du langage y sont à l'honneur, et la linguistique de corpus et computationnelle peut nous aider à y répondre.
Le traitement de grandes quantités de données vous permet de détecter des modèles qui étaient auparavant inaccessibles, de prédire le développement de certaines fonctionnalités du langage, de suivre la formation des mots presque en temps réel.
À un niveau global pratique, les corpus peuvent être considérés, par exemple, comme un outil potentiel d'évaluation de l'opinion publique - Internet est une base de données continuellement mise à jour de divers textes créés par de vrais utilisateurs: ce sont des commentaires, des critiques, des articles, et de nombreuses autres formes de discours.
De plus, travailler avec des corpus contribue au développement des mêmes moyens techniques qui sont impliqués dans la recherche d'informations, que nous connaissent les services Google ou Yandex, la traduction automatique, les dictionnaires électroniques.
On peut dire que la linguistique de corpus n'en est qu'à ses premiers pas et qu'elle se développera rapidement dans un avenir proche.