Abonnez-vous à la newsletter OpenKM pour être informé

Sumarisation de documents

Ana CanteliÉcrit par Ana Canteli le 14 septembre 2018

Indépendamment de cela, la plupart des informations que nous avons lues aujourd'hui sont des résumés de documents. Titres, comptes rendus de réunions, synopsis de films et de séries, éditoriaux de livres, prévisions météorologiques, communiqués de presse ... En outre, l'impact des nouvelles technologies sur la production et la diffusion de l'information doit être pris en compte. Pensez uniquement au web, la quantité d'informations sous forme de documents, d'images, d'audios, de vidéos produites chaque jour et dont la croissance est exponentielle. Il n’est pas possible d’analyser l’information dans son intégralité. Il est donc particulièrement intéressant de déterminer comment faire un bon résumé des documents, utiliser ces informations de manière appropriée pour nous aider à prendre de bonnes décisions.

Dans la gestion électronique de documents, on utilise le résumé, processus qui consiste à réduire un document - plus ou moins long - ou un groupe de documents, en un ensemble de mots ou de paragraphes traduisant l’idée principale du document.

La norme internationale ISO 214: 1976, traduite par AENOR en tant que norme UNE 50-103-90 "Préparation des abrégés", indique qu'un résumé de documents est la présentation abrégée et précise d'un document, sans interprétation ni critique et sans mention expresse de l’auteur du résumé. Nous pouvons résumer un texte, l’image d’une photographie, une vidéo, un fichier audio, des informations en ligne ou des hypertextes, un fichier ou une série documentaire.

Écrire un résumé est facile. La difficulté est de rédiger un bon résumé. L’important est donc la qualité du résumé; cela le rendra plus ou moins utile dans un système de gestion de documents. Par exemple, un résumé du texte de propagande ne fournira pas beaucoup de concepts principaux pour l’indexation, bien que ce soit une bonne revendication.

Les caractéristiques d’un bon résumé devraient être les suivantes:

  • Concession: les données préliminaires ou les sujets de la connaissance commune devraient être omis.

  • Pertinence: le résumé doit être adapté au message principal du document, sans obvier ni interpréter les données.

  • Clarté et cohérence: doit contenir des phrases complètes, dotées d’une cohérence linéaire et globale.

  • Profondeur: Il sera différent selon le type de résumé ou les différents niveaux de détail recherchés.

  • Cohérence linguistique: un résumé de texte doit s’adapter aux directives linguistiques en vigueur et doit prendre en compte les règles morphologiques et syntaxiques de la langue.

  • Proximité chronologique: entre l'édition du document original et le résumé. Le délai entre la publication de l'original et du résumé ne doit pas être excessif, en particulier dans les domaines scientifique et technique.

De plus, le résumé de texte a d'autres utilisations: diffuser les informations, déterminer la pertinence, éviter de lire le texte intégral de documents secondaires et faciliter la recherche automatique, comme indiqué dans la norme UNE 50-103-90:

  • Aide à déterminer la congruence: un résumé bien préparé, qui permet au lecteur d'identifier rapidement et avec précision le contenu d'un document et de décider s'il convient de le lire intégralement.

  • Évitez de lire le texte entier dans les documents. Un résumé bien préparé fournit des informations suffisantes sur les problèmes secondaires. Enregistre le temps utilisateur

  • Aide à la recherche automatisée. Les résumés automatisés incorporés dans les catalogues ou les annuaires sont très utiles pour:

  • Extrayez les termes d'index du texte, c'est-à-dire l'index du résumé.
  • Recherchez des mots-clés qui ne figurent pas dans le titre.

L'une des solutions apportées par le traitement du langage naturel - domaine de l'informatique, de l'intelligence artificielle et de la linguistique, qui étudie l'interaction entre l'informatique et le langage humain - a été le programme de synthèse automatique de textes qui agissent sur des textes, des images, des pages Web ou des courriels.

Les résumés automatisés de plusieurs documents incorporés dans les catalogues documentaires sont très utiles pour améliorer les techniques de résumé: extraire les termes d'indexation de texte, pour rechercher des mots-clés en dehors du titre, pour servir de contrôle bibliométrique et faciliter la diffusion à travers les services d’alertes. Le résumé est utile en deux phases: dans les processus de sélection et d’acquisition qui ont lieu pendant la première phase de la collecte de la documentation; et de son intégration dans le système de gestion de documents et dans la phase de sortie, où il s’agit d’un excellent outil de récupération; par exemple via le moteur de recherche.

Les résumés peuvent être rédigés par l'auteur du document, un spécialiste du domaine, l'éditeur, un documentaliste ou un programme d'ordinateur (résumé automatique du texte); bien qu'en milieu professionnel, l'idéal serait d'avoir une ou deux personnes spécialisées dans la catégorisation, l'indexation et la synthèse, afin que le catalogage du référentiel documentaire soit uniforme.

On peut dire que la synthèse est un ensemble de processus et de techniques de synthèse sur un texte, parmi lesquels:

  • Le choix de ce qui est important.
  • L'omission de ce qui n'est pas.
  • Généralisation du particulier au spécifique.
  • Identification de structures générales ou globales.

Il existe deux approches principales lors de la réalisation du processus de synthèse. L’approche extractive, qui utilise des méthodes d’extraction, c’est-à-dire la sélection de sous-ensembles de mots, expressions ou phrases existant dans le texte original pour constituer le résumé. Et l’approche abstractive, dans laquelle une représentation sémantique interne est construite, puis des méthodes abstractives de génération et de traitement du langage naturel sont utilisées pour créer un résumé proche de ce que l’être humain pourrait générer. En outre, il existe dans la littérature deux types de résumés particuliers, qui sont souvent utilisés: l'extraction de phrases clés, dont l'objectif est de sélectionner des mots ou des phrases individuels pour étiqueter un document. Et le résumé des documents -multiples-, où l'objectif est de sélectionner des phrases entières pour créer un petit paragraphe de résumé.

D'autre part, nous trouvons différents types de résumés, qui dépendent de l'approche du programme de résumé pour le réaliser. Ils mettent en évidence les résumés par pertinence des requêtes (résumés pertinents de requêtes) et les résumés de documents multiples (générés par une synthèse de plusieurs documents).

Par exemple: imaginons que nous ayons un logiciel de synthèse contenant un algorithme permettant d'extraire des mots-clés d'un texte. Le document peut contenir des mots-clés importants sous forme de balises, mais ce n'est généralement pas le cas. Pour sélectionner les mots suffisamment importants pour être considérés comme des mots-clés, nous pouvons compter sur un thésaurus - un dictionnaire contrôlé de termes - qui, s'ils apparaissent dans le texte, seront considérés comme des termes clés, qui feront partie du résumé. Pour améliorer les performances du traitement du langage naturel, nous allons travailler non seulement avec les dictionnaires de termes, mais aussi avec les synonymes. Vous pouvez utiliser des algorithmes utilisant une autre logique pour détecter les mots-clé. Par exemple, le nombre de fois qu'un terme apparaît; combien de fois il est répété, plus ce mot sera significatif par rapport au reste des termes contenus dans le texte. Une autre logique complémentaire et applicable pour promouvoir l'apprentissage en profondeur pourrait être la position de ce terme dans le texte; s’il apparaît dans le premier paragraphe, cette condition en fait un mot-clé.

Les algorithmes peuvent prendre en compte, en tant que moyen d'apprentissage automatique, en dehors de la fréquence et de la position des mots-clés, la relation avec d'autres termes; c'est-à-dire que les applications de résumé automatique de texte peuvent fonctionner sur des brigramas (un mot) à unigramas (2 mots), des trigramas (3 mots), ce qui peut conduire à une sélection plus cohérente de mots-clés pertinents, permettant de faire un résumé ; étant donné que l'on considère que les mots les plus proches les uns des autres sont liés de manière significative et sont "recommandés" mutuellement. Des conditions d'apprentissage machine (machine learning) supplémentaires peuvent être ajoutées. Par exemple, si la phrase clé qui contient 3 mots -trigram- commence par un mot dont la première lettre est en majuscules, etc.

La synthèse de textes fait partie de l'apprentissage automatique et de l'exploration de données. Lorsqu'un algorithme est prêt à reconnaître un motif - apprentissage automatique - ce schéma peut également entraîner des inconvénients. Si, par exemple, nous préparons l'algorithme pour la détection des phrases clés de 3 mots, les phrases composées de 4 éléments ou plus seront ignorées, même si elles sont pertinentes.

Les systèmes de synthèse et les applications permettent d’obtenir des résumés plus rapidement. Ils peuvent traiter plus de documents qu’un humain, ils sont donc plus productifs et moins chers - bien que la qualité des résultats ne soit pas optimale. - Les meilleurs processus de résumé en ce moment ne sont pas les automatismes, mais les manuels - dans lesquels une personne lit le document et, grâce à ses connaissances linguistiques et thématiques, résume le contenu du document - mais vous pouvez compter sur la prise en charge des applications permettant d’effectuer des tâches de récapitulation automatiques. L'apprentissage supervisé dans l'outil de synthèse automatique de texte, permet d'introduire des modèles à titre d'exemples montrant au système les techniques de synthèse les plus appropriées, de manière à ce qu'il compare ses résultats aux modèles. Le superviseur ignore les mots-clés incorrects et l'algorithme de synthèse apprend. Ceci est en synthèse, le KEA (Algorithme d’extraction de mots-clés) disponible dans le système de gestion de documents OpenKM; où il peut être exécuté manuellement ou automatiquement.

Contactez nous

Renseignements généraux