RESUMEN AUTOMÁTICO


Tipos de resumen automático

La generación de resumenes automáticos depende de la cantidad de información a resumir y del tipo de información manejada. Así, se pueden distinguir 3 tipos de resumen automático:

  • Mono-documento: es el más habitual y el que se va a explicar en mayor profundidad.
  • Multi-documento.
  • Información no textual.

Resumen automático mono-documento

Los resumenes mono-documento se realizan sobre un único documento de texto cuyo formato puede ser muy variado. Así, dependiendo de dicho formato, las técnicas utilizadas para generar un resumen pueden ser muy diversas. En esta sección, se explicarán cuáles son las técnicas básicas que implementan las herramientas hasta ahora desarrolladas.

Las 3 técnicas básicas para generar resumenes automáticos son:

  • Técnicas superficiales.
  • Técnicas basadas en entidades.
  • Técnicas basadas en la estructura discursiva.

Técnicas superficiales

Estas técnicas consideran el texto completo del documento como un "todo" formado únicamente por cadenas de caracteres separadas en bloques grandes que constituyen los párrafos. Los procedimientos más habituales para distinguir las partes más importantes de ese "todo" y poder generar resumenes automáticos aceptables son:

Palabras frecuentes

Esta técnica consiste en seleccionar las frases que contengan un mayor número de las palabras que aparecen más veces en el texto completo.

Posición del texto

Esta técnica se basa en escoger como más relevantes las frases o palabras que aparezcan en lugares concretos del documento, que se consideran de mayor relevancia. Según la ubicación a la que se le dé más importancia se usan los siguientes métodos:

  • Lead Method: si se considera que lo importante aparece al principio o al final.
  • Según el género del documento.
    Algunos tipos de documento según su género podrían ser:

    Noticias de prensa: lo más importante aparece en el titular y primer párrafo.
    Artículos de investigación: lo esencial aparece en el abstract y las conclusiones.

Términos o frases indicativos

Esta técnica le da importancia a títulos, subtítulos, enlaces, cadenas de texto introductorias a algo relevante (“es importante”, “en conclusión”, “principalmente”, “en resumen”…), que permiten valorar positivamente las frases donde aparecen. Sin embargo, cadenas de texto “penalizadoras” (“imposible”, “difícilmente” …), harán que se valoren negativamente las oraciones en las que aparecen.

Técnicas basadas en entidades

Estas técnicas se basan en la utilización de técnicas de análisis morfosintáctico del texto. De esta forma, es posible determinar la categoría léxica de cada término (sustantivos, verbos, adjetivos, artículos, pronombres, preposiciones, …).

Una vez realizado dicho análisis, se construye un grafo que represente las relaciones o conexiones entre los términos del texto y poder elaborar los resumenes. Dichas relaciones pueden ser de tipo semántico (una naranja, una manzana y un plátano, son frutas), o de tipo temático (un alumno, un catedrático y un campus, son términos relacionados con el entorno de una universidad).

Técnicas basadas en la estructura discursiva

Son sistemas bastante más complejos basados en la estructura del discurso, y en donde hay que prestar especial atención a la cohesión y coherencia de los resumenes elaborados.

Resumen automático multi-documento

En este caso, el resumen se realiza sobre los contenidos de un conjunto de documentos.

En esta sección se abordarán los 2 temas siguientes:

  • Requisitos que debe cumplir el resumen automático multi-documento.
  • Tipos de resumen automático multi-documento.

Requisitos

El resumen automático multi-documento debe cumplir una serie de requisitos que se enumeran a continuación:

  • Clustering: habilidad para agrupar documentos parecidos y buscar información relacionada.
  • Cobertura: habilidad para localizar y extraer los puntos más importantes de varios documentos.
  • Anti-redundancia: habilidad para minimizar redundancias entre los pasajes del resumen.
  • Cohesión del resumen: habilidad para combinar pasajes textuales de forma que le resulte útil al lector. Las principales técnicas en este sentido son: ordenación de los pasajes del más importante al menos importante, de forma que si el lector deja de leer el resumen haya podido obtener los contenidos de mayor relevancia, ordenación de los pasajes por fecha, ordenación por temas...
  • Coherencia: los resumenes generados deben ser totalmente entendibles por el usuario.
  • Inconsistencias de las fuentes: como algunos documentos pueden contener errores con frecuencia, el resumen debería ser capaz de reconocer e informar de dichas inconsistencias.
  • Actualizaciones: cuando se genera un nuevo resumen automático, debería tener en cuenta los resumenes previos generados.

Tipos

Los tipos de resumen automático multi-documento que existen son:

  • Resumen a partir de las secciones comunes de los documentos: localiza las partes importantes que la colección de documentos tienen en común y las utiliza para efectuar el resumen.
  • Resumen a partir de las secciones comunes y de las secciones únicas de los documentos: exactamente igual que el anterior, pero teniendo en cuenta también para el resumen las partes más importantes únicas de cada documento.
  • Resumen del documento central: crea un resumen sencillo del documento central del grupo.
  • Resumen del documento central y del resto: idéntico al anterior, pero incluyendo también pasajes y palabras claves del resto de documentos para obtener una cobertura más completa del conjunto de todos ellos.
  • Resumen del último documento y del resto: genera el resumen a partir del documento más reciente de la colección, incluyendo pasajes y palabras claves del resto de documentos.
  • Resumen a partir de las secciones comunes y de las secciones únicas de los documentos teniendo en cuenta la fecha: realiza un resumen de forma similar al segundo tipo pero dándole más importancia a los pasajes de los documentos más recientes.

Resumen automático no textual

El resumen automático de información no textual abarca todo tipo de documentos multimedia. No existen aún demasiadas soluciones para abordar este problema, y es que el tratamiento de información no textual plantea problemas adicionales a los que hasta ahora se han planteado. Algunos de estos problemas son:

  • Los contenidos audiovisuales no aportan ningún tipo de información textual de la que extraer términos relevantes.
  • Del problema anterior se deriva el que no sea posible realizar segmentaciones de contenido en oraciones o frases.

Al no estar esta página orientada al resumen automático multimedia, sino al resumen automático de documentos de texto, no se va a aportar más información en este campo, pero cabe destacar que el punto fuerte de investigación en esta línea está orientado a la segmentación temática.