RESUMEN AUTOMÁTICO


Líneas de investigación

Existen dos grandes líneas de investigación en el campo del resumen automático de documentos. Éstas son:

  • Top-down: análoga a la extracción de información.
  • Bottom-up: similar a la recuperación de información.

Línea Top-down

Se basa en la idea de que el usuario necesita localizar una determinada información muy concreta de un texto. Por eso, son necesarias y aplicables las técnicas de extracción de información.

El tratamiento de los documentos se realiza considerando a éstos como una colección de oraciones de las que se hace una selección de acuerdo a unos criterios específicos dados por el usuario y que guían el proceso de resumen automático. Dicha selección se realiza extrayendo los términos o frases relevantes para los criterios de búsqueda establecidos. Finalmente, de esa selección de frases se construye un documento único basado en el original, obteniendo así un resumen automático totalmente válido.

Línea Bottom-up

Se basa en la idea de que el usuario necesita realizar un resumen automático de un documento, en el que aparezca la información más importante contenida en el texto original.

Las técnicas que se están aplicando en este campo de investigación están estrechamente relacionadas con la recuperación de información. Así, la metodología empleada se basa en la recuperación de los términos más frecuentes del texto y construir posteriormente grafos semánticos que permitan construir frases totalmente nuevas y redactar un resumen automático totalmente genuino, en contraposición con el caso anterior, que era elaborado copiando las frases relevantes de forma idéntica a como estaban en el documento original.

Sin embargo, dichas técnicas son bastante más sofisticadas que para el caso anterior y los resumenes automáticos obtenidos hasta el momento en esta línea no han sido demasiado satisfactorios.