Desarrollo de un modelo computacional para el procesamiento de corpus textuales basado en la etiquetación automática

Resumen: Tesis de doctorado que realiza un análisis detallado de la etiquetación automática de corpus textuales, las diferentes vías de desambiguar las palabras con posibilidad de tener más de una categoría gramatical, según el contexto donde se encuentre, principalmente sobre la base de la teoría probabilística de los modelos ocultos de Markov.La tesis describe la estructura, funcionamiento y descripción del modelo computacional que propone esta investigación, el cual se denomina ETIPROCT (Etiquetador y Procesador de Corpus Textuales) y describe sus dos secciones: la de la etiquetación automática de los textos y la del procesamiento de la información lingüística.La aplicación del ETIPROCT a dos corpus textuales completamente diferentes desde el punto de vista lexical refleja la alta efectividad del sistema. Se procesaron 52051 palabras de 358 textos escritos por alumnos de Secundaria Básica de ocho provincias cubanas, donde se obtuvo una efectividad de 98.15%. Por su parte, se analizaron 51252 palabras en 131 textos de la prensa escrita cubana (Granma, Trabajadores y Juventud Rebelde) y la efectividad fue de 97.16%.Otra de las novedades del sistema que describe esta tesis es la codificación automática de los lapsogramas cometidos por los estudiantes en las composiciones escritas, codificación que anteriormente se realizaba de forma manual. El reconocimiento de palabras compuestas, el enriquecimiento constante del lexicón, la creación del aspecto semántico dentro del mismo y la larga relación de resultados linguoestadísticos, entre otros, son los aportes más significativos del primer etiquetador gramatical automático de corpus textuales creado en Cuba, objetivo principal de esta tesis.

Autor:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *