Compartir Pantalla

De PDF a XML-TEI automática y rápidamente

14 DE MAYO DE 2024 – 19:00 (GMT+2)

Fernando Sanz-Lázaro

Fernando Sanz Lázaro está adscrito al Austrian Centre for Digital Humanities de las Academia Austriaca de las Ciencias, donde actualmente trabaja en un proyecto de edición digital y archivado de cantorales manuscritos. Se doctoró en Estudios Romances en la Universidad de Viena con una tesis sobre métodos digitales para extraer y organizar información estructural y prosódica de obras teatrales áureas, cuyos resultados, junto con otras aproximaciones léxicas, ha aplicado a la estilística cuantitativa.

Resumen de la intervención

Este Compartir Pantalla presentará mediante un ejemplo práctico una cadena de trabajo para procesar obras teatrales en verso partiendo de un archivo de texto puro y obtener datos estructurados anotados con información dramática, léxica y métrica. El objetivo es codificar rápidamente en XML-TEI o tabular en un archivo CSV el archivo de texto sin estructura para posibilitar análisis digitales complejos y, al mismo tiempo, minimizar el trabajo manual que requiere la tarea. Para ello, nos valdremos de un editor de texto con soporte de sustitución mediante expresiones regulares y una instalación de Python 3 reciente.