CORPUS MULTIMODALES
TIPOS Y APLICACIONES
Análisis de corpus multimodales | multimedia
Esta entrada surgió a partir del siguiente artículo: Alcántara Pla, Manuel, "El reto en el análisis de los corpus de última generación", recopilado dentro del proyecto RILARIM en la Universidad de Murcia.
Enlace a continuación:
En este texto el autor comienza a mostrar las dificultades, principlamente, a las que se enfrentan los investigadores al momento de analizar un corpus multimodal. Si bien hay lenguas que poseen una mayor experiencia en el uso de este tipo de fuentes de información, como el inglés, alemán o japonés, aún persisten retos y problemáticas universales.
Desde el nivel de la transcripción hay diferencias, Alcántara Pla comenta que "la mayoría de los corpus han optado por seguir las normas ortográficas de sus respectivas lenguas" como en el caso del Corpus de Holandés Hablado (CGN), el Corpus Nacional Británico (BNC) o el Corpus de Japonés Espontáneo (CSJ) [enlaces al final del texto], lo que causa una falta de fidelidad y homogeneidad, por lo cual se recomienda utilizar sistemas estandarizados como el del grupo EAGLES.
Algunos de los corpus tratan de mantener la fidelidad añadiendo signos fuera de la norma ortográfica (p.ej. C-ORAL-ROM) o utilizando transcripciones fonológicas (algunos utilizan SAMPA).
Las transcripciones fonéticas han resultado más complejas de lo esperado y "con un escaso nivel de acuerdo entre los anotadores".
En cuanto al nivel prosódico el etiquetado es mixto: por ejemplo al comparar unidades tonales con las unidaes informativas de Halliday. Dependiendo del objetivo del corpus son las unidaes prosódicas a las que se les dará prioridad, y referente a los sistemas utilizados ToBI se ha utilizado como estándar para inglés, alemán, japonés, coreano y griego, con adaptaciones pertinentes.
Los datos sobre morfología enfrentan un obstáculo importante desde el inicio: definir qué es una palabra o cómo será considerada ¿a través de espacios en blanco o como grupos mínimos de sonido con significado propio? La mayoría de los proyectos han optado por herramientas preexistentes que han funcionado con éxito, como el sistema de etiquetado TNT o el de Brill.
A pesar de lo anterior, en sintaxis la dificultad es muy poca al momento de definir unidades. Muchos corpus utilizan la herramienta semi-automática ANNOTATE.
Para la anotación semántica usualmente se utiliza la perspectiva conceptual: un etiquetado que clasifica a los documentos o palabras según el campo al que pertenecen y se distinguen entre sí por el número de categorías; por ejemplo 231 categorías dividas en 21 campos (como arte y cultura).
La pragmática ha tenido un amplio desarrollo en cuestiones de análisis, por ejemplo en el Corpus de Tareas con Mapas (MTC) de la Univerdidad de Edimburgo hay tres niveles de anotación discursiva. "La anotación pragmática es la que más varía según el objetivo final del etiquetado y, aunque algunas propuestas son generales, la mayoría han sido diseñadas para sistemas muy específicos."
Como puede observarse la anotación de los nuevos corpus diseñados de una forma distinta, ofrece una amplia variedad de información que, sin ciertos soportes tecnológicos, se vería perdida. De la misma manera que sucede con un corpus oral o textual el diseño, metodología y análisis debe ser realizado con cuidado, especialmente si se tiene como objetivo crear un corpus reutilizable o que pueda dar lugar a nuevos.