Traducción automática mediante lengua intermedia

La traducción automática mediante lengua intermedia es una de las estrategias clásicas de traducción automática. La idea básica de este método indirecto de traducción es representar el texto inicial en una lengua intermedia abstracta e independiente de las dos lenguas (inicial y meta) para posteriormente traducirlo a la lengua meta.

Historia

Las primeras ideas sobre una lengua universal en que se basa el concepto actual de usar una lengua intermedia en la traducción automática se remontan al siglo XVII, con Descartes y Leibniz. Ambos formularon teorías sobre la elaboración de diccionarios basados en códigos numéricos universales. Cave Beck, Athanasius Kircher y Johann Joachim Becher, por su parte, trabajaron en el desarrollo de una lengua universal sin ambigüedades basada en principios lógicos y símbolos icónicos. En 1668, John Wilkins elaboró una interlingua en Essay towards a Real Character and a Philosophical Language.

A lo largo de los siglos XVIII y XIX aparecieron muchas otras propuestas de lenguas internacionales, la más conocida de las cuales es el Esperanto.

Sin embargo, en los inicios de la traducción automática se empezó trabajando con pares de lenguas, siendo la aplicación de esta idea de una lengua universal posterior. Fue entre 1956 y 1966 cuando empezaron a estudiarse estas posibilidades en Cambridge bajo la supervisión de Margaret Masterman, en Milán por Silvio Ceccato y en Leningrado por Nikolai Andrev.

Durante los años setenta cabe destacar los estudios realizados en Grenoble para traducir trabajos matemáticos y físicos del ruso al francés, aunque no fueran puramente mediante una lengua intermedia. Un trabajo similar se desarrolló en Texas (dentro del proyecto METAL) entre ruso e inglés.

En los años ochenta los sistemas basados en interlingua y los Sistemas Basados en el Conocimiento retoman visibilidad, con múltiples investigaciones sobre el tema. El factor común a todas estas investigaciones es que parten de la idea de que no es necesaria una comprensión total del texto para lograr una traducción de calidad. En vez de esto, la traducción debe estar basada a la vez en el conocimiento lingüístico y la aplicación de la traducción en un dominio concreto, manteniendo el balance entre ambas aunque con mayor relevancia de la finalidad de la traducción. Las investigaciones de mayor importancia a partir de esta década fueron el DLT en Utrecht y el sistema Fujitsu en Japón. DLT trabajaba con una modificación del esperanto.

Traducción utilizando una lengua intermedia

Figura 2. a) Grafo de traducciones necesarias en el caso de traducción directa (se necesitan 12 diccionarios de traducción; b) Grafo de traducciones necesarias utilizando una lengua puente (son necesarios únicamente 8 módulos de traducción).

La traducción utilizando una lengua intermedia es un sistema que abarca el análisis de las oraciones de un texto escrito en una lengua fuente para imponer en ellas las características morfológicas, sintácticas y semánticas correspondientes a la lengua objetivo/destino, realizando una primera transferencia del texto analizado a una lengua intermedia/puente. Dicha lengua posee todas las características morfológicas, sintácticas y semánticas de los idiomas que serán traducidos, en lugar de traducir directamente de la lengua fuente a la objetivo.

Figura 3: Grafo de traducciones utilizando dos lenguas intermedias.

En ocasiones se usan dos lenguas intermedias para optimizar la traducción, ya que así se posibilita que una de las dos se adecue más a las características de la lengua fuente, resultando una traducción más fiable. La segunda lengua intermedia posee entonces todas las características estructurales de la lengua objetivo, convirtiendo las oraciones de la primera lengua intermedia a otras gramaticalmente más próximas a la lengua objetivo. El segundo lenguaje intermedio utiliza un vocabulario más específico y cercano a la lengua de destino y, en orden para concluir la traducción, extrae los análisis estructurales de las oraciones en lengua objetivo.

Este sistema, pues, está basado en el acercamiento interlingüístico de tal forma que permite optimizar la traducción de un texto original a múltiples idiomas, estructuralmente cercanos, a partir de un solo análisis. Las características del acercamiento interlingüístico garantizan una integración más fácil en los sistemas de idiomas que no se relacionan tipológicamente, entre los cuales no sería posible garantizar una proyección de la información lingüística sin un análisis exhaustivo de la información contextual y/o semántica del mensaje. Durante su desarrollo, la invención consideraba sólo los idiomas más hablados, pero puso especial atención y cuidado en el desarrollo de sistemas válidos que permitieran extensiones a todas las lenguas. Asimismo, dicho sistema es aplicable a la traducción automática de textos, a la gerencia de la base de datos y al reconocimiento de voz.

Proceso de traducción

En un sistema interlingüe encontramos dos componentes monolingües: el análisis de la lengua de origen a interlingua, y la generación de interlingua a lengua de destino. Pero podemos distinguir entre los sistemas interlingua que emplean métodos sintácticos (década 1970, Universidad de Grenoble y Universidad de Texas) y los que se basan en técnicas de inteligencia artificial (desde 1987 en Japón y los trabajos de investigación en las universidades de Southern California y de Carnegie Mellon).

En el primer caso, el esquema de traducción sería el correspondiente a la Figura 1, mientras que el otro serían los sistemas basados en el conocimiento, que siguen el esquema de la Figura 4.

Figura 4: Proceso de traducción en un sistemas basados en el conocimiento.

Los recursos necesarios son, por lo tanto, los siguientes:

Lexicones de análisis y generación (dependientes del dominio y las lenguas).
Lexicón conceptual (dependiente del dominio). Es la base de datos de conocimiento sobre eventos y entidades comprendidos por el dominio.
Reglas de proyección (dependientes del dominio y las lenguas).
Gramáticas de análisis y generación (dependientes del dominio y las lenguas)

El problema de los sistemas basados en el conocimiento es que no es viable elaborar bases de datos para dominios que no presenten un alto grado de especificidad. Además, tienen un alto coste computacional.

Ventajas de la traducción automática con interlingua

La indudable ventaja de esta estrategia es que ofrece solidez y, sobre todo, economía en la traducción en sistemas multilingües. Así, mediante el método tradicional de traducción directa necesitamos un par de módulos traductores para cada pareja de lenguas (en total N*(N-1) módulos, como se puede apreciar en la Figura 2); mientras que para la traducción mediante lengua intermedia tan solo necesitamos 2*N módulos, ya que cada lenguaje sólo se relaciona con la lengua intermedia.

Debido a ello, el añadir una lengua nueva en nuestro sistema no supone tanto esfuerzo como supondría en un sistema que siguiera un método de traducción directa. Únicamente tendríamos que relacionar la nueva lengua con la intermedia, en lugar de relacionarla con cada una de las lenguas existentes en nuestro sistema.

Desventajas de la traducción automática con interlingua

El principal inconveniente de esta estrategia es la dificultad de definir el lenguaje intermedio. Éste debería reunir las siguientes características:

Abstracto
Independiente de las lenguas origen y destino

Cuanto mayor sea el número de lenguas y más distintas, más rico deberá ser el lenguaje intermedio para poder expresar todos los matices. Además, para obtener una traducción de calidad se debe representar el significado del texto, y no una transformación de la estructura superficial sin comprenderlo.

Otro problema es la complejidad de extraer del texto original la información necesaria para generar la representación intermedia y generar el texto final a partir de esta, ya que existen múltiples posibilidades dentro de la lengua final.

A todo ello debemos sumarle la pérdida de información que supone recurrir a dos traducciones en lugar de a una directa y el incremento de tiempo necesario debido a que ambas traducciones deben realizarse de forma secuencial.

Conclusiones

A pesar de tener distintas ventajas, como menos esfuerzo y mayor modularidad, el uso de una lengua intermedia en la traducción automática implica algunos inconvenientes. La pérdida de información como resultado de dos traducciones en el camino de transformación de la lengua origen a la de destino y el incremento del tiempo de traducción producto de la necesidad de realizar dichas traducciones secuencialmente, son sus principales problemas.

Véase también

Datos: Q2652459