Usuario:GabsEVE/Taller

La traducción asistida por ordenador (o traducción asistida por computadora: TAC), traducción con ayuda de ordenador (TAO) o CAT (del inglés: computer-assisted translation), es una forma de traducción de la lengua en la que un traductor humano utiliza software para apoyarse y facilitar el proceso de traducción.

A la traducción asistida por ordenador se le denomina a veces como traducción asistida por máquinas, o traducción con ayuda de máquinas (que no debe confundirse con la traducción automática).

Descripción general

Los sistemas automáticos de traducción disponibles en la actualidad no son capaces de producir traducciones de alta calidad sin ayuda: su producción debe ser editada por un ser humano para corregir errores y mejorar la calidad de la traducción. La traducción asistida por ordenador (TAO) incorpora esa etapa de edición manual en el software, por lo que la traducción es un proceso interactivo entre el ser humano y el ordenador.^[1]

Algunas soluciones avanzadas de traducción asistida por ordenador incluyen la traducción automática controlada (TA). Los módulos TA de mayor precio normalmente proporcionan un conjunto más complejo de herramientas disponibles para el traductor, que pueden incluir características de gestión terminológica y varias otras herramientas lingüísticas y utilidades. Los diccionarios de usuario cuidadosamente personalizados basados en la terminología correcta mejoran considerablemente la exactitud de la TA, y como resultado, ayudan a incrementar la eficiencia de todo el proceso de traducción.

Historia

Puede decirse que la semilla de la traducción asistida por ordenador fue el informe realizado por el ALPAC (Comité Asesor para el Procesamiento Automático del Lenguaje, por sus siglas en inglés) en 1966 sobre la traducción automática. Desde la aparición del ordenador en los años 40, siempre hubo distintas corrientes que veían en él una solución para la comunicación entre diferentes culturas. Destaca, a este respecto, el Memorandum on Translation de Warren Weaver (con referencias a Claude Shannon). Sin embargo, el informe del ALPAC desaconsejó la inversión en TA, manifestando que nunca llegaría al nivel de la traducción realizada por el hombre. Esto dio pie a que se reconsiderase el modo en que el ordenador podía ayudar a las personas en el proceso de la traducción.

Paralelamente al desarrollo de los primeros modelos de ordenador personal (recordemos que los primeros aparecieron en la década de los 60) se fueron desarrollando herramientas diseñadas para los distintos usos que se le podían dar, aunque no sería hasta la década de los 80 cuando dichos ordenadores personales conocerían su auge. Antes de esto, las empresas trabajaban con un ordenador central conectado a varios terminales. En esta misma época se comenzaron a crear bases datos terminológicas que funcionaran, sobre todo, a nivel interno en una misma empresa. Durante los años 70 el almacenamiento de corpora (o conjunto de corpus) paralelos (bilingües y multilingües) da lugar a que se observe que, dentro de los textos traducidos, hay determinados términos y expresiones que se repiten sucesivamente y es entonces cuando nace el concepto de memoria de traducción (MT), que consiste en poder disponer de una base datos donde consultar traducciones previas de determinados términos o frases, iguales o similares a aquellos que quieren traducirse. No eran otra cosa que almacenes de información en una base de datos sencilla dotada de un motor de búsqueda. Tanto Martin Kay como Peter Arthern son considerados pioneros en este concepto. Peter Arthern, al frente de su cargo como jefe de la División de Traducción Inglesa del Consejo de las Comunidades Europeas (futuro Consejo de la Unión Europea), pone de manifiesto la necesidad de incorporar el ordenador como solución a los problemas de coherencia y uniformidad del uso de términos que plantea la traducción a gran escala ^[2] y la conveniencia de crear un sistema terminológico multilingüe que incluya glosarios actualizados (que puedan imprimirse) con equivalencias exactas, dadas por la acotación de los temas tratados en los textos legales y legislativos de las Comunidades Europeas. El desarrollo del ordenador había posibilitado por entonces una herramienta, el procesador de texto, y a Arthern se le ocurrió que la Secretaría General, las grandes empresas o instituciones e incluso otros usuarios podrían verse más favorecidos con un sistema integrado de procesador de texto que produjera traducciones por búsqueda y recuperación de texto que con un programa de traducción automática (Arthern, 1981:317). Para ello, propuso que los procesadores de texto fueran capaces de almacenar todas las traducciones ya realizadas en su memoria. En cualquier caso, ni Kay ni Arthern llegaron a desarrollar aplicaciones, simplemente postularon ideas.

Por su parte, Alan Melby cree que la idea de las MT se originó en su grupo de investigación en la Brigham Young University y, de hecho, con parte de este grupo se unió para formar ALPS (Automated Language Processing Systems). De este modo, en 1981, ALPS lanzó el primer sistema de TAO creado para ordenadores personales y disponible en el mercado, bajo el nombre de "Procesador de Repeticiones" (Repetition Processing). ALPS incorporaba un procesador de texto multilingüe, un diccionario automático, una herramienta de consulta de terminología, una herramienta interactiva para traducir y una herramienta de búsqueda y extracción de repeticiones, siendo esta última herramienta una primera versión de lo que son hoy las memorias de traducción (aunque el término memoria de traducción apareció como tal más tarde). Se reconoció que el sistema tenía grandes limitaciones, por lo que ALPS abandonó el desarrollo del sistema en 1986.

A finales de los 80 lo que centra la atención de los desarrolladores es la posibilidad de establecer concordancias bilingües entre textos, a diferentes niveles (palabras, expresiones, secuencias de caracteres, formato, etc.) mediante la alineación de textos paralelos, lo que continúa también durante los 90. Durante los años 90 aparecen distintos sistemas de TAO, también llamados workstations, como Translator's Workbench de Trados, TranslationManager de IBM o DéjàVu de Atril. Todos ellos incorporaban diferentes utilidades o herramientas. En suma, ha surgido un nuevo sector de actividad, conocido como industria del lenguaje.

Tipos de herramientas

La traducción asistida por ordenador es un término amplio e impreciso que abarca una amplia gama de herramientas, desde lo relativamente simple a lo complicado. Estos pueden incluir:

Correctores ortográficos, ya integrados en los procesadores de texto, o disponibles como complemento para los programas.
Correctores gramaticales, ya sea incorporados en el procesador de textos, o como programas adicionales.
Gestores terminológicos, que permiten al traductor gestionar su propio banco de datos terminológico desde un formulario electrónico. Podria ser una simple tabla creada mediante el procesador de textos del traductor o una hoja de cálculo, una base de datos creada en un programa como el de FileMaker Pro o, para soluciones más consistentes (y más caras), paquetes de software especializados como: SDL MultiTerm, LogiTerm, Termex, etc.
Diccionarios electrónicos, ya sean monolingües o bilingües.
Bases de datos terminológicas, ya sea en su equipo local (host) o accesibles a través de Internet, tales como TERMIUM Plus o Gran Dictionnaire terminologique de la Oficina Quebequesa de la Lengua Francesa.
Herramientas de búsqueda de texto completo (o indexadores), que permiten al usuario consultar los textos ya traducidos o documentos de referencia de diversa índole. Algunos de estos indexadores son: ISYS Search Software, dtSearch Desktop y Naturel.
Programas de concordancia, que son programas que recuperan resultados de una palabra o una expresión y su respectivo contexto en corpus monolingües, bilingües o multilingües, como un Bitext o una memoria de traducción.
Programas de alineación de palabras: herramientas que alinean un texto original y su traducción, que luego pueden ser analizados utilizando un instrumento de búsqueda de texto completo o un programa de concordancias.
Programas de gestión de proyectos, que permiten a los lingüistas estructurar los proyectos de traducción complejos, asignar las distintas tareas a cada persona, y realizar un seguimiento del progreso de cada una de estas tareas.
Herramientas de memorias de traducción (herramientas MT), que constan de bases de datos de segmentos de texto en un idioma de origen y sus traducciones en uno o más idiomas de llegada.

Conceptos

Software de memoria de traducción

Los programas de memorias de traducción almacenan textos de origen previamente traducidos y los textos de destino equivalentes en una base de datos y recuperan segmentos relacionados durante la traducción de nuevos textos. Estos programas dividen el texto de origen en unidades manejables conocidas como "segmentos". Una frase fuente de texto o frase unidad (encabezados, títulos o elementos en una lista) puede ser considerada un segmento, o los textos pueden ser segmentados en unidades más grandes, tales como párrafos, o más pequeñas, como las partes de una oración. A medida que el traductor trabaja en un documento, el software muestra cada uno de los segmentos de origen y proporciona una traducción previa para volver a usar, siempre que el programa encuentre un segmento de origen coincidente, o parecido, en su base de datos. Si no lo encuentra, el programa permite al traductor introducir a mano una traducción para el nuevo segmento. Una vez terminada la traducción de un segmento, el programa almacena la nueva traducción y avanza hasta el siguiente segmento. En el paradigma dominante, la memoria de traducción, en principio, es una simple base de datos que contiene el segmento del texto de partida, la traducción del segmento, y otra información, como la fecha de creación del segmento, el último acceso, el nombre del traductor, etc. Otro planteamiento de la memoria de traducción no implica la creación de una base de datos, sino que se basa en la alineación de documentos de referencia.

Algunos programas de memoria de traducción funcionan como entornos independientes, mientras que otros funcionan como un complemento para los procesadores de texto. Unos filtros permiten que documentos de origen en otros formatos, como archivos de autoedición, hojas de cálculo, o código HTML, puedan ser manejados mediante el programa de MT.

Programas de motores de búsqueda de idiomas

El software de motores de búsqueda de idiomas es algo nuevo en la industria de traducción. Es un sistema basado en Internet que funciona de manera similar a los motores de búsqueda de Internet. Sin embargo, un motor de búsqueda en idiomas busca en un gran almacén de memorias de traducción para encontrar fragmentos traducidos previamente, expresiones, oraciones enteras, incluso párrafos completos que responden a segmentos del documento de origen.

Los programas de búsqueda en distintos idiomas están diseñados para aprovechar las últimas tecnologías de búsqueda para buscar en base a palabras contextualizadas en la lengua origen y asegurarse de que los resultados de búsqueda coinciden con el significado de los segmentos de origen. Al igual que las herramientas tradicionales de TM, el valor de un motor de búsqueda de lenguaje se basa en gran medida en el almacén de memorias de traducción donde se realiza la búsqueda.

Software de gestión terminológica

El software de gestión terminológica proporciona al traductor un medio para buscar automáticamente dentro una determinada base de datos los términos que aparecen en un documento, ya sea mediante la visualización automática de términos en la ventana del programa memoria de traducción o mediante el uso de teclas de acceso rápido para acceder a la entrada en la base de datos terminológica. Algunos programas tienen otras combinaciones de teclas que permiten al traductor añadir nuevos pares terminológicos a la base de datos terminológica sobre la marcha durante la traducción. Algunos de los sistemas más avanzados permiten a los traductores comprobar, ya sea de forma interactiva o en modo por lotes, si la combinación correcta de términos de origen / destino se ha utilizado dentro y a lo largo de segmentos de la memoria de traducción en un proyecto determinado. También existen los sistemas de gestión terminológica independientes que pueden proporcionar la funcionalidad de flujo de trabajo, la taxonomía visual, trabajar como un corrector de términos (similar al corrector ortográfico, los términos que no se han utilizado correctamente se marcan) y pueden soportar otros tipos de entornos multilingües como imágenes, vídeos o sonido.

Software de alineación

Los programas de alineación toman traducciones ya realizadas y dividen ambos textos; de origen y destino, en segmentos, y tratan de determinar qué segmentos funcionan conjuntamente con el fin de construir una memoria de traducción u otros recursos de referencia con ese contenido. Muchos programas de alineación permiten a los traductores realinear manualmente segmentos coincidentes. La alineación Bitext resultante puede ser importada por un programa de memoria de traducción para traducciones futuras o se utiliza como un documento de referencia.

Traducción automática interactiva

La traducción automática interactiva es un paradigma en el que el sistema automático intenta predecir la traducción que el traductor humano va a realizar sugiriendo hipótesis de traducción. Estas hipótesis pueden ser la oración completa, o la parte de la sentencia que aún no se ha traducido.

Traducción participativa

La traducción participativa se refiere a la contratación de un gran número de traductores bilingües que colaboran a través de las redes sociales de comunicación. Cuando Facebook necesita traducir una gran cantidad de texto en inglés de sus entornos gráficos de usuario, la compañía hace uso de la ayuda voluntaria de sus usuarios bilingües, organizados por Yishan Wong.

Estrategia

La estrategia principal y genérica de los sistemas de traducción asistida por computadora estriba en el acceso a las memorias de traducción, para su reutilización. Por una parte, se reutilizan los elementos traducidos y revisados por un humano y, por otra, se recuperan los elementos traducidos con un índice de coincidencia variable mediante la técnica de lógica difusa. Asimismo, estos sistemas cuentan, por regla general, con un gestor de terminología que permite gestionar otro tipo de recursos lingüísticos, los diccionarios. Por este motivo, estas herramientas pueden considerarse como gestores de recursos lingüísticos que pueden ser reutilizados para diferentes proyectos o para otras herramientas diferentes a los de su entorno de creación.

Estas herramientas son sistemas de información que dan soporte al almacenamiento, navegación, extracción y creación de recursos lingüísticos del tipo memorias de traducción y diccionarios terminológicos.

El auge experimentado por los sistemas de traducción asistida por computadora está vinculado al hecho de que los planteamientos más ambiciosos de la traducción automática han pecado de considerable ingenuidad, que explican la desilusión de los logros alcanzados. De la insatisfacción de esos logros, por la escasa respuesta de implantación obtenida en el ámbito profesional, se desarrollan herramientas de software que aspiran a la automatización de las tareas mecánicas, reduciendo las pretensiones de automatización de las tareas de alto nivel de implicación cognitiva.

Los sistemas de traducción asistida por computadora funcionan de forma óptima con textos muy repetitivos, como los manuales técnicos. También son útiles para realizar revisiones, correcciones y pequeñas modificaciones.

Ventajas

Las herramientas TAC ayudan al traductor a llevar a cabo tareas de traducción, optimizando su productividad. Además, nos libran de tareas añadidas tales como la maquetación, la extracción de contenido o la comprobación de la coherencia en la terminología.

Traductores automáticos

Este tipo de traductor NO se considera una herramienta TAO. Trabaja con las interrelaciones sintácticas y semánticas del texto, pero no tienen en cuenta el contexto, y su coste de producción es elevado. Son útiles para traducir en 2 lenguas similares.

Algunas herramientas TAO destacadas

La siguiente lista incluye sólo algunos de los programas existentes y disponibles. No es exhaustiva y sólo se diseñó para ser tomada como ejemplo, no como una referencia completa. Varias herramientas pertinentes no están presentes en la lista.

Nombre	Formato de archivos aceptados	SO	Idioma	Complemento	Licencia
Déjà Vu^[3]	Microsoft Office (Word, Excel, Powerpoint, también objetos integrados, and Access), Contenidos de ayuda (CNT), FrameMaker (MIF), PageMaker, QuarkXPress, QuickSilver/Interleaf ASCII, Java Properties (.properties), HTML, HTML Help, XML, RC, C/Java/C++, IBM TM/2, Trados Workbench, Trados BIF (antes TagEditor), Trados TagEditor, JavaScript, VBScript, ODBC, TMX, EBU, InDesign (TXT, ITD, INX, IDML), GNU GetText (PO/POT), OpenOffice, OpenDocument SDLX (ITD), ResX, XLIFF (XLF, XLIF, XLIFF, MQXLIFF, segmentados y no segmentados SDLXLIFF), Visio (VDX), PDF, Transit NXT PPF, WordFast Pro TXML	Windows			Registrado
GlobalSight	Text ANSI / ASCII / Unicode for Windows, Text para Apple Macintosh, HTML, XML (ASP.NET, ASP, JSP, XSL), SGML, MS Word para Windows, MS Excel, MS PowerPoint, RTF, RC, Adobe FrameMaker, Adobe InDesign	Java platform / Java			Licencia Apache 2.0
gtranslator	PO	POSIX	C	GTK+	Licencia pública general de sofware libre
Lokalize	Gettext PO, Qt ts, XLIFF, TMX	Cross-platform	C++	Qt	Licencia pública general de software libre
memoQ^[4]	.MIF, InDesign formats (.INDD, .INX, .IDML), .XML, .DITA, .XML, .MM, .PO, .HTML, .HMT, .SHT, .properties, .DOC, .RTF, .BAK, .DOT, .DOCX, .XLS, .XML, .XLSX, .XLSM, .XLS, .XLT, .PPT, .PPS, .POT, .PPTX, .PPSX, .POTX, .SLDX, .VDX, .HHC, .HHK, .ODT, .ODF, .TXT, .INF, .INI, .REG, .PDF, .SVG, .SDLPPX, .TTX, .SDLXLIFF, .TMX, .TXML, .RESX, .XLF, .XLIF, .XLIFF, XLIFF:doc	Windows			Registrado
MemSource	.doc, .docx, .rtf, .ppt, .pptx, .xls, .xlsx, .htm, .html, .properties, .tmx, .ttx, .xhtm, .xhtml, .xml, .dita, .ditamap, .xliff, .sdlxliff, .txt, .csv, .resx, .idml, .mif	Java platform / Java			Registrado
MetaTexis	Microsoft Word, Excel and Powerpoint, todo tipo de formatos de texto, XML, HTML, XLIFF, RTF, TRADOS Studio (SDLXLIFF), TagEditor (TTX), POT/PO, Manual Maker, otros muchos formatos...	Complemento de Microsoft Office Word			Registrado
OmegaT	Plain text, HTML, XHTML, StarOffice, OpenOffice.org, OpenDocument (ODF), MS Office Open XML, Help & Manual, HTML Help Compiler (HCC), LaTeX, DokuWiki, QuarkXPress CopyFlow Gold, DocBook, Android Resource, Java Properties, Typo3 LocManager, Mozilla DTD, Windows RC, WiX, ResX, INI files, XLIFF, PO, SubRip Subtitles, SVG Images	Java platform / Java			Licencia pública general de software libre
Herramientas para entorno libre	XLIFF, HTML/XHTML, XML, DocBook SGML, ASCII, StarOffice/OpenOffice/ODF, PO, .properties, .java (ResourceBundle), .msg/.tmsg (catgets)	Java platform / Java			Licencia de Distribución y Desarrollo Común
Poedit	PO	Multiplataforma	C++	GTK+	Licencia MIT
Pootle	PO, XLIFF, archivos de OpenOffice GSI (.sdf), TMX, TBX, Java Properties, DTD, CSV, HTML, XHTML, Plain Text	Multiplataforma	Python	Web	Licencia pública general de software libre
SDL Trados	Características para los siguientes entornos: dedicated TagEditor, MSWord Interface, SDLX, la interfaz integrada SDL Trados Studio 2014. Filtros para traducir con Trados Studio o TagEditor disponibles: Word, Excel, PowerPoint, OpenOffice, InDesign, QuarkXPress, PageMaker, Interleaf, Framemaker, HTML, SGML, XML, SVG, Xliff, Legacy Trados files TTX, ITD, Word Bilingual, Wordfast, MemoQ .... Incluye SDL MultiTerm para Gestión Terminológica y Project Management Dashboard para el desarrollo de tareas automáticas y de seguimiento.	Windows			Registrado
Virtaal	XLIFF, PO and MO, TMX, TBX, Wordfast TM, Qt ts Muchos otros mediante conversores Translate Toolkit	Multiplataforma	Python	GTK+	Licencia pública general de software libre
Wordfast PRO	MS Word, Excel, PowerPoint (all versions), PDF, SGML, HTML, XML, InDesign, FrameMaker, tagged documents, XLIFF, etc.	Java platform / Java			Registrado

De acuerdo con una encuesta llevada a cabo por el Imperial College, tomando como muestra 874 profesionales de la traducción de 54 países en el año 2006, se produjo el siguiente resultado sobre el uso de herramientas primarias: Trados (35%), Wordfast (17%), Déjà Vu (16%), SDL Trados 2006 (15% ), SDLX (4%), Star Transit (3%), OmegaT (3%), otros (7%). ^[5]

Véase también

Referencias

↑ Barrachina, Sergio; et al (2009). «Statistical Approaches to Computer-Assisted Translation». Computational Linguistics 35 (1): 3-28. ISSN 0891-2017. doi:10.1162/coli.2008.07-055-r2-06-29.
↑ Arthern, Peter (1981). «Aids unlimited: the scope for machine aids in a large organization». ASLIB Proceedings. 33 (7/8).
↑ Supported file type reference list for Déjà Vu X3
↑ Supported file type reference list for memoQ
↑ «Imperial College London Translation Memories Survey». 2006. pp. 8, 25-6, figure 25. (Permalink)

Bibliografía

«A Translation Automation Timeline» (en inglés). TAUS. Consultado el 22 de febrero de 2014.

Abaitua, Joseba. 1995. “Prólogo a la edición española”, en Introducción a la Traducción automática, Hutchins, W. J. y Sommers, H. L. Madrid: Visor.

Arthern, Peter (1981). «Aids unlimited: the scope for machine aids in a large organization». ASLIB Proceedings. 33 (7/8).

Cámara de la Fuente, Lidia. 2001. “El papel de las herramientas TAO en la documentación técnica multilingüe”, Tradumática, Nº 0. [En línea] [1]

Fernández-Rodríguez, Mònica (2010). «Evolución de la traducción asistida por ordenador. De las herramientas de apoyo a las memorias de traducción». Sendebar 21.

Gómez, Josu. 2001. “Una guía al TMX”, Tradumática, Nº 0. [En línea] [2]

Jaworski, Rafal (2013). «Anubis - speeding up Computer-Aided Translation». Computational Linguistics – Applications, Studies in Computational Intelligence 458.

Moré López, Joaquim y Oliver González, Antoni / Coordinador Climent Roca, Salvador. 2004. Traducción asistida por ordenador: programas y recursos libres y gratuitos: material bilingüe. Barcelona: Planeta UOC.

Rinsche, Adrianne. 1997. “Translation Technology: The State of the Art” en Localization Resources Centre. Yearbook 1997. Dublin: Localization Resources Centre

Sánchez-Gijón, Pilar. 2001. “Catàleg de sistemes de memòries de traducció”, Tradumática, Nº 0. [En línea] [3]

Somers, Harold (2003). Computer and Translation: A translator's guide (en inglés). John Benjamins Publishing. p. 351. ISBN 9789027296696.

Strandvik, I. 2001. “Las memorias de traducción en la Comisión Europea”, Tradumática, Nº 0. [En línea] [4]

Weaver, Warren (1949). Translation.

Enlaces externos

Wikilibros alberga un libro o manual sobre CAT-Tools.

Traducción asistida por ordenador en DMOZ (en inglés)

Traducción automática y traducción asistida por ordenador: ¿una nueva forma de traducir? (en inglés)

[1] Barrachina, Sergio; et al (2009). «Statistical Approaches to Computer-Assisted Translation». Computational Linguistics 35 (1): 3-28. ISSN 0891-2017. doi:10.1162/coli.2008.07-055-r2-06-29.

[2] Arthern, Peter (1981). «Aids unlimited: the scope for machine aids in a large organization». ASLIB Proceedings. 33 (7/8).

[3] Supported file type reference list for Déjà Vu X3

[4] Supported file type reference list for memoQ

[5] «Imperial College London Translation Memories Survey». 2006. pp. 8, 25-6, figure 25. (Permalink)

[1]

[2]

[3]

[4]

[5]