Alineación de bitextos con Wordfast v. 5.16e (PlusTools v.4.14b)
© 2006 Manuel Mata Pastor
En este documento se describe cómo alinear pares de bitextos en PlusTools (PT) y cómo convertirlos en una memoria de traducción que luego puede reutilizarse con Wordfast para traducir. Con ligeras variaciones, que atañen más a lo visual que a lo conceptual, el procedimiento es enormemente parecido en la mayoría de los gestores de memorias de traducción.
La alineación consiste en la segmentación (división informática - no sintáctica - en fragmentos separados por pausa fuerte, salto de párrafo, etc.) del contenido de uno o varios pares de bitextos (supuestamente una serie de originales y sus correspondientes traducciones), y en el posterior emparejamiento de los segmentos resultantes con objeto de exportarlos/convertirlos en una memoria de traducción (MT). Así pues, alinear puede resultar útil siempre que se vaya a realizar una traducción y se cuente de antemano con uno o varios pares de bitextos que contengan:
- segmentos con los que coinciden parcial o totalmente (es decir, frases o secuencias de texto iguales o parecidas) algunos de los que aparecen en un texto que se pretende traducir y que podrán reutilizarse con la ayuda de un gestor de memorias de traducción (en este caso, WF);
- y/o terminología o fraseología que aparece en el texto que se pretende traducir y que podrá consultarse y reutilizarse con la ayuda de un gestor de terminología (en este caso, la función de gestión de terminología y glosarios de WF) o de la función de concordancia / búsqueda contextual (Contexts en WF) de la que suele venir provista cualquier gestor de memorias de traducción, y que permite buscar en la MT palabras o secuencias de texto de menor tamaño que un segmento.
La alineación de pares de bitextos puede realizarse con PT, módulo complementario freeware de Wordfast (WF) que puede descargarse de este sitio. La última versión disponible al redactar este documento es la 4.14b, de 19 de marzo de 2006.
El proceso de alineación en PT se desglosa en las siguientes fases:
- selección y depuración/homogeneización de los bitextos;
- prealineación automática con PT;
- corrección y realineación manual de los segmentos que PT no haya alineado correctamente;
- y exportación del resultado de la alineación a una memoria de traducción (MT).
Selección y depuración/homogeneización de los bitextos
El origen de los bitextos puede ser cualquier fuente en la que quepa obtener documentos originales y sus correspondientes traducciones en formato electrónico e idealmente con el mismo formato de archivo (TXT, RTF, HTML, etc.), por ejemplo, webs multilingües institucionales o empresariales, o bancos de datos documentales, colecciones de textos de cualquier tipo, etc. Es frecuente que cuando se comienza a emplear un gestor de memorias de traducción se alineen las traducciones realizadas sin él en el pasado, de manera que puedan volcarse en una o varias MT y así puedan reaprovecharse en lo sucesivo. Como es lógico, las estrategias y las decisiones relativas a los formatos, el almacenamiento, la catalogación, la nomenclatura... del corpus de bitextos estarán condicionadas por la naturaleza y el volumen de éste, así como por otros posibles usos que se pretenda darle más allá de la alineación propiamente dicha.
En general, cuanto más homogéneos sean el documento de origen y el de destino de cada par de bitextos, más ágil y fluido será el proceso de alineación. Es aconsejable, por tanto, preparar de antemano los textos depurándolos y siguiendo algunas recomendaciones:
- La división de párrafos entre ambos documentos debe ser lo más homogénea posible y, en caso contrario, ajustarse manualmente; por ejemplo, en documentos en los que, entre lenguas, no exista una correspondencia unívoca entre párrafos/secciones, como sucede en los encabezamientos de los contratos.
- Los documentos no deben contener marcas de párrafo (¶) que no correspondan a cambios/saltos de párrafo (por ejemplo, las que en ocasiones sustituyen a los cambios/saltos de línea cuando se copia y pega contenido de un archivo PDF o HTML).
- Cuando los documentos contienen segmentos repetidos (por ejemplo, los encabezamientos y pies de página, o un índice con los títulos de los apartados del documento), pueden eliminarse las sucesivas reapariciones de estos.
Salvo cuando los segmentos de los bitextos y los que aparecen en el texto que se va a traducir presentan similitudes también de formato (o de etiquetado), los atributos de formato de los bitextos no sólo resultan irrelevantes sino que pueden incluso llegar a reducir el número y el grado de coincidencias al traducir. Por eso, puede resultar aconsejable convertir/guardar los bitextos en formato TXT antes de alinearlos o, cuando se copia y pega contenido procedente de Internet o de un archivo con formato, utilizar la función Pegado especial... y elegir Texto sin formato (Sólo texto), puesto que lo que realmente interesa reaprovechar es el contenido de los bitextos y no su formato.
Prealineación automática con PT
Tras cargar y activar en MS Word la plantilla PlusTools.dot (menú Herramientas > Plantillas y complementos > Agregar...)[1], aparecerá el icono de PT en la barra de herramientas de MS Word. Si no es así, puede activarse seleccionándolo en el menú Ver > Barras de Herramientas o bien pulsando con el botón derecho del ratón algún espacio vacío del panel de barras de herramientas de MS Word y seleccionando PT.
Al pulsar el icono de PT, aparece en pantalla el cuadro de funciones de PT. En la segunda pestaña (+Align) irán apareciendo las funciones necesarias para alinear un par de bitextos y exportar el resultado posteriormente a una MT.
Con PT sólo es posible alinear al mismo tiempo un único par de bitextos (que se compone de un documento de origen y un documento de destino). Si se pretende alinear más de un par, puede optarse por:
- alinearlos consecutivamente en varias sesiones de alineación, exportando par por par a sendas MT;
- fundir todos los pares en uno solo, de manera que todos los segmentos originales (repartidos inicialmente en varios documentos) queden almacenados en un único documento de origen y todos los segmentos traducidos queden incluidos en un único documento de destino.
En este segundo caso, será preciso extraer previamente (con la función Extract de la pestaña Tools de WF) los segmentos de todos los documentos originales para que queden almacenados en un único documento, y seguidamente repetir la operación con los documentos que contienen los segmentos traducidos.
Como es lógico, la operación de fusión de varios pares de bitextos en uno solo también puede realizarse manualmente, por ejemplo, con las funciones de MS Word Copiar/Pegar (o Pegado especial...) o Insertar > Archivo..., o con cualquier programa que permita fundir varios documentos en uno.
Para que PT alinee un par de bitextos automáticamente es preciso:
- Abrir en MS Word los dos documentos que componen el par (idealmente, primero el documento de destino y luego el de origen), y cerrar cualquier otro documento que estuviera abierto o cualquier otra sesión de MS Word. En el caso de que hubiese abierto algún otro documento, PT muestra un mensaje de advertencia al respecto.
- Ir a la pestaña +Align de PT y pulsar el botón Start alignment.
- En la pestaña +Align de PT:
- comprobar que el orden de los dos documentos del par es el correcto o, de lo contrario, corregirlo seleccionando el documento adecuado en cada caso en las listas desplegables Select source/target document;
- marcar la casilla These documents have been segmented with Wordfast si los dos documentos del par provienen de la extracción/fusión de varios pares de bitextos y ésta se ha realizado con la función Extract de WF;
- optar por la intefaz que se prefiera usar para corregir la alineación (en una tabla con dos columnas o en dos documentos) marcando la casilla correspondiente (Use the classic/heavy-duty alignment interface...);
- volver a pulsar el botón Start alignment.
En ese momento, PT segmentará el contenido documento, realizará una prealineación automática de los segmentos de origen y de destino y los mostrará en una tabla con dos columnas o en sendos archivos, según la opción elegida. Antes de mostrar la tabla resultante, PT cierra los documentos de origen y de destino y muestra el siguiente mensaje de recordatorio.
Como se indica en el mensaje, el documento que contiene la tabla puede guardarse (preferiblemente en formato DOC) con objeto de conservar el resultado de la alineación o de reanudarla en cualquier momento si no se finaliza en una única sesión.
Corrección y realineación manual de los segmentos
La cantidad de correcciones que haya que practicar en los resultados de la prealineación automática será inversamente proporcional al grado de depuración y homogeneización al que se haya sometido al par o pares de bitextos en un principio. Si los documentos de cada par de bitextos ya presentaban una distribución de párrafos homogénea y no contenían segmentos sin correspondencia (un párrafo o frase original sin traducción, o viceversa), es posible que no haya que realizar prácticamente ninguna corrección. De lo contrario, será preciso corregir manualmente los resultados arrojados por la prealineación automática efectuada por PT.
En la tabla de alineación generada por PT, pueden ir ratificándose visualmente los emparejamientos propuestos y, en caso de detectar algún emparejamiento erróneo, optar por alguna de las siguientes posibilidades:
| función | combinación de teclas | descripción |
| Ins | Alt+i | inserta una celda vacía antes de la actual |
| Del | Alt+d | borra la celda actual |
| Merge | Alt+m | combina la celda actual con la siguiente |
| Split | Alt+s | divide la celda actual en el punto en el que se halle el cursor |
| Abbr | Alt+a | combina dos celdas separadas por el punto de una abreviatura |
Al activar la función Abbr PT insta al usuario a que escriba la abreviatura que ha provocado que se dividan en segmentos diferentes fragmentos de una misma oración. Al introducir la abreviatura en el siguiente cuadro,
PT busca la abreviatura en la columna de segmentos de origen y le va preguntando al usuario si quiere combinarla con la siguiente.
No debe olvidarse que la segmentación realizada por un gestor de memorias de traducción (GMT) atiende exclusivamente a criterios informáticos y no lingüísticos ni sintácticos. Aunque en su mayoría coinciden, cada GMT emplea sus propias reglas de segmentación[2], que el usuario puede modificar adecuándolas a sus gustos o a las características de un determinado tipo de documento. En general, conviene tener presente que lo más probable es que, al traducir, el GMT segmente un texto de la misma manera que cuando lo hace para alinearlo. Por lo tanto, es aconsejable realizar el menor número de cambios posibles en los segmentos originales al corregir la prealineación con objeto de maximizar el número de coincidencias que posteriormente arrojará la MT al traducir.
Exportación del resultado de la alineación a una MT
Como ya se ha indicado, el documento que contiene la tabla de segmentos prealineados puede guardarse con objeto de conservar el resultado de la alineación y reanudarla en cualquier momento si no se finaliza en una única sesión.
Una vez que se han ratificado o corregido los emparejamientos propuestos por PT, es preciso volver a la pestaña +Align de PT y proceder como se indica a continuación:
- Pulsar el botón Create TM para volcar los resultados de la alineación en una memoria de traducción.
- Indicar los idiomas, primero, de origen y, luego, de destino mediante su denominación ISO de cuatro letras (lengua-país)[3], por ejemplo, EN-GB para inglés británico y ES-ES para español de España.
- Elegir un nombre y una ubicación para almacenar la MT.
Las MT de WF son archivos de texto sin formato con extensión TXT en el que los distintos campos que componen cada unidad de traducción (segmento de origen, segmento de destino, idiomas, etc.) van separados por tabuladores. Este sencillo formato, además de aumentar su compatibilidad con otros programas y sistemas, facilita enormemente su modificación, por ejemplo, en un procesador de textos, en el que el contenido de la MT puede transformarse fácilmente en una tabla. En cualquier caso, todo gestor de MT viene dotado de alguna función/interfaz de mantenimiento y actualización de los contenidos de una MT.
Notas
[1] Si se tuvieran activadas la plantilla y/o la correspondiente barra de herramientas de otro gestor de memorias de traducción (por ejemplo, Trados o Wordfisher), es recomendable desactivarlas para evitar posibles conflictos entre sus macros o combinaciones de teclas y las de PlusTools (Herramientas > Plantillas y complementos...).
[2] El grupo de trabajo OSCAR (Open Standards for Container/Content Allowing Re-use) de la LISA (Localisation Industry Standards Organisation) está desarrollando un estándar, denominado SRX (Segmentation Rules eXchange), para normalizar las reglas de segmentación que emplean las herramientas dotadas de funciones de segmentación/alineación y optimizar el rendimiento de los gestores de memorias de traducción. La versión actual es la SRX 1.0, de 10 de abril de 2004 [http://www.lisa.org/standards/srx/].
[3] Las denominaciones que usan WF y PT aparecen relacionadas en la documentación de estos programas (www.wordfast.net) y se basan en las normas ISO 639 y 3166.
views
Comments (0)
You don't have permission to comment on this page.