|
|

Echange de mémoires de traduction : le format TMX

×

Message d'erreur

Deprecated function : Creation of dynamic property EntityTranslationUserHandler::$revisionId is deprecated dans EntityTranslationDefaultHandler->setEntity() (ligne 1013 dans sites/all/modules/entity_translation/includes/translation.handler.inc).
Publié le 06/06/2024

Le format TMX s'est imposé comme le moyen standard d'échanger des mémoires de traduction entre les systèmes de traduction, même ceux installés sur des systèmes d'exploitation différents. En 2007, lorsque notre directeur marketing actuel a rédigé l'article « Testing the implementation of the TMX standards » pour le magazine MultiLingual, la plupart des programmes offraient la possibilité d'utiliser le format txt créé dans la version de RWS Trados Studio de l'époque.

Aujourd'hui, cet article n'aurait aucun sens. Lisez la suite de cet article pour en savoir plus sur l'une des normes de l’industrie les plus largement adoptées avec le format XLIFF.

Qu'est-ce que le format TMX ?

Le format Translation Memory eXchange est une norme ouverte basée sur XML conçue pour stocker des mémoires de traduction (TM) et les échanger entre différents outils et applications de traduction assistée par ordinateur (TAO). Une mémoire de traduction est une base de données qui stocke des segments de textes déjà traduits afin de les réutiliser dans les traductions futures, ce qui permet d'accélérer le travail en garantissant la cohérence du style et de la terminologie ; ces segments peuvent être soit des correspondances à 100 %, soit des correspondances partielles (souvent appelées fuzzy matches dans le jargon professionnel)

Le format TMX, hérité de la LISA (Localization Industry Standards Association) avant sa disparition en 2011, a depuis été largement adopté par de multiples outils de traduction et de localisation. Son principal objectif est de fournir une standardisation dans le stockage des mémoires de traduction, facilitant ainsi leur interopérabilité entre les différentes plateformes.

Structure du format TMX

Les fichiers TMX sont basés sur XML, ce qui implique l'utilisation de balises pour coder les informations afin qu'elles puissent être lues à la fois par les humains et les machines. En général, sa structure se compose d’un en-tête (header en anglais) suivi d'une ou plusieurs sections ou corps (body en anglais) contenant les unités de traduction (UT), c'est-à-dire chacun des segments de texte précédemment traduits.

L'en-tête contient des informations descriptives sur la mémoire de traduction, telles que le nom, la langue source et la ou les langues cibles, ainsi que des informations supplémentaires telles que l'outil avec lequel elle a été créée, la date de création ou les éventuelles révisions effectuées.

Les sections restantes contiennent l'UT, y compris le segment en texte brut original et sa traduction dans une ou plusieurs langues, ainsi que les balises de formatage (en fonction du niveau d’implémentation du format TMX, que nous évoquerons plus loin). Des informations supplémentaires, telles que le contexte d'utilisation du segment ou les annotations du traducteur, peuvent également être incluses.

Fichiers TMX multilingues et bilingues

Comme indiqué ci-dessus, les fichiers TMX peuvent être multilingues ou bilingues, en fonction du nombre de langues cibles incluses :

  • Fichiers TMX bilingues: ils contiennent des segments de texte dans deux langues, la langue source et la langue cible. Ce sont les plus courants et ils sont principalement utilisés dans le cadre de projets de traduction spécifiques.
  • Fichiers TMX multilingues: ils contiennent des segments de texte dans plusieurs langues, ce qui vous permet de gérer et de réutiliser des traductions dans plusieurs langues à partir d'un seul fichier. Ils sont utiles pour les projets de localisation volumineux.

Métadonnées dans un fichier TMX

En plus des segments de texte traduits, les fichiers TMX peuvent contenir divers types de métadonnées qui fournissent des informations supplémentaires sur les unités de traduction et facilitent la gestion et l'utilisation des mémoires de traduction. Nous en avons déjà mentionné quelques-uns, mais voici une liste complète des plus courants :

  • Langue source et langue cible : spécifie les langues du segment original et de sa traduction. Ce paramètre est essentiel pour s’assurer que les unités de traduction sont correctement utilisées dans des contextes multilingues, en filtrant et en appliquant uniquement celles qui correspondent aux langues spécifiques du projet en cours.
  • Auteur et date de création : indique qui a créé le segment et quand, ce qui facilite l'attribution des responsabilités, le suivi de la qualité de la traduction et la communication entre professionnels.
  • Client et projet : informations pertinentes sur le client et le projet associé à la mémoire de traduction. Lorsque vous travaillez sur un projet spécifique, les unités de traduction précédemment utilisées pour le même client peuvent être classées par ordre de priorité, ce qui garantit la cohérence terminologique et stylistique.
  • Statut de la traduction : indique si la traduction a été révisée, approuvée ou si elle est en attente de révision, facilitant la gestion du flux de travail de la société de traduction.
  • Notes et commentaires : permet d'ajouter des annotations supplémentaires qui peuvent aider les futurs traducteurs et réviseurs à prendre certaines décisions.
  • Contexte et segmentation : informations sur le contexte du segment dans le texte source, ce qui permet de maintenir la cohérence et la précision des traductions futures.

Implémentation du format TMX

La mise en œuvre du format TMX dans les différents outils de traduction assistée par ordinateur se fait à trois niveaux différents, en fonction du type de codes de formatage et de balises qui peuvent être reconnus. En d'autres termes, les niveaux d’implémentation déterminent la complexité et la quantité d'informations qui peuvent être incluses dans un fichier. Ces niveaux sont les suivants :

  • Niveau 1 (texte brut uniquement) : c'est le niveau le plus basique, il garantit la compatibilité entre les différents outils de TAO. Il comprend des informations de base, telles que des paires de segments de texte en langue source et en langue cible. C'est l'option la plus simple lorsqu’il s’agit de rechercher des équivalences entre les paires, car la lecture des segments n'est pas perturbée par la présence d'étiquettes.
  • Niveau 2 (marqueurs méta) : ce niveau considère les informations de la balise dans son format TMX, en tenant compte des détails de la mise en forme du texte (gras, italique, souligné...)
  • Niveau 3 (marqueurs natifs) : c'est le niveau le plus avancé, il permet de reconnaître à la fois les balises TMX et le code natif de chaque élément, sans perdre aucune information. Cela implique la possibilité de recréer la structure et le formatage exacts du document original dans la traduction en utilisant uniquement le fichier TMX.

Problèmes de compatibilité des formats TMX avec les outils de TAO

Bien qu'il s'agisse d'une norme ouverte, les fichiers TMX peuvent rencontrer des problèmes de compatibilité entre les différents outils de TAO. Voici quelques-uns des problèmes les plus courants :

  • Différents niveaux d’implémentation : tous les outils ne sont pas capables d'interpréter le même type de données contenues dans un fichier TMX, comme nous l'avons vu dans les niveaux d’implémentation, ce qui peut engendrer la perte possible d'informations importantes d'un outil à un autre.
  • Différences dans l'analyse XML : certains outils n'utilisent pas d'analyseurs XML standards, ce qui peut conduire au rejet de certains TMX valides.
  • Génération de fichiers TMX non valides : même s'ils peuvent lire correctement le XML, certains outils ne sont pas en mesure de générer des fichiers TMX valides, ce qui peut compromettre leur lecture par d'autres programmes par la suite.
  • Nouvelles versions de XML : il existe encore des outils qui travaillent avec des versions plus anciennes de XML ; ils ne pourront donc pas lire les fichiers TMX plus récents.
  • TMX multilingues : certains outils limitent le nombre de langues autorisées à deux et ne prennent pas en charge les fichiers TMX multilingues.

Conclusion

Le format TMX est un outil indispensable tant pour les traducteurs professionnels que pour les agences de traduction, car il offre un stockage standardisé des mémoires, facilitant ainsi l'échange de mémoires entre traducteurs professionnels, quel que soit l'outil de TAO utilisé. Cependant, les utilisateurs doivent être conscients des niveaux d'implémentation et des potentiels problèmes de compatibilité afin d'éviter de perdre des informations. De plus, savoir manipuler et gérer les fichiers TMX, et connaître toutes les informations qu'ils peuvent contenir, peut parfois nous permettre d'accélérer le processus de traduction, d'économiser du temps et des efforts, ainsi qu’améliorer notre travail.

Portrait de Iván Vázquez
Iván Vázquez

Diplômé en traduction et interprétation de l'université de Grenade, spécialisé en français et en chinois. Il a travaillé sur plusieurs projets de traduction littéraire et de traduction web en Espagne et en France. Il est actuellement assistant de gestion de projet et rédacteur de contenu chez AbroadLink.

Ajouter un commentaire

1