|
|

La segmentation en traduction et le format standardisé SRX

Publié le 15/11/2024
La segmentación en traducción y el formato estándar SRX

Derrière une bonne segmentation du texte se cachent de nombreux aspects qui font la différence entre une bonne et une mauvaise gestion de projets. Parmi ceux-ci, je soulignerais : le budget, la gestion des mémoires de traduction et la qualité de la traduction.

Nous aborderons dans cet article certains de ces sujets, allant des aspects les plus généraux de la segmentation à d'autres plus concrets et techniques.

Qu'est-ce que la segmentation ?

Lorsque nous importons un fichier pour sa traduction dans un outil TAO comme Trados Studio ou memoQ, celui-ci divise le texte traduisible en segments. Chacun de ces segments correspond généralement à une phrase, identifiée par l'outil grâce aux points et aux signes d'exclamation et d'interrogation. 

Une fois le texte segmenté, la tâche du traducteur consistera à fournir une traduction pour chaque segment, également appelé unité de traduction. Cette segmentation est essentielle pour travailler avec des mémoires de traduction, car la division du texte facilite l'identification de correspondances, c'est-à-dire, des unités de traduction déjà présentes dans la mémoire de traduction ou qui se répètent dans le texte, permettant ainsi d'automatiser leur traduction.

Comme nous l'avons mentionné, le critère de base pour déterminer la manière dont un texte est segmenté est la ponctuation. En réalité, les règles de segmentation sont plus complexes, et chaque outil peut se baser sur une configuration différente. Par exemple, SDL Trados Studio les détermine à partir de la mémoire de traduction appliquée au projet, tandis que memoQ les applique directement au projet. De plus, chaque outil offre ses propres modalités pour modifier ces règles, nous y reviendrons plus tard.

En général, les règles de segmentation déterminent deux aspects : d'une part, les signes de ponctuation qui marquent la fin d'un segment et, d'autre part, les exceptions à ces règles.

Pour donner un exemple typique, si nous établissons qu'après un point, un saut de segment doit être effectué, nous pouvons indiquer une série d'abréviations suivies d'un point pour que, lorsqu'elles apparaissent, l'outil maintienne le même segment jusqu'au point suivant.

Enfin, il convient de noter que les règles de segmentation constituent une ressource linguistique. Elles comportent une série d'éléments communs à toutes les langues, comme le point à la fin de chaque segment, mais d'autres sont spécifiques à chacune et leur modification doit être effectuée individuellement.

Standardisation des règles de segmentation : le format SRX

Segmentation Rules eXchange (SRX) est un format standardisé et ouvert basée sur XML. Il fournit un ensemble commun d'expressions régulières pour définir et partager les règles de segmentation. Tout comme le format TMX, le SRX a été développé par la Localization Industry Standards Association (LISA) et maintenu depuis 2011 par la Global and Localization Association (GALA). Il a vu le jour pour pallier le fait qu'un outil TAO pouvait réaliser une segmentation différente à celle de la mémoire de traduction, altérant ainsi la bonne application de celle-ci.

Le format SRX est basé sur des expressions régulières, celles-ci étant utilisées pour définir les règles de segmentation. Les expressions régulières sont des motifs basés sur le codage Unicode qui permettent de déterminer et de localiser une série de caractères dans un texte. Ainsi, pour le cas des règles de segmentation, les expressions régulières nous permettent d’enjoindre au programme de localiser les minuscules, majuscules, crochets et guillemets, chiffres et tout autre signe de ponctuation, et de les utiliser comme critère pour savoir quand effectuer un saut de segment.

Cependant, certains programmes disposent d'options simplifiées pour pouvoir introduire ces caractères sans avoir recours aux expressions régulières complexes. Celles-ci peuvent toujours être utilisées pour une configuration plus avancée des règles de segmentation.

Outre la possibilité de modifier les règles de segmentation, la mise en œuvre de la norme SRX dans les outils TAO permet d'exporter et d'importer des fichiers, afin de pouvoir appliquer les mêmes règles de segmentation dans un autre projet ou outil. Maintenant, voyons plus en détail les possibilités qu’offre le format SRX dans deux des principaux outils : SDL Trados Studio et memoQ.

Mise en œuvre du format SRX dans Trados Studio

Trados Studio n'a pas incorporé le format standardisé SRX, cependant, lors de l'ouverture d'un fichier pour traduction dans SDL Trados Studio, le programme effectue une segmentation basée sur les règles de segmentation par défaut.

Pour modifier les règles de segmentation dans SDL Trados Studio, nous faisons un clic droit sur la mémoire de traduction et ouvrons le panneau de configuration. Une fois que nous y sommes, dans « ressources linguistiques » nous avons accès aux options de configuration pour chacune d'elles. Nous recherchons la colonne des règles de segmentation et accédons à l'éditeur dans la langue pour laquelle nous voulons les modifier.

Apparaît alors une première option de segmentation basée sur le paragraphe, utilisant les marques de paragraphe propres à chaque type de fichier, et une seconde basée sur la phrase, laquelle nous pouvons modifier. Les règles de segmentation appliquées par défaut sont le point, les deux points, et les signes d'interrogation et d'exclamation, et incluent l'exception lorsque ces signes sont suivis d’une minuscule.

Dans ce panneau de configuration nous pouvons supprimer ou modifier ces règles, en ajoutant des caractères avant et après le saut, ainsi que des exceptions, à l’aide des expressions régulières. Il nous est également possible d’ajouter de nouvelles règles, en suivant la même procédure.

Ainsi, dans Trados Studio, les règles de segmentation sont associées à la mémoire de traduction et non à un type de fichier, et il n'est donc pas possible de les importer ou de les exporter dans un fichier SRX.

Mise en œuvre du format SRX dans memoQ

Les règles de segmentation dans memoQ sont établies par défaut et peuvent être modifiées pour chaque projet spécifique. Pour cela, nous ouvrons le projet et accédons à la fenêtre des options. Nous sélectionnons alors l'icône des règles de segmentation — représentant des ciseaux — et sélectionnons l'ensemble de règles de segmentation de la langue que nous voulons. S'ouvrira alors un menu dans lequel nous pourrons modifier ces règles. Nous trouverons une vue simple, où nous pouvons ajouter des signes de ponctuation, des noms propres commençant par une minuscule et des abréviations suivies de chiffres. Dans la vue avancée, nous trouverons l'option d'utiliser des expressions régulières pour une configuration plus complexe des règles de segmentation.

Dans la même fenêtre, nous aurons les options d'exportation et d'importation de fichiers SRX, ce qui permet d’utiliser les mêmes règles de segmentation dans d'autres projets et outils. Il est important de noter qu'en exportant un fichier SRX, certaines informations sur les exceptions aux règles de segmentation peuvent être perdues, car celles‑ci sont plus sophistiquées dans memoQ que celles prises en charge par le format SRX.

Ces articles pourraient vous intéresser :

Portrait de Iván Vázquez
Iván Vázquez

Diplômé en traduction et interprétation de l'université de Grenade, spécialisé en français et en chinois. Il a travaillé sur plusieurs projets de traduction littéraire et de traduction web en Espagne et en France. Il est actuellement assistant de gestion de projet et rédacteur de contenu chez AbroadLink.

Ajouter un commentaire

La segmentation en traduction et le format standardisé SRX | AbroadLink

Erreur

Le site Web a rencontré une erreur inattendue. Veuillez essayer de nouveau plus tard.