|
|

Conversion OCR pour la traduction en arabe

Si vous avez déjà demandé un devis de traduction pour vos documents rédigés en arabe, les responsables de projets de traduction vous ont sûrement déjà posé la question suivante :

Vous n'avez pas le fichier dans un format modifiable?

Bien que cela puisse ne pas en avoir l'air, nous savons à quel point cette question peut être agaçante, surtout si vous faites partie de ces clients qui envoient toujours tous les documents dans leur format d'origine.

Mais vous devez aussi comprendre qu'il est beaucoup plus facile, plus rapide et moins cher pour les sociétés de traduction de traiter et de préparer les fichiers envoyés dans un format modifiable.

Et bien, malgré tout, un document qui a été scanné et converti en PDF tombera toujours entre vos mains. Je pense sincèrement que c'est le pire format pour travailler, ce qui ne veut pas dire qu’il est impossible de l’utiliser.

Dans cet article, je vais comparer certains programmes avec lesquels les sociétés de traduction travaillent habituellement pour gérer et traiter ce type de documentation écrite en arabe. J'ai choisi l'arabe parce qu'il s'agit d'une langue très traduite et que tous les programmes ne sont pas capables de travailler avec cette langue, il faut donc creuser un peu plus loin dans le monde des programmes d'extraction de texte.

Índice de contenidos

Index of contents

Index du contenu

Inhaltsverzeichnis

  1. Que signifie OCR ?
  2. Adobe Acrobat Pro DC
  3. OmniPage Ultimate
  4. Readiris 17
  5. ABBYY FineReader
  6. Conclusion

1. Que signifie OCR ?

OCR

Lorsque nous travaillons avec des fichiers qui sont convertis en images lors de leur numérisation et que le texte ne peut pas être sélectionné avec la souris, nous ne pouvons pas utiliser un simple programme d'extraction de texte comme dans le cas des fichiers PDF dans lesquels le texte peut être sélectionné. Voici deux exemples où vous pouvez voir la différence :

  • PDF en format modifiable

PDF en format modifiable

  • PDF en format non modifiable

PDF en format non modifiable

Le premier texte est sélectionnable et le fait qu'il soit sélectionnable indique que tout programme d'extraction de texte, gratuit ou non, peut extraire le texte sans aucun problème. Dans le second cas, le fichier PDF ne nous permet de sélectionner qu'une zone du document, mais pas une partie du texte lui-même, de sorte qu'un programme d'extraction de texte ne sera pas non plus en mesure de reconnaître les caractères présents dans le document.

Vous pouvez essayer n'importe quel programme d'extraction de texte, ils vous donneront tous des résultats similaires.

Toutefois, parmi la multitude de programmes d'extraction de texte disponibles sur le marché aujourd'hui, ceux qui font la différence lorsqu'il s'agit de convertir des fichiers PDF non éditables sont les programmes d'extraction OCR. OCR est l'abréviation de « Optical Character Recognition », ce qui en français serait la « Reconnaissance optique des caractères ». Comme leur nom l'indique, ces programmes reconnaissent non seulement les caractères éditables d'un document, mais peuvent également détecter le texte dans un document numérisé, par exemple.

Et vous me direz : Très bien, alors problème réglé. Pas si vite... car aussi bons que soient ces programmes, ils laissent encore beaucoup à désirer. Il est vrai qu'ils peuvent vous donner une idée approximative du volume de travail, mais il n'est pas conseillé de travailler avec ces derniers pour traduire.

Vous pouvez vérifier ci-dessous les résultats obtenus avec différents programmes d'extraction de texte.

2. Adobe Acrobat Pro DC

Adobe Acrobat Pro DC

Le premier programme que je voudrais vous présenter est Adobe Acrobat Pro DC. Si vous avez l'habitude de travailler avec l'ordinateur, c'est un programme qui ne doit pas manquer dans votre liste d'outils, car Adobe vous permet non seulement de visualiser, mais aussi de créer, d'éditer, d'organiser les pages, de commenter, de remplir, de signer et de corriger tout document au format PDF.

Il permet également d'extraire le texte et c'est assez pratique, car lorsque je reçois un document PDF et que je l'ouvre, il s'ouvre directement dans ce programme et l'extraction du texte se fait en deux clics. C'est généralement le premier que j'essaie.

En prenant comme référence le document non modifiable que vous avez vu dans l'exemple ci-dessus, voici à quoi ressemblerait la conversion dans Adobe Acrobat Pro DC:

Adobe Acrobat Pro

Oui, oui, je ne plaisante pas. Un programme aussi puissant que celui-ci donne des résultats médiocres lorsqu'il s'agit d'extraire du texte écrit en arabe.

Cela s’explique peut-être par le fait qu'il n'est pas possible d'indiquer dans quelle langue le texte est écrit, le programme le « reconnaît » automatiquement. En facilitant le travail de détection de la langue pour le programme, celui-ci ne recherche dans sa base de données que les caractères de la langue X au lieu de la base de données contenant les caractères de toutes les langues.

En tout cas, je ne recommande pas du tout ce programme pour l'extraction de texte écrit en arabe.

3. OmniPage Ultimate

OmniPage Ultimate

La deuxième application que j'essaie généralement après avoir échoué à extraire du texte avec Adobe est l'application OmniPage Ultimate 19.0.

Contrairement à Adobe, OmniPage vous permet de sélectionner la langue du document par un simple clic droit sur le fichier. Quel est le problème alors ? L'arabe n'apparaît pas dans la liste des langues. Le wolof et le zoulou apparaissent mais pas l'arabe. Dans ces cas, vous pouvez essayer d'utiliser l'option « Détecter la langue automatiquement » et vous obtiendrez ce résultat :

Traduction

Comme vous pouvez le constater, ce n'est pas non plus ce que nous recherchons, même si je dois admettre qu'Adobe et OmniPage fonctionnent très bien pour extraire du texte dans d'autres langues.

3. Readiris 17

Readiris 17

La troisième option pour extraire notre texte arabe et le convertir dans un format éditable est Readiris 17.

Il s'agit d'un programme un peu plus sophistiqué qu'Adobe et OmniPage pour extraire du texte écrit de droite à gauche, comme l'arabe. Le programme vous permet d'indiquer sur chaque page quelle section correspond au texte, quelle section correspond aux images, etc.

Il est vrai que cela demande un peu plus de temps de préparation par rapport aux autres programmes qui n'offrent pas cette option de sélection sur la page, mais en voyant le résultat, il est clair que l'effort en vaut la peine :

Arabe

Il offre de meilleurs résultats que les deux programmes précédents, bien que pour les documents plus longs, il ne soit toujours pas à la hauteur, car il a tendance à insérer de nombreux sauts de paragraphe qui n'apparaissent pas dans le document d'origine, ainsi que d'autres incohérences dans le formatage qui entraînent beaucoup de travail de mise en page.

4. ABBYY FineReader

ABBYY FineReader

Le dernier programme que je voudrais présenter et qui, à mon avis, est le meilleur programme pour extraire du texte non modifiable écrit en arabe est ABBYY Fine Reader.

Il s'agit d'un programme payant, comme tous les autres que j'ai présentés dans ce blog, qui vous permet d'indiquer page par page quelles sections sont du texte, quelles sections comprennent des images et quelles sections sont des tableaux de texte.

En fonction de la précision de vos indications, le programme générera un document plus ou moins précis. Je n'ai pas modifié grand chose et le résultat a été le suivant :

Arabe

Par rapport au document original, nous pouvons dire qu'ils sont presque identiques :

Arabe

Tant pour la budgétisation que pour la traduction de ce document , nous obtiendrons des résultats beaucoup plus précis qu'avec n'importe quel autre programme que vous avez vu dans ce blog. Pour moi, ABBYY est donc le grand gagnant lorsqu'il s'agit d'extraire du texte non modifiable écrit en arabe.

5. Conclusion

Conclusion

Comme vous pouvez le constater, tous les programmes qui vous permettent d'extraire du texte de fichiers au format non modifiable n'offrent pas les mêmes résultats, du moins lorsqu'il s'agit de texte écrit en arabe. Je travaille souvent avec tous ces programmes et, à moins qu'il ne s'agisse d'un format vraiment problématique impliquant une langue peu commune, ils ne posent généralement aucun problème. Au contraire !

Je ne recommande pas l'utilisation d'extracteurs de texte gratuits, car vous ne pouvez pas savoir où vos fichiers vont atterrir. S'il s'agit d'un document non confidentiel à usage privé, ce n'est pas important, mais j'éviterais de télécharger sur ces sites gratuits des fichiers importants de l'entreprise contenant des informations confidentielles.

J'espère vous avoir fait découvrir une infime partie du quotidien des gestionnaires de projets de traduction dans leur lutte acharnée contre les fichiers PDF numérisés. La prochaine fois que l'on vous enverra un PDF à traduire, demandez d'abord si votre entreprise dispose encore du format original du fichier. De cette façon, non seulement vous réduirez les coûts, mais le format final de la traduction sera également bien meilleur. Sans parler de l'énorme faveur que vous nous rendez à nous, gestionnaires de projets !

Portrait de Sonja Honke
Sonja Honke

Sonja Honke est diplômée en traduction et interprétation de l'Université Autonome de Barcelone et titulaire d'un master en interprétation de conférence de l'Université de Grenade. De nationalité allemande, elle est également de langue maternelle espagnole et catalane et possède un niveau élevé de français et d'anglais. Elle est gestionnaire de projet avec une passion pour la communication multilingue et la diversité culturelle.

Ajouter un commentaire