L’édition des textes et documents en Arabe

Les formats pour l’édition de documents et encodages compatibles avec l’Arabe

Présentation…

La dernière étape de la prise en charge de l’Arabe sous Windows, est la mise en œuvre de l’édition de document. Il faudra choisir les formats de documents approprié ainsi que les logiciels permettant d’éditer ces documents. Nous finirons cette page avec une brève introduction à l’encodage des caractères : aperçu qui pourra se montrer utile à l’usage de certains traitements de textes.

Écrire en Arabe sous Windows

Tout dépend du format de document que vous voulez éditer. Citons les 4 principaux formats…

  • Texte simple ; parfois nommé « texte brut » ou « raw text »
  • RTF ; Ritch Text Format — par exemple avec WordPad ou OpenOffice.org
  • HTML ; qui n’est pas exclusivement réservé au web, et convient aussi aux autant usages personnels que professionnels
  • Doc ; les fameux fichiers Word, à éviter d’ailleurs quand c’est possible

Ce qui pose sans doute le plus de difficultés, ce sont les fichiers Word. Si vous avez Word 2000, c’est OK… il reconnaît l’Unicode ( voir plus loin ) et reconnaît « Bidi » Bidirectional Text ), qui permet l’affichage et l’édition de texte de droite à gauche. Mais si vous avez une version antérieure à Word 2000, c’est sans espoirs, tout est bloqué ( et ce n’est qu’une des multiples raisons pour lesquelles je ne conseille pas d’utiliser Word pour l’édition de document ). A noter que Microsoft Office ( et donc Word ) peut nuire à l’arabe sous Internet Explorer version 6 et antérieure [ note 1 ].

Nous allons nous intéresser à chacun des ces formats, en détails…

Format HTML

HTML se présente sous deux aspects : affichage seul ou édition et affichage ( alors que les autres formats ne se présentent presque toujours qu’avec l’édition et l’affichage ensemble ). La question de l’affichage à été traitée sur une autre page et nous n’y reviendrons pas ici. Pour éditer un document au format HTML, je recommande par exemple Nv|u, un éditeur de page web de qualité acceptable ( il est également gratuit ), que vous pouvez télécharger ici : Site de Nv|u en français  ou ici : Nv|u.com (en Anglais) . Il est juste un peu lent sur les vieux PC, mais fonctionne bien dans l’ensemble. N’oubliez pas, comme je l’ai introduit plus haut, que le HTML, n’est pas seulement réservé au web, et que vous pouvez aussi l’utiliser comme format de document pour vos propres fichiers personnels ou même comme format pour des documents destinés à êtres transmis à d’autres, par mail par exemple ; et pour cette usage, il est même nettement supérieur au format Doc de Microsoft, car il pose moins de problèmes de compatibilité. Ne vous privez pas donc, de l’usage du format HTML, qui est souvent une trés bonne solution d’édition pour les cas ou le format Doc ne s’impose pas pour des raisons spécifiques.

Format RTF

RTF, est le format qui est utilisé avec WordPad, Word ou OpenOffice.org par exemple. Mais n’espérez pas utiliser OpenOffice.org avec les fichiers de Word… les résultats à l’affichage sont désastreux. OpenOffice.org s’avère de plus un peu catastrophique avec l’Arabe ( pour les essais que j’ai put en faire à des dates antérieures ).

Concernant WordPad, qui est objectivement la solution la plus simple et la plus pratique, il est parfois nécessaire de lui appliquer une mise à jour, pour qu’il affiche normalement l’Arabe. Cette mise à jour n’est jamais nécessaire avec Windows 2000 et XP. Pour télécharger la mise à jour requise pour WordPad, pour Windows 95 ou 98 ou Me, cliquez sur ce lien pour le télécharger depuis ce site : téléchargement de RichEdit « 3.0 » . Téléchargez ce petit programme ( 325 KB ), et enregistrez le sur votre bureau par exemple. Lancez le, l’installation est automatique. Vous pouvez ensuite supprimer le fichier d’installation ou le garder en archive. Ce petit logiciel de mise à jour était auparavant disponible depuis une page de Microsoft. Mais comme à son habitude, Microsoft n’assume plus sa précédente génération de logiciels, et n’héberge plus ce programme ( sa distribution reste cependant libre ). C’est pour cette raison qu’il est fourni en téléchargement directement sur ce site. Merci de signaler si vous créez un lien vers cette page pour ce téléchargement, ou même un lien direct vers ce téléchargement, car il sera peut-être déplacé à l’avenir. Ainsi vous pourrez être prévenu(e) si cela se produit, et vous pourrez mettre à jour votre lien en conséquence.

WordPad gère très bien l’arabe avec un Windows 95 et 98 et donc Windows Me ( si nécessaire, effectuez la mise-à-jours indiquée dans le précédent paragraphe ). Vous pouvez faire un essais. Ouvrez un clavier clavier virtuel dans votre navigateur ; comme ce Clavier Arabe en ligne . Écrivez votre prénom en Arabe. Sélectionnez le texte, faites un « copier et coller » vers WordPad. Assurez-vous que le texte s’affiche normalement et sans erreurs ni incohérences. Vérifiez l’indicateur de langue du clavier ( l’icône bleue en bas à droite de l’écran ), il devrait être automatiquement passé à « A ». Faites-y attention, car quand vous choisissez la commande « Enregistrer » du menu « Fichier », et que vous devez entrer un nom de fichier, vous devez vous assurer que le clavier est en français avant de taper le nom de fichier, sinon vous allez avoir une surprise amusante. Enregistrer votre fichier par exemple au format Word 6 ou RTF, mais préférez le format RTF, car le format Word 6 n’enregistre pas correctement les caractères numériques arabes. Ouvrez le à nouveau avec WordPad, et assurez vous que tout est OK. Notez bien que WordPad utilise un encodage parfaitement reconnu, et qu’il ne reconnais que celui-ci. Donc il se peut que vous ne puissiez pas récupéré correctement un fichier créé ou modifié avec une autre application ( comme Microsoft Office Word ). Quand vous ouvrez un fichier avec WordPad, assurez-vous que l’affichage est correct, c’est ce qui vous garanti qu’il reconnais bien l’encodage des caractères. Des explications sur ce qu’est l’encodage des caractères viendront plus loin [ Ce qu’est le codage des caractères ]. Malgré ses petites limitation, WordPad reste la solution la plus simple et la plus légère pour éditer des textes Arabes avec mise en formes.

Pour l’anecdote, si vous avez Word 95, Word 97 ou Word 98, alors essayez de rouvrir le fichier avec Word : vous aurez la surprise de constater qu’il est incapable de l’ouvrir correctement. Appelons cela ironiquement un coup de génie de Microsoft : une énorme application comme Word, est incapable de faire ce que peut faire une petite application comme WordPad.

Format texte simple ( sans mises en forme )

Pour les textes simples, c’est très simple ( sans jeux de mot ), vous le faites également avec WordPad. Relisez la section sur RTF si vous l’avez omise [ Format RTF ]. Abandonnez NotePad, car il n’a pas la souplesse nécessaire au support des textes Arabes. Il vous faudra pendre soin d’enregistrer le fichier sous un format compatible avec le texte Arabe ( permettant d’enregistrer correctement les caractères Arabes ). Ceci exclus les formats DOS ou Windows, ou ISO 8859-1 par exemple. Je vous recommande de toujours utiliser le codage « Document Texte Unicode » compatible avec les textes Arabes au format texte simple ( il s’agit bien ici du format texte simple, à ne pas confondre avec RTF ou Word 6 ).

Résumé des principaux traitements de textes

AbiWord est un traitement de texte dont ont entend beaucoup parler, qui a l’air sympa que l’on vient de l’installer, mais qui s’avère rapidement inutilisable pour des travaux sérieux. Il convient très bien pour éditer quelques lignes de texte, mais dés que le fichier atteint une taille pourtant tout à fait ordinaire pour un document, il rame lamentablement. Compter également un temps d’ouverture de l’application excessivement long ( parfois jusqu’à 5 minutes pour s’ouvrir sur une machine modestement équipée ). Beaucoup de prétentions pour ce logiciel, mais très peu de résultats concrets. Malgré ces défauts rédhibitoires, il affiche l’Arabe assez convenablement.

OpenOffice.org est environ aussi gros et lourd ( ni-plus, ni-moins ) que Microsoft Office, mais il « rame » beaucoup plus. Son support de l’Arabe est assez médiocre.

NotePad gère très bien les caractères arabes avec Windows 2000 et XP, mais il en est absolument incapable sur Windows 95 et 98 et ME.

WordPad, comme dit précédemment fonctionne bien pour représenter les caractère arabes, et il les attachent correctement entre eux ( sous réserve de faire la mise à jour indiqué ci-précédemment ). C’est une des meilleurs solutions, car elle permet la mise en forme du texte Arabe. Enregistrer vos document au format RTF, de préférence, si vous voulez utiliser les mises en formes, car le format Word 6 n’enregistre pas correctement certains caractères, comme par exemple les caractères numériques arabes.

Nv|u est une bonne solution pour les PC ayant suffisamment de ressources mémoire ( nécessite environ 128 MB de mémoire pour fonctionner de manière fluide, mais peut fonctionner aussi avec 32 MB, donc sur d’ancienne machine ). Il supporte l’Arabe un peu à la manière du navigateur FireFox : c’est-à-dire avec le même problème d’affichage des diacritiques ( voir la page sur l’affichage de l’Arabe dans les pages web ).

Ce qu’est le codage des caractères

En informatique, et dans les fichiers informatiques, les lettres d’un texte, sont enregistrées en utilisant des nombres. Malheureusement, les intervalles de nombre les plus souvent jusque récemment, ce sont montrés trop limités pour permettre de représenter des langues autres que la langue du système d’exploitation. Un autre codage à donc été imaginé. Ce codage est mondialement reconnu : c’est Unicode. Unicode se cache aussi derrière un autre codage : UTF-8. UTF-8 est la meilleure solution, car il permet de représenter tout les caractères d’Unicode, tout en consommant moins de place. De plus, UTF-8 est compatible avec les caractères latins de base ( sans accents ). Ceci signifie que vous pouvez toujours lire les caractères latins standard dans un fichier UTF-8, même avec un éditeur qui ne reconnais pas UTF-8 ( les autres caractères apparaîtront alors seulement le plus souvent comme des paires caractères bizarres qu’il ne faut pas modifier… ). Donc ces fichiers restent toujours à assez lisible dans toutes les conditions. Un autre encodage issu d’Unicode, est UCS-2 ( ou son successeur, UTF-16 ). C’est le codage utilisé par WordPad sous Windows 95 ou 98 ou Me. WordPad ne reconnais malheureusement pas les fichiers UTF-8. Mais les logiciels qui reconnaissent UTF-8, comme PSPad , reconnaissent souvent UCS-2 et UTF-8.

Notes…

[Note 1] - L’installation de Microsoft Office 2004, après l’ajout de l’option pour d’Internet Explorer pour l’affichage de l’Arabe, peut perturber Internet Explorer et l’empêcher d’afficher correctement l’Arabe. Microsoft Office modifie les polices de caractères qui sont aussi utilisées par Internet Explorer, notamment les polices Arial et Times New Roman. Pour y remédier, il est préférable d’installer Microsoft Office avant d’ajouter les composants pour l’Arabe à Internet Explorer.