Contenu
- Qu'est-ce que l'Unicode ?
- Pourquoi l'Unicode est-il nécessaire ?
- D'autres codages : ce qui existait avant l'Unicode
Qu'est-ce que l'Unicode ?
L'Unicode (Unicode) est une norme de codage qui couvre les caractères de pratiquement toutes les langues du monde. Cette norme permet aux ordinateurs de traiter des informations textuelles et de les afficher correctement à l'écran. Toutes les informations dans un ordinateur sont stockées et traitées au format binaire, c'est-à-dire sous forme de séquences de zéros et de uns. Pour traduire ces séquences binaires en caractères compréhensibles par les utilisateurs, des codages spéciaux ont été développés, qui établissent des règles selon lesquelles chaque caractère - qu'il s'agisse d'une lettre, d'un chiffre ou même d'une note de musique - se voit attribuer un code numérique unique.
Pour que l'ordinateur puisse afficher correctement les caractères à l'écran, il doit savoir à quel code binaire ils correspondent. Par exemple, la séquence binaire 0100 0001 correspond à la lettre latine A. Cependant, le nombre de codes possibles est limité, c'est pourquoi l'Unicode fonctionne selon un autre principe. À chaque caractère est attribuée un point de code - une valeur numérique unique, qui prend la forme U+XXXX. Le préfixe U+ indique qu'il s'agit de l'Unicode, et XXXX représente la valeur hexadécimale du caractère.
Dans le système hexadécimal, 16 caractères sont utilisés, y compris les chiffres de 0 à 9 et les lettres de A à F, qui représentent les nombres de 10 à 15. Par exemple, à la lettre anglaise A correspond le point de code U+0041, et au mot HELLO correspondent les points de code U+0048, U+0065, U+006C, U+006C, U+006F. Chaque point de code est ensuite traduit en format binaire compréhensible par l'ordinateur et stocké dans sa mémoire. Il est intéressant de noter qu'avec l'Unicode, les émojis sont également codés.
Pourquoi l'Unicode est-il nécessaire ?
À l'origine, il existait des codages distincts pour les caractères de chaque langue, dont beaucoup étaient incompatibles entre eux. Cela a conduit à l'émergence du problème des « krakozyabrs », lorsque, au lieu d'un texte normal, des caractères ou des hiéroglyphes étranges s'affichaient à l'écran. Par exemple, si la fille Macha de Russie envoyait un e-mail contenant le mot Привет à son ami en Arménie, il pouvait recevoir à la place un message sous forme de ?????. Le texte d'origine était perdu, car les ordinateurs de l'expéditeur et du destinataire prenaient en charge des codages différents.
L'Unicode a été créé pour résoudre ce problème, en fournissant une méthode unique de représentation des caractères et en simplifiant le travail avec le texte à un niveau multilingue. Avec l'Unicode, il est possible d'envoyer un e-mail ou de publier du texte sur un site même dans la langue klingonne - une langue artificielle développée par le linguiste Marc Okrand pour l'univers de la série « Star Trek ». Les destinataires pourront le voir dans sa forme originale lisible. À ce jour, l'Unicode comprend environ 150 000 caractères, ce qui est suffisant pour couvrir presque tous les systèmes d'écriture.
D'autres codages : ce qui existait avant l'Unicode
Avant l'émergence de l'Unicode, il existait de nombreux codages différents, chacun destiné à une langue spécifique. Les plus connus sont ASCII, KOI8-R et Windows-1251.
- ASCII : C'est un tableau de codage qui comprend 127 caractères, tels que les lettres latines, les chiffres et les signes de ponctuation. Cependant, l'ASCII ne prend pas en charge les caractères cyrilliques, et lorsqu'ils tentaient de coder un texte en russe, les utilisateurs obtenaient un ensemble de points d'interrogation, perdant le texte d'origine.
- KOI8-R : Ce codage a été développé pour afficher les caractères non seulement de l'alphabet latin. Le KOI8-R est compatible avec l'ASCII et comprend 256 signes, ce qui permet d'afficher le cyrillique.
- Windows-1251 : Un autre codage qui prend en charge le cyrillique. Cependant, les caractères peuvent être codés différemment dans différents codages. Par exemple, le caractère Г peut avoir des représentations différentes dans le KOI8-R et le Windows-1251.
Le problème d'incompatibilité entre les différents codages se manifestait lorsque du texte codé avec un codage était décodé avec un autre. De plus, il existait de sérieuses limitations quant au nombre de caractères dans les anciens codages : l'ASCII avait 127 caractères, et le Windows-1251 en avait 256. Pour de nombreuses langues peu populaires, il n'existait tout simplement pas de codages. L'Unicode, en revanche, propose une solution universelle, incluant tous les caractères autorisés et les règles de leur codage.
