Inhalt
Was ist Unicode?
Unicode ist ein Kodierungsstandard, der Zeichen nahezu aller Sprachen der Welt umfasst. Dieser Standard ermöglicht es Computern, Textinformationen zu verarbeiten und korrekt auf dem Bildschirm anzuzeigen. Alle Informationen in einem Computer werden im binären Format gespeichert und verarbeitet, also in Form von Sequenzen aus Nullen und Einsen. Um solche binären Sequenzen in für die Benutzer verständliche Zeichen zu übersetzen, wurden spezielle Codierungen entwickelt, die Regeln festlegen, nach denen jedem Zeichen - sei es ein Buchstabe, eine Zahl oder sogar eine musikalische Note - ein einzigartiger numerischer Code zugewiesen wird.
Damit ein Computer Zeichen korrekt auf dem Bildschirm ausgeben kann, muss er wissen, welchem binären Code sie entsprechen. Zum Beispiel entspricht die binäre Sequenz 0100 0001 dem lateinischen Buchstaben A. Die Anzahl der möglichen Codes ist jedoch begrenzt, daher funktioniert Unicode nach einem anderen Prinzip. Jedem Zeichen wird ein Codepunkt zugewiesen - ein einzigartiger numerischer Wert, der die Form U+XXXX hat. Das Präfix U+ weist auf Unicode hin, während XXXX den hexadezimalen Wert des Zeichens darstellt.
Im hexadezimalen System werden 16 Zeichen verwendet, einschließlich der Ziffern von 0 bis 9 und der Buchstaben von A bis F, die die Zahlen von 10 bis 15 darstellen. Zum Beispiel entspricht dem englischen Buchstaben A der Codepunkt U+0041, und dem Wort HELLO entsprechen die Codepunkte U+0048, U+0065, U+006C, U+006C, U+006F. Jeder Codepunkt wird dann in ein für den Computer verständliches binäres Format übersetzt und im Speicher des Computers gespeichert. Interessanterweise sind auch Emojis mit Unicode kodiert.
Warum ist Unicode notwendig?
Ursprünglich gab es separate Codierungen für die Zeichen jeder Sprache, von denen viele untereinander inkompatibel waren. Dies führte zu dem Problem der „Krakotzebras“, bei dem anstelle von normalem Text auf dem Bildschirm seltsame Zeichen oder Hieroglyphen angezeigt wurden. Zum Beispiel, wenn das Mädchen Masha aus Russland eine E-Mail mit dem Wort Привет an ihren Freund in Armenien schickte, konnte er stattdessen eine Nachricht in Form von ????? erhalten. Der ursprüngliche Text ging verloren, da die Computer des Absenders und des Empfängers unterschiedliche Codierungen unterstützten.
Unicode wurde geschaffen, um dieses Problem zu lösen, indem es eine einheitliche Methode zur Darstellung von Zeichen bietet und die Arbeit mit Text auf mehrsprachiger Ebene vereinfacht. Mit Unicode kann man eine E-Mail senden oder Text auf einer Website sogar in Klingonisch - einer von Linguisten Mark Okrand für das Universum der Serie „Star Trek“ entwickelten Kunstsprache - platzieren. Die Empfänger werden ihn in der original lesbaren Form sehen können. Bis heute umfasst Unicode etwa 150.000 Zeichen, was ausreichend ist, um fast alle Schriftsysteme abzudecken.
Andere Zeichencodierungen: Was war vor Unicode?
Vor dem Erscheinen von Unicode gab es viele verschiedene Codierungen, von denen jede für eine einzelne Sprache gedacht war. Die bekanntesten sind ASCII, KOI8-R und Windows-1251.
- ASCII: Dies ist eine Zeichencodierungstabelle, die 127 Zeichen umfasst, wie lateinische Buchstaben, Ziffern und Satzzeichen. ASCII unterstützt jedoch keine kyrillischen Zeichen, und wenn Benutzer versuchten, Text in russischer Sprache zu kodieren, erhielten sie eine Reihe von Fragezeichen und verloren den ursprünglichen Text.
- KOI8-R: Diese Codierung wurde entwickelt, um Zeichen nicht nur des lateinischen Alphabets auszugeben. KOI8-R ist mit ASCII kompatibel und umfasst 256 Zeichen, was die Anzeige von Kyrillisch ermöglicht.
- Windows-1251: Eine weitere Codierung, die Kyrillisch unterstützt. Dennoch können Zeichen in verschiedenen Codierungen unterschiedlich kodiert werden. Zum Beispiel kann das Zeichen Г in KOI8-R und Windows-1251 unterschiedliche Darstellungen haben.
Das Problem der Inkompatibilität verschiedener Codierungen trat auf, wenn Text, der mit einer Codierung kodiert wurde, mit einer anderen dekodiert wurde. Darüber hinaus gab es ernsthafte Einschränkungen hinsichtlich der Anzahl der Zeichen in alten Codierungen: ASCII hat 127 Zeichen, Windows-1251 hat 256. Für viele unpopuläre Sprachen gab es einfach keine Codierungen. Unicode bietet jedoch eine universelle Lösung, die alle zulässigen Zeichen und Regeln für deren Kodierung umfasst.
