Fachkonzept - Unicode

Andere Sprachen, andere Symbole!

Jede Sprache benutzt einen bestimmten Zeichensatz, um die Wörter der Sprache darzustellen. Wechselt man, die Sprache, so muss man gegebenenfalls spezielle Sonderzeichen benutzen. So benutzt man im Deutschen und Türkischen das Zeichen ö, im Norwegischen das Zeichen ø und im Französischen das Zeichen œ. Viele Sprachen benutzen Zeichen, die sich vollkommen von denen aus unserem Standardalphabet unterscheiden. So benutzt man im Arabischen u. a. die folgenden Zeichen:

ا,ب,ت,ث,ج,ح,خ,د,ذ,ر, ز,س,ش,ص,ض,ط,ظ,ع,غ,ف, ق,ك,ل,م,ن,ه,و,ي

Weitere Zeichen werden von speziellen Interessengruppen verwendet. Mathematiker benutzen z. B. das Zeichen zur Darstellung der leeren Menge. Leute, die Geldbeträge beschreiben, benutzen das Zeichen zur Darstellung des Euros.

Will man alle diese Zeichen binär darstellen, so reichen 8 Bit (bzw. 1 Byte) zur Codierung nicht mehr aus, da man nur maximal 256 verschiedene Zeichen mit 8 Bit kodieren kann. Ein Ausweg besteht darin, mehr als 8 Bit zur Codierung zu verwenden. Überlicherweise verwendet man dann mehrere Bytes. Mit 2 Bytes lassen sich schon 216 = 65.536, mit 4 Bytes 4.294.967.296 verschiedene Zeichen kodieren. Eine solche Erweiterung der Bitlänge ermöglicht es also, sämtliche Zeichen aller (gängigen) Sprachen auf der Erde einheitlich zu kodieren.

Fachkonzept: Unicode

Unicode ist ein internationaler Standard, mit dem alle bekannten Textzeichen in einem Zeichensatz zusammengefasst werden sollen.

Ursprünglich war der Unicode als 2-Byte-Code konzipiert, so dass man insgesamt 65.536 Zeichen darstellen konnte. Inzwischen gibt es auch eine 4-Byte-Variante mit der Möglichkeit, die Codierung weiterer Zeichen zu standardisieren.

Am Beispiel des Telefonzeichens soll die Unicode-Codierung kurz erläutert werden. Die Binärkodierung des Telefonzeichens wird durch die Hexadezimalzahl 260E beschrieben. Ersetzt man die einzelnen Hexadezimalziffern durch die entsprechenden Binärcodes, so ergibt sich eine Binärkodierung 0010 0110 0000 1110 für das Zeichen .

UTF

UTF (Abkürzung für Unicode Transformation Format) ist ein Verfahren zur Abbildung von Unicode-Zeichen auf Byte-Folgen.

UTF-8 benutzt 8-Bit-Einheiten (Bytes) zur Darstellung von Zeichen des Unicode-Zeichensatzes. Je nach Zeichen kann diese Darstellung 1, 2, 3 oder 4 Bytes umfassen. UTF-8 benutzt ein ausgefeiltes Verfahren, um Texte, die auf dem lateinischen Alphabet basieren, mit möglichst wenig Bytes darzustellen. Alle Zeichen des ASCII-Zeichensatzes werden wie in der erweiterten ASCII-Code-Tabelle festgelegt kodiert und benötigen daher nur ein Byte zur Darstellung. Umlaute und viele andere Sonderzeichen werden mit 2 Bytes kodiert. Weitere Informationen findet man im entsprechenden Wikipedia-Artikel.

X

Fehler melden

X

Suche