Zeichenkodierung

Eine Zeichenkodierung (englisch Character encoding, kurz Encoding) erlaubt die eindeutige Zuordnung von Schriftzeichen (Buchstaben oder Ziffern) und Symbolen innerhalb eines Zeichensatzes. In der Elektronischen Datenverarbeitung werden Zeichen über einen Zahlenwert kodiert und eignen sich damit für Übertragungen oder Speicherungen. Der deutsche Umlaut Ü wird zum Beispiel im ISO-8859-1-Zeichensatz mit dem Dezimalwert 220 kodiert. Im EBCDIC-Zeichensatz kodiert der Wert 220 die geschweifte Klammer }. Zur richtigen Darstellung eines Zeichens muss also die Zeichenkodierung bekannt sein; der Zahlenwert allein reicht nicht aus.
Mit der Entwicklung des Computers mussten Übersetzungstabellen, sogenannte Charsets, festgelegt werden. Da für die verschiedenen Sprachen andere diakritische Zeichen benötigt werden, gibt es für Sprachgruppen bestimmte Charsets. Die ISO hat mit der Normenreihe ISO 8859 Zeichenkodierungen für alle europäischen Sprachen (einschließlich Türkisch) und Arabisch, Hebräisch sowie Thai standardisiert. Das Unicode Consortium schließlich veröffentlichte 1991 eine erste Fassung des gleichnamigen Standards, der es sich zum Ziel gesetzt hat, alle Zeichen aller Sprachen in Codeform zu definieren. Unicode ist gleichzeitig die internationale Norm ISO 10646. Vor dem Verarbeiten elektronischer Texte muss (sofern die Texte als Bytefolgen gespeichert sind) der verwendete Zeichensatz festgelegt werden. Dazu dient in einer HTML-Seite beispielsweise folgende Definition: <meta http-equiv=“Content-Type“ content=“text/html; charset=UTF-8″>

Dieser Artikel basiert auf dem Artikel Zeichenkodierung aus der freien Enzyklopädie Wikipedia und steht unter der Doppellizenz GNU-Lizenz für freie Dokumentation und Creative Commons CC-BY-SA 3.0 Unported (Kurzfassung). In der Wikipedia ist eine Liste der Autoren verfügbar.