Teachers Paradise School Supplies Teacher Resources Free Encyclopedia
Teachers Paradise FREE Teaching Resources
Home Arts Crafts Audio Visual Equipment Office Supplies Teacher Resources
Hauptseite | See live article

UTF-8

UTF-8 (Abk. für 8-bit Unicode Transformation Format) ist eine Kodierung für Unicode-Zeichen; dabei besteht der Code aus Byte-Ketten von variabler Länge.

UTF-8 ist gegenwärtig als RFC 3629 standardisiert. RFC 2279 ist veraltet (UTF-8, a transformation format of ISO 10646).

Hat ein Byte in UTF-8 einen Wert zwischen 0 und 127, so entspricht es exakt dem ASCII-Zeichen mit demselben Wert. Insofern sind alle Dateien, die ausschließlich ASCII-Zeichen verwenden, in beiden Darstellungen identisch. In allen anderen Fällen sind mehr Bytes erforderlich.

U0000 - U007F:0xxxxxxx In diesem Bereich entspricht UTF-8 genau dem ASCII-Code: Das erste Bit ist 0, die darauf folgende 7-Bitkombination ist das ASCII-Zeichen.
U0080 - U07FF:110xxxxx 10xxxxxxDas erste Byte beginnt mit binär 11, die folgenden Bytes beginnen mit binär 10; die x stehen für die fortlaufende Bitkombination des Unicodezeichens. Die Anzahl der Einsen bis zur ersten 0 im ersten Byte ist die Anzahl der Bytes für das Zeichen.
U0800 - UFFFF:1110xxxx 10xxxxxx 10xxxxxx
U10000 - UEFFFF:11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

Betrachtet man die Bitfolgen etwas genauer, erkennt man die große Sinnfälligkeit von UTF-8:

Somit kann ein Byte-Strom auch in der Mitte gelesen werden, ohne dass es Probleme mit der Dekodierung gibt.

Siehe auch: UTF-16, UTF-32

Weblinks




Pay for Educational Supplies & Teaching Supplies with Visa, Master Card, American Express, Discover or Paypal.
TeachersParadise.com HOME | Safe Shopping Guarantee | Help Desk
All trademarks & brands are the property of their respective owners.
Legal Notice 2000-2008 TeachersParadise.com, Inc. All Rights Reserved