Zeichenbestand und Zeichensatz


 

Buchstabe kontra Zeichen

Der Buchstabe oder die Letter (engl. character oder letter) stellt abstrakte Informationselemente in der Domäne der Kodierung für den Datenaustausch dar. Standards zur Kodierung der Buchstaben vergeben allen Buchstaben eines Zeichensatzes Buchstabenkodes, Buchstabennamen (in Form von beschreibenden Texten) und darstellende Abbildungen. Die exakte Semantik (Bedeutung der sprachlichen Zeichen) und das Aussehen dieser Informationselemente in irgend einer Ausführung werden jedoch nicht von diesen Buchstaben-Kodierungsstandards definiert.

Das Zeichen (engl. glyph) stellt abstrakte Darstellungselemente in der Domäne des Darstellungsprozeßes dar. Standards zur Registrierung der Zeichen definieren den Prozeß der Vergabe von Identifikatoren, ihren Beschreibungen und darstellenden Abbildungen jedes Zeichens, die der Erfassung vorliegt.

Buchstaben (Character) und Zeichen (Glyph) sind mit vielen gleichen Attributen miteinander eng verbunden. Trotzdem unterscheiden sie sich wesentlich, woraus sich die Notwendigkeit ergibt, sie in der Informationsverarbeitung als unterschiedliche Einheiten zu behandeln. Der ISO/IEC I10646 Standard ist sich der Unterscheidung zwischen dem Buchstaben und seiner visuellen Darstellung bewußt, indem er das Zeichen mit den Begriff ‚grafisches Symbol‘ definierte. Diesbezüglich möchte ich hier einige Definitionen aufführen:

  1. Der Buchstabe/die Letter — Mitglied einer Ansammlung von Elementen die der Organisation, Kontrolle, oder Darstellung von Daten dient. 34
  2. Der kodierte Zeichensatz — Ansammlung eindeutiger Regeln die einen Zeichensatz, sowie die Relationen zwischen den Zeichen dieses Satzes und deren kodierten Darstellung bilden. 35
  3. Der Font — Ansammlung von Zeichenabbildungen mit gleicher grundlegender Gestaltung, z.B. ‚Courier Bold Oblique‘. 36
  4. Die Font Ressource — Ansammlung von Zeichendarstellungen mit ihren beschreibenden Font-Metrik Informationen, die für die Ansammlung der Darstellungen der Zeichenabbildungen als Ganzes relevant sind. 37
  5. Das Zeichen — Ein erkennbares abstraktes, grafisches Symbol, welches von jeglicher Gestaltung unabhängig ist; auch ‚grafisches Symbol‘. 38

 

Zeichenbestand eines Fonts

Wie schon bei älteren Techniken, ist ein Daten- bzw. Informationsträger die Voraussetzung für die Speicherung von Bestandteilen einer Schrift. (-> Kapitel 1.3) Bei der Arbeit mit der heutigen Rechnertechnologie werden hierzu Schriftdateien benötigt, die digital gespeicherte Informationen beinhalten und in unterschiedlichen Formaten gespeichert werden, z.B. Type 1, TrueType, usw.

Der Zeichenbestand einer digitalen Schrift für die meisten westlichen Sprachen (lateinische Schrift) umfaßt standardmäßig 228 Zeichen. Damit werden die meisten Zeichen angeboten, welche die verschiedenen Zeichensätze der Macintosh, Windows und Unix Plattformen erfordern. Im Wesentlichen beinhaltet ein Font für das lateinische Alphabet folgende Zeichen:

- Versalien und Gemeinen von A - Z
- Ligaturen
- Umlaute
- Währungszeichen
- Brüche
- Ziffern
- Interpunktionen
- Akzente
- oben und unten stehende Indizes
- einige Zeichen für den Formelsatz

 
 

Der Zeichensatz

Der Zeichensatz (engl. character code/encoding) ist eine Tabelle im Font, bzw. dem Betriebssystem, in der jedem Buchstaben eines Fonts eine Nummer, bzw. ein Name vergeben wird. Damit Texte erfolgreich kodiert, bearbeitet und interpretiert werden können, müssen Zeichensätze folgendes ermöglichen:

  1. Festlegung des kleinsten benötigten Textelementes, das kodiert werden soll;
  2. jedem Element einen einmaligen Kode zuweisen;
  3. Grundregeln für die Kodierung und Textinterpretation festlegen, damit Programme Texte erfolgreich lesen und verarbeiten können. 39

Die meisten Systeme stellen die Buchstabenkodes noch durch 8-Bit Daten (Bytes) dar, wodurch diese Tabellen auf die Darstellung von höchstens 256 Buchstaben eingeschränkt sind. (Diese Einschränkung soll Unicode durchbrechen -> Unicode) Jedoch benutzen nicht alle Betriebssystem den selben Zeichensatz. Macintosh benutzt den von Apple Computer Inc. standardisierten Macintosh-Zeichensatz und Windows einen gänzlich anderen, welcher von Microsoft definiert ist.

  1. US ASCII — sieben-Bit ASCII
  2. TeX text — der TeX-System sieben-Bit de facto Standard (CMR)
  3. Adobe Standard Encoding — Kodierungsstandard vieler Type 1 Schriften
  4. Apple Standard Encoding — Kodierungsstandard auf dem Mac-System
  5. ISO Latin-1 — ein acht-Bit multinationale Zeichensatz-Kodierung
  6. Cork Encoding — der TeX-System acht-Bit Standard
  7. PC — acht-Bit Kodierung für afrikanische Sprachen

American Standard Code for Information Interchange (‚ASCII‘) bietet eine "eindeutige binäre Kennzeichnung aller Text- und Steuerzeichen." 40 Es ist das erste Format zum globalen Datenaustausch, das von allen Betriebssystemen lesbar ist. Es stammt aus den amerikanischen, militärischen Rechenzentren und bezog sich lediglich auf die amerikanische Schriftkultur bzw. auf 128 Zeichen der telegrafischen Prähistorie. Diese 128 Zeichen ergeben sich aus der Tatsache, daß der ascii Code vom Byte (1 Byte = 28 = 256 Bits) nur sieben von acht Bits benutzt (also 27 = 128 Bits), um das Alphabet und die Sonderzeichen darzustellen. Der achte Bit wird zur Paritätsüberprüfung genutzt. Deshalb wurden einige Zeichen bei der Übertragung von einer Plattform zur anderen nicht dargestellt — z.B. deutsche Umlaute und das ‚ß‘.

Mittlerweile ist das ASCII-Format auf zusätzliche nationale Sonderzeichen erweitert. Dabei wird vom acht-Bit ASCII, bzw. dem erweiterten Zeichensatz gesprochen. Die verschiedenen Komputerplattformen (DOS, Windows, Mac) benutzen unterschiedliche Aufteilungen des acht-Bit Zeichensatzes und obwohl es Versuche gab, einen gemeinsamen Standard einzuführen (ISO), ist die Problematik der Plattformabhängigkeit nicht richtig gelöst worden.

Beim ‚Unicode‘ handelt es sich um einen 16-Bit Zeichensatz (216 = 65 536 Bits). Das heißt, daß jeder Buchstabe mit einem eindeutigen 16-Bit Kode versehen wird. Mittlerweile sind ungefähr 30 000 Plätze in dem Unicode-Schema vergeben. Die Idee des Unicode ist die Vereinigung aller Schriftsysteme der Welt (die Internationalisierung) und könnte somit die Rolle eines neuen universellen ‚ASCII-Standard‘ übernehmen. Diese Menge an Zeichen wird benötigt, um insbesondere den Bedürfnissen der asiatischen Schriftsysteme (Chinesisch, Japanisch, Koreanisch) entgegenzukommen, die mehrere tausend Zeichen benötigen. Neben den Grundbuchstaben werden dem Unicode Standard auch diakritische Zeichen und Interpunktionen sowie mathematische und technische Symbole, Pfeile, Dingbats, usw. hinzugefügt. Noch wird Unicode nur von wenigen Systemen und Programmen nur zum Teil unterstützt (Windows NT), da es einen recht neuen Ansatz darstellt. 41

Der Tastaturtreiber ist ein Teil der Systemsoftware, welcher die gedrückte Taste in einen Kode (die ID Nummer) übersetzt und der einen bestimmten Buchstaben des benutzten Zeichensatzes darstellt. Z.B. beim Drücken der Taste für das gemeine ‚a‘, wird ihr der dezimale Buchstabenkode ‚97‘ zugewiesen und bei allen Zeichensätzen als ‚a‘ geführt. Der Buchstabenkode ‚151‘ des Macintosh Zeichensatzes führt das ‚ß‘. Windows und andere Zeichensätze führen für diesen Kode jedoch das ‚§‘, was zu Mißverständnissen beim Plattformübergreifendem Datenaustausch führen kann.

Aus meiner mehrjährigen Auseinandersetzung mit digitalen Schriften habe ich für die Unterschiedlichkeit der Zeichensätze folgende Begründung gefunden:

  1. Plattformabhängigkeit — nicht alle Zeichen werden von allen Plattformen unterstützt. "Um die Fonts erfolgreich auf verschiedenen Plattformen einzusetzen, müssen zwei Voraussetzungen erfüllt sein: Einerseits ist ein Mechanismus erforderlich, der alle Zeichen so anordnet, wie es auf dem jeweiligen Betriebssystem üblich ist." (Dieser Mechanismus ist das Umkodieren eines Fonts durch das Einsetzen eines neuen Encoding-Vektors, der eine flexible Zuordnung des Zeichensatzes erlaubt.) "Außerdem muß ein Font alle Zeichen enthalten, die dem Benutzer auf den unterstützten Betriebssystemen zur Verfügung stehen." 42
  2. Sprachraum — europäischer, asiatischer oder andere Sprachräume
  3. Schriftart — der Unterschied zwischen Text- oder Displayschrift; z.B. werden Ligaturen wie ‚fi‘ oder ‚fl‘ bei Displayschirften nicht benötigt, wodurch diese Positionen entweder leer bleiben, oder durch andere Zeichen besetzt werden können.
  4. Symbolschrift (Pi-Fonts) — dabei besteht der Zeichensatz aus verschiedenen Zier- und Schmuckelementen; ein bekanntes Beispiel ist die Schrift ‚Zapf-Dingbats ‘entworfen von Hermann Zapf. Wie schon erwähnt weichen diese Schriften von der Regelung ab, daß alle Zeichen mit einem Name definiert sind. "Während z.B. der Font Carta lesbare Bezeichnungen für die darin enthaltenen Landkartensymbole enthält, haben die Zeichen in Zapf-Dingbats einfach eine Nummer als "Name"." 43
  5. Zeichensatz-Erweiterung — Eines der jüngsten Beispiele ist die Einführung des Euro-Zeichens (Kurzbezeichnung EUR).

 

ZURÜCK     INHALT     WEITER