Unicode
Dialäkt: Züritüütsch |
Unicode isch en internationale Standard, wo langfristig für jedes sinnträgende Zeiche bzw. Tekschtelement vo allne bekannten Schriftkulture und Zeichesyschtem än digitale Code feschtgläit wird. Er will s'Problem vo dä verschiidene inkompatible Kodierige i dä underschiidliche Länder besytige. Herkömmlichi Computer-Zeichesyschtem umfassed än Zeichevorrat vo entweder 128 (7 Bit) Zeiche wie dä sehr bekannti ASCII-Standard oder 256 (8 Bit) Zeiche, wie z. B. ISO Latin-1, wobii detä nach Abzug vo dä Stüürzeiche 96 Elemänt bi ASCII und 192–224 Elemänt bi dä 8-Bit ISO-Zeichesätz als Schrift- und Sonderzeiche darschtellbar sind. Diä Zeichekodierige erlaubed die gliichzytig Darschtellig von nur wenige Schprache im gliiche Tekscht, wenn mer sich nöd demit behilft, imene Tegscht verschiideni Schrifte mit underschiidliche Zeichesätz z'verwende. Das hät bisher dä internationali Dateuustuusch starch behinderet.
In Unicode finded Zeiche vo dä wichtigschte Industriistandard-Zeichesätz wie d'ISO-Norme ä 1:1-Entsprechig (das bedütet, dass binere Konversion vom Industriistandard zu Unicode und zrugg s'gliiche Ergebnis usechunnt). Hüt erlediged die meischte Webbrowser die Darstellig vo dene Zeichesätz mit ere Unicode-kodierte Schrift i dä Regel perfekt und ooni dass dr Benutzer öbbis merkt.
ISO 10646 isch die praktisch bedütigsgliichi Bezeichnig vom Unicode-Zeichesatz, wo vo ISO verwendet wird; er wird det als Universal Character Set (UCS) bezeichnet.
Codes, Spiicherig und Überträgig
[ändere | Quälltäxt bearbeite]D'Codes vo Unicode-Zeiche werded hexadezimal mit voraageschtelltem „U “ dargschtellt. Derbii chan „x“ als Platzhalter verwendet werde, wenn zämehängendi Beriich gmeint sind, wie z. B. „U 01Fx“ für dä Codebereich U 01F0–U 01FF.
De Coderuum vo Unicode hät urschprünglich 65'536 Zeiche umfasst (UCS-2, 16 Bit). Bald aber hät sich usegschtellt, dass das nit längt. I dä Version 2.0 isch dä Codebereich um wiiteri 16 gliich große Bereich, sogenannti Planes (Ebene) erwiiteret worde. So sind jetz maximal 1'114'112 (220 216) Zeiche bzw. Codepoints im Codeberiich vo U 00000 bis U 10FFFF vorgsee (UCS-4, 32 Bit). Bis zur Unicode-Version 4.0, sind 96'382 Codes individuelli Zeiche zuegordnet. Das entspricht erst öppe 9% vom gsamte Coderuum.
D Codeberiich (Blöck), wo d'Unicode-Ebene drin iideilt werded, sind i dä Lischte dvo dä Unicode-Blöck vollschtändig ufgfüert. Zuesätzlich zu dä gültig kodierte Zeiche isch au sehr langfrischtig, z. T. no recht ungnau Plaants ufgfüert.
D'Spiicherig und d'Überträgig vo Unicode erfolgt in underschiidliche Formate:
- Unicode Transformation Format (UTF), wobii UTF-8 am meiste brucht wird, z. B. im Internet und i fascht allne Betriibssystem. Näbed UTF-8 hät UTF-16 e grossi Bedütig, so z. B. als Zeichecodierig in Java, wo em Unicode UCS-4 für alli UCS-2 Codepoints entschpricht, und alli andere Codepoints als Zweiersequenze, die sogenannte Surrogate Pairs, abbildet.
- SCSU (Standard Compression Scheme for Unicode, früener au als RCSU – Reuters' Compression Scheme for Unicode – bezeichnet) isch ä Methode zur platzsparende Schpiicherig, wo d Aaordnig vo dä verschiedene Alphabet i Blöck usnutzt (lueg au bi dä Weblinks).
- UTF-EBCDIC isch ä Unicode-Erwiiterig, wo ufem proprietäre EBCDIC-Format vo IBM-Großrechner ufbout.
- Punycode dient dezue, Domainnäme mit nit-ASCII-Zeiche z'kodiere. Lueg au under: IDNA.
- Usserdem gits no d Format CESU-8 und GB18030.
Normierigs-Inschtituzione
[ändere | Quälltäxt bearbeite]S'gmeinnützige Unicode Consortium isch 1991 gründet worde und isch für dä Industriistandard Unicode verantwortlich. Vo dä ISO (International Organization for Standardization) wird diä internationali Norm ISO 10646 usägee. Beidi Inschtituzione schaffed eng zäme. Sit 1993 sind Unicode und ISO 10646 bezüglich dä Zeichekodierig identisch. Während ISO 10646 nume diä eigentlichi Zeichekodierig feschtleit, ghört zum Unicode es umfassends Regelwerch, wo u. a. für alli Zeiche witeri Eigenschafte, wo für die konkrete Aawendig wichtig si (sogenannti Properties), eidütig feschleit wie Sortierreihefolg, Läserichtig und Regle für s'Kombiniere vo Zeiche.
Zur Zyt isch Unicode strenggnoo no ä Undermengi von ISO 10646: Während ISO 10646 Zeichecodes mit bis zu 31 Bit zuelaat, sind bi Unicode maximal 21 Bit erlaubt.
Kodierigskriterie
[ändere | Quälltäxt bearbeite]Andersch als anderi Norme gits bi Unicode d'Bsunderheit, dass Zeiche, won emal kodiert worde si, nie wider entfernt werded, zum d'Langläbigkeit vo digitale Date z'gwährleischte. Sött sich die Normierig vomene Zeiche nachträglich als Fähler erwiise, wird allefalls abgraate, das Zeich z verwende. Drum bruucht d'Uufnahm vomene Zeiche in Standard e üsserscht sorgfältigi Prüefig, wo sich au emal über Jahre hiizieh chann.
Im Unicode werded „abschtrakti Zeiche“ (engl.: characters) kodiert, nöd Glyphe. D Glyphe si die grafisch Darschtellig vo abschtrakte Zeiche, wo extrem underschiidlich usfalle chönd, bim latiinische Alphabet byschpilswiis in Fraktur, Antiqua, im Irischen und in Handschrifte. Für Glyphevariante, wo d'Normierig als sinnvoll und notwendig naagwise wird, sind vorsorglich 256 „Variation Selectors“ vorgseh, wo je noch Umstand am eigentliche Code aaghenkt werde chönnd.
Anderersits händ Schrifte, wo sowohl s'latiinische wie au s'griechische Alphabet enthalted, dopplet kodierti identischi Glyphe für die folgende mehrdütige Buechstabe: Α Β Ε Ζ Η Ι Κ Μ Ν Ο Ρ Τ Υ Χ. Vo vile Zeiche gits nöd nur Variante, wo dur d'Schriftart bedingt si, sondern au innerhalb vonere Schriftart meh oder minder notwendigi sprach-, schrift- oder kontextabhängigi Glyphevariante und Ligature, wo denn zur Darschtellig sogenannti Smartfonttechnike wie OpenType nötig sind, aber kei Unicode-Kodierig bruuched. Grundsätzlich werded kei Ligature und suschtigi zämegsetzti Zeiche kodiert, au wenn d'Gründ für die Politik nöd vo jedem verschtande werded. Nume zum Zweck vo der Kompatibilität mit elterä Zeichesätz sind Ligature und zämegsetzti Zeiche enthalte.
In Grenzfäll wird härt um d'Entscheidig grunge, öbs sich um Glyphevariante oder kodierigswürdigi Zeiche, d. h. underschiidlichi Graphem, handlet. Byschpilswiis sind nöd wenigi Fachlüüt der Meinig, s phönizische Alphabet chönni mer als Glyphevariante vom hebräische betrachte, wil dr gsamti Zeichevorrat vom Phönizische det eidütigi Entsprechige hät, und au wil die beide Schprache sehr äng verwandt sind. D Uffassig, es handli sich um es separats Zeichesyschtem, i der Unicode-Terminologii „script“, hät sich schliesslich duregsetzt. Andersch verhaltets sich bi CJK (Chinesisch, Japanisch und Koreanisch): Da händ sich im 20. Jahrhundert d'Forme vo vile gliichbedütende Schriftzeiche usenandentwicklet. Trotzdem teiled sich die sprachschpezifische Glyphe die gliiche Codes im Unicode. I der Praxis werded da wohl vor Allem sprachschpezifischi Schriftarte verwendet, und die zeichned sich scho dur ussergwöhnlichi Dateigrössene uus. Die einheitlichi Kodierig vo de CJK-Schriftzeiche (Han Unification) isch eini vo de wichtigschte und umfangriichschte Vorarbete für d Entwicklig vom Unicode gsii. Bsunders in Japan isch si durchus umschtritte.
Wo de Grundschtei für Unicode gleit worde isch, hät müesse berücksichtigt werde, dass scho e hufe underschiidlichi Kodierige i verbreitetem Iisatz gsii sind. Unicode-basierti Syschtem händ sölle herkömmlich kodierti Date mit gringem Ufwand handhabe chönne. Für das sind für die undere 256 Zeiche die wit verbreiteti ISO 8859-1-Kodierig (Latin1) biibhalte worde, genau gliich wie d'Kodierigsarte vo verschiidene nationale Norme, z. B. TIS 620 für Thailändisch (fascht identisch mit ISO 8859-11) oder ISCII für indischi Schrifte, wo i der urschprüngliche Reihefolg nume in höcheri Codeberiich verschobe worde sind.
Jedes Zeiche vo massgebliche aber veraltete Kodierige sind in Standard übernoo worde, au wenns de Massstäb nöd grecht wird, wo normalerwiis aagleit werded. Derbii handlets sich zumene grosse Teil um Zeiche, wo us zwei oder meh Zeiche zämegsetzt sind, wie Buechstabe mit diakritische Zeiche. Im übrige verfüegt au hüt no en grosse Teil vo der Software nöt über d'Möglichkeit, Zeiche mit Diakritika ordentlich zäme zsetze. Die exakti Feschtlegig vo äquivalente Kodierige isch Teil vom umfangriiche Regelwerch, wo zum Unicode ghört. Au wenn die hexadekadische Ziffere A bis F formal d'Kriterie für e gsonderti Kodierig erfülled, hät das müesse underbliibe, wil i dr Praxis dene ihri Funktion immer vo de Buechschtabe A bis F übernoo wird.
Vilne Unicode-Zeiche isch kei Glyphe zuegordnet. Au sie gelted als „characters“. Nebed de Stüürzeiche wie Ziilevorschuub (U 000A), Tabulator (U 0009) usw. sind elei 19 Zeiche explizit als Leerzeiche definiert, sogar senigi ohni Breiti. Die werded u. a. als Worttrenner bruucht für Sprache wie Thai oder Tibetisch, wo ohni Wortzwüscheruum gschriibe werded. Für bidirektionali Text, z. B. Arabisch und Lateinisch sind siibe Formatierigszeiche nötig.
Byschpiil: Combining Grapheme Joiner (CGJ)
[ändere | Quälltäxt bearbeite]De CGJ isch es unsichtbars Sonderzeiche, wo normalerwiis vo de Aawendigsprogramm völlig ignoriert wird (englisch: „default ignorable“). Er söll uusdrücklich nöd zur Kennzeichnig vo Glyphevariante o. Ä. verwendet werde. Sin Gebruuch isch wie folgt definiert:
I einzelne Schprache gits Digraphe und Trigraphe, wo grundsätzlich als eigeschtändigi Buechschtabe behandlet, d. h. gsonderet sortiert werded. Im Ungarische byspilswiis betrifft das: cs, dz, dzs, gy, ly, ny, sz, ty und zs. Zum Uusnahme vo dem bi Bedarf z'kennzeichne, isch de „Combining Grapheme Joiner“ CGJ (U 034F) iigfüehrt worde. De Name bedütet eigentli s Gegeteil, aber, au das ghört zum Standard, au d Näme vo kodierte Zeiche werded nie gänderet.
Träit en Buechschtabe mehreri Diakritika drüber oder drunder, werded die normalerwiis vertikal gschtaplet. Für Uusnahmefäll, wo zwei Diakritika nebedenand staa müend, gseht Unicode vor, dass en CGJ dezwüsche gschtellt wird. De Schriftentwickler dörf entscheide und d Erschiinigsform vo de Zeichefolg „Diakritikon1 CGJ Diakritikon2“ feschtlege, wo dänn mittels Schrifttechnik wie OpenType druf zueggriffe werde chan.
D Eigeschaft „default ignorable“, wo im Standard feschtgleit isch, qualifiziert de CGJ, i Sonderfäll au anderi fiini Underschiid z'markiere, wo suscht unnötig sind. So chan d'Dateverarbeitig vo dütsche Bibliotheke d Underscheidig vo Umlut und Trema (meischtens für fremdsprachigi Näme) erfordere. Da empfiehlt Unicode, vor s Trema (U 0308) de CGJ z schtelle, zum das als Umlut z kennzeichne. Di nachträglichi gsondert Kodierig vo de Umluut-Punkt, wo urschprünglich vo DIN vorgschlage worde isch, hett zunere chuum vertretbare Inkonsischtenz vo grosse Datemenge gfüehrt.
Iigabe-Methode
[ändere | Quälltäxt bearbeite]Will mer es Unicode-Zeiche (zum Byspil „⊕“) in HTML oder XML verwände, suecht mer das zerscht emal us dr entsprächende Tabelle (i dem Fall: Mathematischi Symbol). Det isch sini Zeichenummere hexadezimal aagee. Mit dere Zeichenummere erschtellt mer dänn e Zeiche-Entität durs Voraaschtelle vo „&#x“ und Aafüege vomene Semikolon, ebe „⊕“. Diä Zeichenummere cha i de Zeiche-Entität au dezimal, dänn aber ohni füehrends „x“, aagee werde, zum Byspil „⊕“ fürs gliiche Zeiche. D Text Encoding Initiative TEI hät Empfählige usgarbeitet, Unicode i XML-Dateie in ere liechter verschtändliche Form iizgee. Derbii handlets sich um en Satz vo benannte Zeiche (engl.: named entites), wo i s Stylesheet integriert wird. Allgemein üblichi benännti Zeiche sind z. B. d'Umlut wie „Ä“ statt „Ä" für Ä.
Im Vi Improved chan mer Unicode-Zeiche (Vorussetzig: Unicode-basierti Locale oder als Unicode, zum Byspil UTF-8, erchännti Datei) iigee, indem mer Strg V,U und dänn di hexadezimali Zeichenummere truckt, also zum Byspil Strg V,U,2,0,A,C fürs Euro-Zeiche. E alternatiivi Iingabemöglichkeit isch d'Benutzig vo de Digraph-Methode vom Vim.
In Emacs ab Version 21.4 cha mer Unicode-Zeiche iigee, indem mer META-x ucs-insert
und dänn di hexadezimali Zeichenummere iigit.
Under Windows (ab Windows 2000) cha i vile Programm de Code hexadezimal iigee werde. Mit nachfolgendem Alt-x, innerhalb vo MS Word 2003 aber Alt-c, wird s'Zeiche erzügt. Die Taschtekombination cha under Windows XP au benutzt werde, zum de Code vo vor em Cursor stehende Zeiche aaz'zeige.
Öb das entsprechendi Unicode-Zeiche au tatsächlich am Bildschirm erschiint, hangt dervo ab, öb die verwendeti Schriftart e Glyphe für das gwünschti Zeiche (also e Grafik für di gewünschti Zeichenummere) enthaltet. Oft, z. B. under Windows wird, falls di verwendeti Schrift es Zeiche nöd enthaltet, nach Möglichkeit es Zeiche us enere andere Schrift iigfüegt. I dere Typografie gilt so öppis als Fehler namens Zwiebelfisch. In Webbrowser hingäge isch das zwar hässlich aber überuus nützlich.
Schriftarte
[ändere | Quälltäxt bearbeite]Underdesse hät de Zeichesatz vo Unicode/ISO en Umfang erreicht, wo sich nümme vollschtändig in einere Schriftdatei underbringe laat. Postscript-CFF-, TrueType- und OpenType-Schriftdateie chönd maximal 65'536 Zeiche enthalte. So verschtaat's sich vo elei, dass Unicode/ISO-Konformität vo ere Schrift nöd bedüütet, dass de kompletti Zeichesatz enthalte sii mues, sondern lediglich, dass die enthalteni Zeicheuuswahl normgrächt kodiert isch. Normalerwys wird e Uuswahl troffe wo am Verwendigszweck oder Verbreitigsgebiet aagmesse isch. Die derzyt umfangrychschti Schrift – i zwei Dateie uufgteilt – isch Code 2000/Code 2001 vom James Kass. Ä Übersicht über vili koschteloosi und kommerzielli, umfangriichi und spezialisierti Unicode-Schrifte büütet Allan Wood.
Dialäkt: Bodeseealemannisch (Linzgau) |
Installiere vu Schriftarte
[ändere | Quälltäxt bearbeite]So kaa me d neetige Schrifte im Windows noochinstalliere:
- Unter Windows 98:
1. Am besten one vu de obe erwähnte Schriftarte rabladen und installiere, bzw. d TTF-Datei i de Ordner Fonts (normalerwiis C:\Windows\Fonts) inikopiere. 2. Unter "Start -> Einstellungen -> Systemsteuerung" findet me s Symbol "Software". Obe uf "Windows Setup" klicke und d "Sprachunterstützung" mit "Details..." erwiitere. 3. Office-CD iilege und bi "Benutzerdefinierter Installation" bloos di entsprechende Schriftarte uuswähle. 4. Windows-Internetupdate starte und d Sproochunterstützunge und Schrifte i de Rubrik 'nicht dringende Updates' aawähle und installiere. (bloos we me de Internet Explorer dezue nimmt)
- Unter Windows 2000:
I de Systemsteuerung findet sich e Symbol Ländereinstellungen. Im Feld Allgemein giit s eine Liste Spracheinstellungen fir s System. Doo mo me be alle Sproochfamilene wo aazoegt were sollde, e Häkle mache.
- Unter Windows XP:
I de Systemsteuerung findet sich e Symbol Regioons- und Sproochoptionen. Im Feld Sprachen moss bei Dateien für ostasiatische Sprachen installieren und/oder bei Dateien für Sprachen mit komplexen Schriftzeichen und Zeichen mit Rechts-nach-Links-Schreibung installieren e Häkle gsetzt were.
Dialäkt: Züritüütsch |
Versione vo Unicode
[ändere | Quälltäxt bearbeite]I dä letschte Jahre sind neui Versione jewiils im Früehjahr erschine, wobii i dä letschte Zyt jährlich um diä 1'000 Zeiche neu uufgnoo werded.
- DP 10646 1989 (Vorschlaag für dä Entwurf vo ISO 10646, unabhängig vo Unicode)
- DIS-1 10646 1990 (Erschte Entwurf für ISO 10646, unabhängig vo Unicode)
- Unicode 1.0.0 Oktober 1991
- Unicode 1.0.1 Juni 1992 (Modifikatione zum ä Zämefüehrig mit ISO 10646 z'ermögliche)
- Unicode 1.1.0 Juni 1993 (Unicode und ISO-Norm erschtmals vereiniget: Codes idäntisch zu ISO 10646-1: 1993)
- Unicode 1.1.5 Juli 1995
- Unicode 2.0.0 Juli 1996 (Abgliich mit ISO 10646 Erwiiterige)
- Unicode 2.1.2 Mai 1998 (unter anderem Iifüehrig vom Eurozeiche)
- Unicode 2.1.5 August 1998
- Unicode 2.1.8 Dezember 1998
- Unicode 2.1.9 April 1999
- Unicode 3.0.0 September 1999 (Abgliich mit ISO 10646-1: 2000)
- Unicode 3.0.1 August 2000
- Unicode 3.1.0 März 2001 (Abgliich mit ISO 10646-2: 2001)
- Unicode 3.1.1 August 2001
- Unicode 3.2.0 März 2002
- Unicode 4.0.0 April 2003 (Abgliich mit ISO 10646: 2003)
- Unicode 4.0.1 März 2004
- Unicode 4.1.0 März 2005
- Unicode 5.0.0 geplant für März 2006
Software
[ändere | Quälltäxt bearbeite]S'freye Programm „gucharmap“ (für Linux/UNIX) stellt dä Unicode-Zeichesatz uf em Bildschirm dar und büütet zuesätzlichi Informatione zu dä einzelne Zeiche. Microsoft Windows liferet entschprechend "charmap.exe" (Zeichetabelle) mit. Under Apple Mac OS X stellt dä Finder ebefalls ä Zeichepalette zur Verfüegig.
Literatur
[ändere | Quälltäxt bearbeite]- Joan Aliprand u. a. (Hrsg.): The Unicode Standard Version 4.0, Addison Wesley, Boston, Mass. 2003, ISBN 0-321-18578-1
Weblink
[ändere | Quälltäxt bearbeite]- www.unicode.org – die offizielli Website vom Unicode Consortium (Englisch)
- Decode Unicode Projekt - Erchlärige zu 1'400 Unicodezeiche i eim Wiki, dezue 50'000 Glyphe (Deutsch/Englisch)
- UTF-8- und Unicode-FAQ für Unix/Linux (Markus Kuhn, Englisch)
- S'Unicode-Syschtem - Beschriibig im HTML-Kompendium SELFHTML
- Microsoft Word und Unicode-Underschtützig, (bezieht sich uf alti Versione, i aktuelle Versione sind kei Problem bekannt)
- Lischte und Aazeig vo dä Codes nach Kategorie
- Lischte und Aazeig vo dä Codes nach Position
- Benützig vo Unicode bim Programmiere (C/C )
Standards:
- RFC 3629 (UTF-8, a transformation format of ISO 10646)
- RFC 3492 (Punycode, für Sonderzeiche in Domainname)
Dä Artikel basiert uff ere fräie Übersetzig vum Artikel „Unicode“ vu de dütsche Wikipedia. E Liste vu de Autore un Versione isch do z finde. |