Aller au contenu

Normalisation Unicode

Un article de Wikipédia, l'encyclopédie libre.

La normalisation Unicode est une normalisation de texte qui transforme des caractères ou séquences de caractères équivalents en représentation fondamentale afin que celle-ci puisse être facilement comparée.

La décomposition canonique peut être utilisée dans l’échange normalisé de textes. Elle permet d’effectuer une comparaison binaire tout en conservant une équivalence canonique avec le texte non normalisé d’origine.

Les caractères sont décomposés par équivalence canonique et réordonnés.

Exemples NFD
chaîne caractères   caractères
normalisés
chaîne
normalisée
AU 0041 ◌̀U 0300 = AU 0041 ◌̀U 0300
ẹ́ eU 0065 ◌́U 0301 ◌̣U 0323 eU 0065 ◌̣U 0323 ◌́U 0301 ẹ́
ñ ñU 00F1 nU 006E ◌̃U 0303
(ohm) U 2126 ΩU 03A9 Ω (oméga)
fi (ligature) U FB01 = U FB01 fi (ligature)
² (exposant) ²U 00B2 = ²U 00B2 ² (exposant)
U D55C U 1112 U 1161 U 11AB 한
が U 304B ◌゙U 3099 = U 304B ◌゙U 3099 が
ئ ئU 0626 يU 064A ◌ٔU 0654 ئ
בּ U FB31 בU 05D1 ◌ּU 05BC בּ

Les caractères sont décomposés par équivalence canonique, réordonnés, et composés par équivalence canonique.

Exemples NFC
chaîne caractères   caractères
normalisés
chaîne
normalisée
AU 0041 ◌̀U 0300 ÀU 00C0 À
ẹ́ eU 0065 ◌́U 0301 ◌̣U 0323 U 1EB9 ◌́U 0301 ẹ́
ñ ñU 00F1 = ñU 00F1 ñ
(ohm) U 2126 ΩU 03A9 Ω (oméga)
fi (ligature) U FB01 = U FB01 fi (ligature)
² (exposant) ²U 00B2 = ²U 00B2 ² (exposant)
U D55C = U D55C
が U 304B ◌゙U 3099 U 304C
ئ ئU 0626 = ئU 0626 ئ
בּ U FB31 בU 05D1 ◌ּU 05BC בּ

Les caractères sont décomposés par équivalence canonique et de compatibilité, et sont réordonnés.

Exemples NFKD
chaîne caractères   caractères
normalisés
chaîne
normalisée
AU 0041 ◌̀U 0300 = AU 0041 ◌̀U 0300
ẹ́ eU 0065 ◌́U 0301 ◌̣U 0323 eU 0065 ◌̣U 0323 ◌́U 0301 ẹ́
ñ ñU 00F1 nU 006E ◌̃U 0303
(ohm) U 2126 ΩU 03A9 Ω (oméga)
fi (ligature) U FB01 fU 0066 iU 0069 fi
² (exposant) ²U 00B2 2U 0032 2
U D55C U 1112 U 1161 U 11AB 한
が U 304B ◌゙U 3099 = U 304B ◌゙U 3099 が
ئ ئU 0626 يU 064A ◌ٔU 0654 ئ
בּ U FB31 בU 05D1 ◌ּU 05BC בּ

Les caractères sont décomposés par équivalence canonique et de compatibilité, sont réordonnés et sont composés par équivalence canonique.

Exemples NFKC
chaîne caractères   caractères
normalisés
chaîne
normalisée
AU 0041 ◌̀U 0300 ÀU 00C0 À
ẹ́ eU 0065 ◌́U 0301 ◌̣U 0323 U 1EB9 ◌́U 0301 ẹ́
ñ ñU 00F1 = ñU 00F1 ñ
(ohm) U 2126 ΩU 03A9 Ω (oméga)
fi (ligature) U FB01 fU 0066 iU 0069 fi
² (exposant) ²U 00B2 2U 0032 2
U D55C = U D55C
が U 304B ◌゙U 3099 U 304C
ئ ئU 0626 = ئU 0626 ئ
בּ U FB31 בU 05D1 ◌ּU 05BC בּ

Articles connexes

[modifier | modifier le code]
  • Unicode
  • Équivalence Unicode
  • L’outil uconv (ICU) permet de normaliser du texte, par exemple « uconv -x '::nfkd;' » applique la normalisation NFKD.

Liens externes

[modifier | modifier le code]