


Faite une recherche
par mot clé sur cette page
Faite une recherche
par mot clé
sur toutes les pages de mon site

Introduction
ISO8859-1
ASCII
Unicode
UT-8

Introduction
L'ASCII définit 128 caractères, codés en binaire de 0000000 à 1111111. 7 bits suffisent donc à représenter un caractère ASCII. Toutefois, les ordinateurs travaillant sur des octets de 8 bits, chaque caractère d'un texte en ASCII est stocké dans un octet dont le 8e bit est 0.
Les caractères de 0 à 31 ainsi que le 127 ne sont pas affichables, et correspondent à des directives de terminal. Le caractère 32 est l'espace blanc. Les autres correspondent aux chiffres, aux lettres majuscules et minuscules et à quelques symboles de ponctuation.
Beaucoup de pages de codes étendent l'ASCII en utilisant le 8e bit pour définir des caractères numérotés de 128 à 255. La norme ISO 8859 fournit des extensions pour diverses langues. Par exemple, l'ISO 8859-1, appelée aussi Latin-1, étend l'ASCII avec les caractères accentués utiles aux langues d'Europe occidentale comme le français.
Afin d'unifier les différents codages de caractères complétant l'ASCII et y intégrer les codages complètement différents (le JIS pour le japonais par exemple), d'autres normes ont été créées : l'Unicode et l'ISO 10646. Le codage UTF-8 de l'Unicode est une extension d'ASCII utilisant le 8e bit.
| A quoi sert-elle ? | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Les normes ISO servent à codifier les caractères avec
accents ou symboles pour qu'ils soient lisibles partout dans le monde.
Si nous ne le faisons pas il est probable qu'ils apparaissent avec des symboles illisibles
pour quelqu'un qui voudrait les consulter dans un pays n'utilisant pas notre
norme.
La norme internationale comprend les caractères suivants, qui sont lus par tous les ordinateurs : !"#$%&'()*+,-./
Tous les autres doivent être codifiés.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Iso8859-1 | ||||||
| A quoi sert-elle ? |
| Character # (Decimal) | Character # (Hex) | Character Reference | Entity Name | Entity Reference | Description | ISO Standard |
| Latin Extended-B | ||||||
| 402 | 0192 | ƒ | fnof | ƒ | latin small f with hook=function, =florin, | ISOtech |
| Greek | ||||||
| 913 | 0391 | Α | Alpha | Α | greek capital letter alpha | |
| 914 | 0392 | Β | Beta | Β | greek capital letter beta | |
| 915 | 0393 | Γ | Gamma | Γ | greek capital letter gamma | ISOgrk3 |
| 916 | 0394 | Δ | Delta | Δ | greek capital letter delta | ISOgrk3 |
| 917 | 0395 | Ε | Epsilon | Ε | greek capital letter epsilon | |
| 918 | 0396 | Ζ | Zeta | Ζ | greek capital letter zeta | |
| 919 | 0397 | Η | Eta | Η | greek capital letter eta | |
| 920 | 0398 | Θ | Theta | Θ | greek capital letter theta | ISOgrk3 |
| 921 | 0399 | Ι | Iota | Ι | greek capital letter iota | |
| 922 | 039A | Κ | Kappa | Κ | greek capital letter kappa | |
| 923 | 039B | Λ | Lambda | Λ | greek capital letter lambda | ISOgrk3 |
| 924 | 039C | Μ | Mu | Μ | greek capital letter mu | |
| 925 | 039D | Ν | Nu | Ν | greek capital letter nu | |
| 926 | 039E | Ξ | Xi | Ξ | greek capital letter xi | ISOgrk3 |
| 927 | 039F | Ο | Omicron | Ο | greek capital letter omicron | |
| 928 | 03A0 | Π | Pi | Π | greek capital letter pi | ISOgrk3 |
| 929 | 03A1 | Ρ | Rho | Ρ | greek capital letter rho | |
| 931 | 03A3 | Σ | Sigma | Σ | greek capital letter sigma | ISOgrk3 |
| 932 | 03A4 | Τ | Tau | Τ | greek capital letter tau | |
| 933 | 03A5 | Υ | Upsilon | Υ | greek capital letter upsilon | ISOgrk3 |
| 934 | 03A6 | Φ | Phi | Φ | greek capital letter phi | ISOgrk3 |
| 935 | 03A7 | Χ | Chi | Χ | greek capital letter chi | |
| 936 | 03A8 | Ψ | Psi | Ψ | greek capital letter psi | ISOgrk3 |
| 937 | 03A9 | Ω | Omega | Ω | greek capital letter omega | ISOgrk3 |
| 945 | 03B1 | α | alpha | α | greek small letter alpha | ISOgrk3 |
| 946 | 03B2 | β | beta | β | greek small letter beta | ISOgrk3 |
| 947 | 03B3 | γ | gamma | γ | greek small letter gamma | ISOgrk3 |
| 948 | 03B4 | δ | delta | δ | greek small letter delta | ISOgrk3 |
| 949 | 03B5 | ε | epsilon | ε | greek small letter epsilon | ISOgrk3 |
| 950 | 03B6 | ζ | zeta | ζ | greek small letter zeta | ISOgrk3 |
| 951 | 03B7 | η | eta | η | greek small letter eta | ISOgrk3 |
| 952 | 03B8 | θ | theta | θ | greek small letter theta | ISOgrk3 |
| 953 | 03B9 | ι | iota | ι | greek small letter iota | ISOgrk3 |
| 954 | 03BA | κ | kappa | κ | greek small letter kappa | ISOgrk3 |
| 955 | 03BB | λ | lambda | λ | greek small letter lambda | ISOgrk3 |
| 956 | 03BC | μ | mu | μ | greek small letter mu | ISOgrk3 |
| 957 | 03BD | ν | nu | ν | greek small letter nu | ISOgrk3 |
| 958 | 03BE | ξ | xi | ξ | greek small letter xi | ISOgrk3 |
| 959 | 03BF | ο | omicron | ο | greek small letter omicron | NEW |
| 960 | 03C0 | π | pi | π | greek small letter pi | ISOgrk3 |
| 961 | 03C1 | ρ | rho | ρ | greek small letter rho | ISOgrk3 |
| 962 | 03C2 | ς | sigmaf | ς | greek small letter final sigma | ISOgrk3 |
| 963 | 03C3 | σ | sigma | σ | greek small letter sigma | ISOgrk3 |
| 964 | 03C4 | τ | tau | τ | greek small letter tau | ISOgrk3 |
| 965 | 03C5 | υ | upsilon | υ | greek small letter upsilon | ISOgrk3 |
| 966 | 03C6 | φ | phi | φ | greek small letter phi | ISOgrk3 |
| 967 | 03C7 | χ | chi | χ | greek small letter chi | ISOgrk3 |
| 968 | 03C8 | ψ | psi | ψ | greek small letter psi | ISOgrk3 |
| 969 | 03C9 | ω | omega | ω | greek small letter omega | ISOgrk3 |
| 977 | 03D1 | ϑ | thetasym | ϑ | greek small letter theta symbol | NEW |
| 978 | 03D2 | ϒ | upsih | ϒ | greek upsilon with hook symbol | NEW |
| 982 | 03D6 | ϖ | piv | ϖ | greek pi symbol | ISOgrk3 |
| General Punctuation | ||||||
| 8226 | 2022 | • | bull | • | bullet=black small circle, | ISOpub |
| 8230 | 2026 | … | hellip | … | horizontal ellipsis=three dot leader, | ISOpub |
| 8242 | 2032 | ′ | prime | ′ | prime=minutes, =feet, | ISOtech |
| 8243 | 2033 | ″ | Prime | ″ | double prime=seconds, =inches, | ISOtech |
| 8254 | 203E | ‾ | oline | ‾ | overline=spacing overscore, | NEW |
| 8260 | 2044 | ⁄ | frasl | ⁄ | fraction slash | NEW |
| Letterlike Symbols | ||||||
| 8472 | 2118 | ℘ | weierp | ℘ | script capital P=power set, =Weierstrass p, | ISOamso |
| 8465 | 2111 | ℑ | image | ℑ | blackletter capital I=imaginary part, | ISOamso |
| 8476 | 211C | ℜ | real | ℜ | blackletter capital R=real part symbol, | ISOamso |
| 8482 | 2122 | ™ | trade | ™ | trade mark sign | ISOnum |
| 8501 | 2135 | ℵ | alefsym | ℵ | alef symbol=first transfinite cardinal, | NEW |
| Arrows | ||||||
| 8592 | 2190 | ← | larr | ← | leftwards arrow | ISOnum |
| 8593 | 2191 | ↑ | uarr | ↑ | upwards arrow | ISOnum |
| 8594 | 2192 | → | rarr | → | rightwards arrow | ISOnum |
| 8595 | 2193 | ↓ | darr | ↓ | downwards arrow | ISOnum |
| 8596 | 2194 | ↔ | harr | ↔ | left right arrow | ISOamsa |
| 8629 | 21B5 | ↵ | crarr | ↵ | downwards arrow with corner leftwards=carriage return, | NEW |
| 8656 | 21D0 | ⇐ | lArr | ⇐ | leftwards double arrow | ISOtech |
| 8657 | 21D1 | ⇑ | uArr | ⇑ | upwards double arrow | ISOamsa |
| 8658 | 21D2 | ⇒ | rArr | ⇒ | rightwards double arrow | ISOtech |
| 8659 | 21D3 | ⇓ | dArr | ⇓ | downwards double arrow | ISOamsa |
| 8660 | 21D4 | ⇔ | hArr | ⇔ | left right double arrow | ISOamsa |
| Mathematical Operators | ||||||
| 8704 | 2200 | ∀ | forall | ∀ | for all | ISOtech |
| 8706 | 2202 | ∂ | part | ∂ | partial differential | ISOtech |
| 8707 | 2203 | ∃ | exist | ∃ | there exists | ISOtech |
| 8709 | 2205 | ∅ | empty | ∅ | empty set=null set, =diameter, | ISOamso |
| 8711 | 2207 | ∇ | nabla | ∇ | nabla=backward difference, | ISOtech |
| 8712 | 2208 | ∈ | isin | ∈ | element of | ISOtech |
| 8713 | 2209 | ∉ | notin | ∉ | not an element of | ISOtech |
| 8715 | 220B | ∋ | ni | ∋ | contains as member | ISOtech |
| 8719 | 220F | ∏ | prod | ∏ | n-ary product=product sign, | ISOamsb |
| 8721 | 2211 | ∑ | sum | ∑ | n-ary sumation | ISOamsb |
| 8722 | 2212 | − | minus | − | minus sign | ISOtech |
| 8727 | 2217 | ∗ | lowast | ∗ | asterisk operator | ISOtech |
| 8730 | 221A | √ | radic | √ | square root=radical sign, | ISOtech |
| 8733 | 221D | ∝ | prop | ∝ | proportional to | ISOtech |
| 8734 | 221E | ∞ | infin | ∞ | infinity | ISOtech |
| 8736 | 2220 | ∠ | ang | ∠ | angle | ISOamso |
| 8869 | 2227 | ⊥ | and | ∧ | logical and=wedge, | ISOtech |
| 8870 | 2228 | ⊦ | or | ∨ | logical or=vee, | ISOtech |
| 8745 | 2229 | ∩ | cap | ∩ | intersection=cap, | ISOtech |
| 8746 | 222A | ∪ | cup | ∪ | union=cup, | ISOtech |
| 8747 | 222B | ∫ | int | ∫ | integral | ISOtech |
| 8756 | 2234 | ∴ | there4 | ∴ | therefore | ISOtech |
| 8764 | 223C | ∼ | sim | ∼ | tilde operator=varies with, =similar to, | ISOtech |
| 8773 | 2245 | ≅ | cong | ≅ | approximately equal to | ISOtech |
| 8776 | 2248 | ≈ | asymp | ≈ | almost equal to=asymptotic to, | ISOamsr |
| 8800 | 2260 | ≠ | ne | ≠ | not equal to | ISOtech |
| 8801 | 2261 | ≡ | equiv | ≡ | identical to | ISOtech |
| 8804 | 2264 | ≤ | le | ≤ | less-than or equal to | ISOtech |
| 8805 | 2265 | ≥ | ge | ≥ | greater-than or equal to | ISOtech |
| 8834 | 2282 | ⊂ | sub | ⊂ | subset of | ISOtech |
| 8835 | 2283 | ⊃ | sup | ⊃ | superset of | ISOtech |
| 8836 | 2284 | ⊄ | nsub | ⊄ | not a subset of | ISOamsn |
| 8838 | 2286 | ⊆ | sube | ⊆ | subset of or equal to | ISOtech |
| 8839 | 2287 | ⊇ | supe | ⊇ | superset of or equal to | ISOtech |
| 8853 | 2295 | ⊕ | oplus | ⊕ | circled plus=direct sum, | ISOamsb |
| 8855 | 2297 | ⊗ | otimes | ⊗ | circled times=vector product, | ISOamsb |
| 8869 | 22A5 | ⊥ | perp | ⊥ | up tack=orthogonal to, =perpendicular, | ISOtech |
| 8901 | 22C5 | ⋅ | sdot | ⋅ | dot operator | ISOamsb |
| Miscellaneous Technical | ||||||
| 8968 | 2308 | ⌈ | lceil | ⌈ | left ceiling=apl upstile, | , ISOamsc |
| 8969 | 2309 | ⌉ | rceil | ⌉ | right ceiling | , ISOamsc |
| 8970 | 230A | ⌊ | lfloor | ⌊ | left floor=apl downstile, | , ISOamsc |
| 8971 | 230B | ⌋ | rfloor | ⌋ | right floor | , ISOamsc |
| 9001 | 2329 | 〈 | lang | 〈 | left-pointing angle bracket=bra, | ISOtech |
| 9002 | 232A | 〉 | rang | 〉 | right-pointing angle bracket=ket, | ISOtech |
| Geometric Shapes | ||||||
| 9674 | 25CA | ◊ | loz | ◊ | lozenge | ISOpub |
| Miscellaneous Symbols | ||||||
| 9824 | 2660 | ♠ | spades | ♠ | black spade suit | ISOpub |
| 9827 | 2663 | ♣ | clubs | ♣ | black club suit=shamrock, | ISOpub |
| 9829 | 2665 | ♥ | hearts | ♥ | black heart suit=valentine, | ISOpub |
| 9830 | 2666 | ♦ | diams | ♦ | black diamond suit | ISOpub |
Unicode et UT-8 : Extrait du site Web :
sebsauvage.net
Le code UNICODE permet de représenter tous les caractères spéficiques aux
différentes langues. De nouveaux codes sont régulièrement attribués pour de
nouveaux caractères: caractères latins (accentués ou non), grecs, cyrillics,
arméniens, hébreux, thaï, hiragana, katakana...L'Unicode définie donc un
correspondance entre symboles et nombres.
(Le symbole "Ő" sera représent
par le nombre 213).
Vous pourrez trouver plus d'informations sur l'UNICODE sur http://www.unicode.org.
Même si l'UNICODE est bien conçu, il reste assez peu utilisé par rapport à l'ASCII. (Ne vous amusez pas à envoyer un message en UNICODE à quelqu'un : il ne saurait probablement pas comment le lire !). Pour les programmeurs, ça n'est pas toujours très facile à manipuler non plus.
Ce standard se développe de plus en plus. Les langages Java,
.Net (C#) et Python supportent déjà nativement l'UNICODE. La
plupart des systèmes d'exploitation (Windows, Linux, MacOS X...) supportent déjà
l'Unicode.
Bon. Unicode, dans la théorie, c'est très bien.
Mais dans la pratique, c'est une autre paire de manches:
Généralement en
Unicode, un caractères prend 2 octets. Autrement dit, le moindre texte
prend deux fois plus de place qu'en ASCII. C'est du gaspillage.
De plus, si on prend un texte en français, la grande majorité des caractères utilisent seulement le code ASCII. Seuls quelques rares caractères nécessitent l'Unicode.
On a donc trouvé une astuce: l'UTF-8.
Un texte en UTF-8 est simple: il est partout en ASCII, et dès qu'on a besoin d'un caractère appartenant à l'Unicode, on utilise un caractère spécial signalant "attention, le caractère suivant est en Unicode".
Par exemple, pour le texte "Bienvenue chez Sébastien !", seul le
"é" ne fait pas partie du code ASCII. On écrit donc en UTF-8:
Pour être rigoureux, on indique quand même au début du fichier que c'est un fichier en UTF-8 à l'aide de caractères spéciaux:
Et voilà !
L'UTF-8 rassemble le meilleur de deux mondes: l'efficacité de l'ASCII et l'étendue de l'Unicode. D'ailleurs l'UTF-8 a été adopté comme norme pour l'encodage des fichiers XML. La plupart des navigateurs récents supportent également l'UTF-8 et le détectent automatiquement dans les pages HTML.
Si vous mettez directement le caractère "é" dans une page web, ce n'est pas bien. ll faut obligatoirement choisir une des 3 solutions suivantes:
é à la place de "é".
é" tel quel et préciser le charset que
vous utilisez au début du fichier HTML (dans la balise <head>):
<meta http-equiv="Content-type" content="text/html;
charset=ISO-8859-1">
<meta http-equiv="Content-type"
content="text/html; charset=UTF-8">