June 2008
FAQ xHTML/CSS - Charset Iso-8859-1, iso-8859-15, utf-8, lequel choisir ?
Il faut tout d'abord distinguer deux «familles» d'encodage: les «locaux» et les «internationaux».
Les jeux de caractères locaux (dont font partie iso-8859-1 et iso-8859-15 -- parfois désignés comme «latin1» et «latin9») sont destiné à des documents dans un seul système d'écriture (une langue ou un groupe de langue utilisant un même alphabet ou syllabaire).
Au contraire les jeux de caractères internationaux (dont fait partie l'utf-8) sont destinés à encoder des document dans n'importe quel système d'écriture (et donc n'importe quelle langue).
FAQ xHTML/CSS - Comment diagnostiquer un problème d'encodage
Un problème d'encodage se manifeste par le fait qu'une partie ou la totalité des caractères spéciaux (accents, œ, », etc) d'un document ne sont pas affichés correctement(1). Si vous vous trouvez dans cette situation, nous allons voir comment déterminer la source et éventuellement la solution à votre problème.
Attention tout de même à ne pas confondre avec la situation où la police utilisée ne supporte pas les caractères affichés, tout le texte sera alors mal rendu (par exemple sur une page en japonais).
FAQ xHTML/CSS - Ma page/mon code source commence par  de quoi s'agit-il ?
Ce que vous voyez est appelé un BOM (pour Byte Order Mark ou, en français, Marque d'ordre des octets). On le trouve au début des fichiers enregistrés en unicode (UTF-8, UTF-16 ou UTF-32), il contient des renseignements sur le sens de lecture des données.
October 2006
ongoing · Characters vs. Bytes
by 2 others (via)
This is the first of a three-part essay on modern character string processing for computer programmers. Here I explain and illustrate the methods for storing Unicode characters in byte sequences in computers, and discuss their advantages and disadvantages. These methods have well-known names like UTF-8 and UTF-16.
1
(4 marks)