UTF-8

Está definido como estándar por la de la Internet Engineering Task Force (IETF).

[1] UTF-8 divide los caracteres Unicode en varios grupos, en función del número de bytes necesarios para codificarlos.

Siguiendo el esquema anterior, sería posible incrementar el tamaño máximo del símbolo de 4 a 6 bytes.

Las normas de codificación establecen, por lo tanto, límites a las cadenas que se pueden formar.

Un intérprete de cadenas UTF-8 puede cancelar el proceso señalando un error, omitir los caracteres mal formados o reemplazarlos por un carácter U+FFFD (REPLACEMENT CHARACTER).

Cuando este carácter se encuentra en otro lugar de la cadena debe ser interpretado con su significado original Unicode (ZWNBSP).

Las siguientes normas de codificación presentan diferencias con la especificación UTF-8 y son, por lo tanto, incompatibles con ella.