Una explicación de la codificación de caracteres Unicode

Para que una computadora pueda almacenar texto y números que los humanos puedan comprender, debe existir un código que transforme los caracteres en números. El estándar Unicode define dicho código mediante la codificación de caracteres.

La razón por la que la codificación de caracteres es tan importante es que cada dispositivo puede mostrar la misma información. Un esquema de codificación de caracteres personalizado puede funcionar de manera brillante en una computadora, pero se producirán problemas si envía ese mismo texto a otra persona. No sabrá de qué está hablando a menos que también comprenda el esquema de codificación.

Codificación de caracteres

Todo lo que hace la codificación de caracteres es asignar un número a cada carácter que se pueda usar. Podrías hacer una codificación de caracteres ahora mismo.

Por ejemplo, podría decir que la carta UN se convierte en el número 13, a = 14, 1 = 33, # = 123, y así sucesivamente.

Aquí es donde entran en juego los estándares de toda la industria. Si toda la industria informática usa el mismo esquema de codificación de caracteres, cada computadora puede mostrar los mismos caracteres.

¿Qué es unicode??

ASCII (Código Estándar Americano para el Intercambio de Información) se convirtió en el primer esquema de codificación generalizado. Sin embargo, está limitado a solo 128 definiciones de caracteres. Esto está bien para los caracteres, números y signos de puntuación más comunes en inglés, pero es un poco limitante para el resto del mundo..

Naturalmente, el resto del mundo también quiere el mismo esquema de codificación para sus personajes. Sin embargo, por un tiempo, dependiendo de dónde se encuentre, es posible que se haya mostrado un carácter diferente para el mismo código ASCII.

Al final, las otras partes del mundo comenzaron a crear sus propios esquemas de codificación, y las cosas comenzaron a ser un poco confusas. Los esquemas de codificación no solo eran de diferentes longitudes, sino que los programas debían averiguar qué esquema de codificación debían usar.

Se hizo evidente que se necesitaba un nuevo esquema de codificación de caracteres, que es cuando se creó el estándar Unicode. El objetivo de Unicode es unificar todos los diferentes esquemas de codificación para que la confusión entre las computadoras se pueda limitar tanto como sea posible..

En estos días, el estándar Unicode define valores para más de 128,000 caracteres y se puede ver en el Consorcio Unicode. Tiene varias formas de codificación de caracteres:

  • UTF-8: Solo usa un byte (8 bits) para codificar caracteres en inglés. Puede usar una secuencia de bytes para codificar otros caracteres. UTF-8 es ampliamente utilizado en sistemas de correo electrónico y en Internet..
  • UTF-16: Utiliza dos bytes (16 bits) para codificar los caracteres más utilizados. Si es necesario, los caracteres adicionales se pueden representar mediante un par de números de 16 bits..
  • UTF-32: Utiliza cuatro bytes (32 bits) para codificar los caracteres. Se hizo evidente que a medida que crecía el estándar Unicode, un número de 16 bits es demasiado pequeño para representar a todos los caracteres. UTF-32 es capaz de representar cada carácter Unicode como un número.

Nota: UTF significa Unidad de Transformación Unicode.

Puntos de código

Un punto de código es el valor que se le da a un carácter en el estándar Unicode. Los valores según Unicode se escriben como números hexadecimales y tienen un prefijo de U+.

Por ejemplo, para codificar los caracteres que vimos anteriormente:

  • UN es U + 0041
  • un es U + 0061
  • 1 es U + 0031
  • # es U + 0023