Codificar UTF8 en Python

Fariba Laiq 18 agosto 2022
Codificar UTF8 en Python

UTF significa Formato de transformación Unicode. Es un sistema de codificación de ancho variable que codifica todos los caracteres cubiertos por Unicode en una cadena binaria de uno a cuatro bytes.

Permite la representación de caracteres internacionales como el chino. También es retrocompatible con ASCII.

UTF-8 se usa principalmente para codificar correo electrónico y páginas web.

Use encode() para codificar una cadena en UTF-8 en Python

En Python, si queremos codificar una cadena en UTF-8, usaremos el método encode(). Es un método integrado que devuelve la versión codificada de una cadena.

De forma predeterminada, no toma ningún argumento y convierte la cadena a UTF-8. Sin embargo, puede aceptar dos parámetros opcionales, encoding y errors.

La codificación se refiere a la técnica de codificación utilizada, y los errores representan la respuesta en caso de falla de codificación. La respuesta predeterminada es “estricta”, que genera una excepción UnicodeDecodeError en caso de falla.

En el siguiente código, codificamos la palabra Naïve, que contiene un carácter especial ï. El método encode() convierte todo el texto a la versión UTF-8.

Código de ejemplo:

string = "Naïve"
print("String before encoding:", string)
print("String after encoding:", string.encode())

Producción :

String before encoding: Naïve
String after encoding: b'Na\xc3\xafve'
Fariba Laiq avatar Fariba Laiq avatar

I am Fariba Laiq from Pakistan. An android app developer, technical content writer, and coding instructor. Writing has always been one of my passions. I love to learn, implement and convey my knowledge to others.

LinkedIn