Extraer dominio de URL en Python

Naila Saad Siddiqui 21 junio 2023 Python Python URL

Este artículo utilizará ejemplos prácticos para explicar la función urlparse() de Python para analizar y extraer el nombre de dominio de una URL. También hablaremos sobre cómo mejorar nuestra capacidad para resolver direcciones URL y usar sus diferentes componentes.

Utilice `urlparse()` para extraer el dominio de la URL

El método urlparse() es parte del módulo urllib de Python, útil cuando necesita dividir las URL en diferentes componentes y usarlos para varios propósitos. Veamos el ejemplo:

from urllib.parse import urlparse

component = urlparse("http://www.google.com/doodles/mothers-day-2021-april-07")
print(component)

En este fragmento de código, primero hemos incluido los archivos de la biblioteca del módulo urllib. Luego pasamos una URL a la función urlparse. El valor de retorno de esta función es un objeto que actúa como una matriz que tiene seis elementos que se enumeran a continuación:

esquema - Especifique el protocolo que podemos usar para obtener los recursos en línea, por ejemplo, HTTP/HTTPS.
netloc - net significa red y loc significa ubicación; por lo que significa la ubicación de la red de URL.
ruta: una ruta específica que utiliza un navegador web para acceder a los recursos proporcionados.
params - Estos son los parámetros de los elementos path.
consulta: se adhiere al componente ruta y al flujo de datos que un recurso puede usar.
fragmento - Clasifica la pieza.

Cuando mostramos este objeto usando la función de impresión, imprimirá el valor de sus componentes. La salida de la valla de código anterior será la siguiente:

ParseResult(scheme='http', netloc='www.google.com', path='/doodles/mothers-day-2021-april-07', params='', query='', fragment='')

Puede ver en el resultado que todos los componentes de URL están separados y almacenados como elementos individuales en el objeto. Podemos obtener el valor de cualquier componente usando su nombre así:

from urllib.parse import urlparse

domain_name = urlparse("http://www.google.com/doodles/mothers-day-2021-april-07").netloc
print(domain_name)

Usando el componente netloc, podemos obtener el nombre de dominio de la URL de la siguiente manera:

www.google.com

De esta manera, podemos analizar nuestra URL y usar sus diferentes componentes para varios propósitos en nuestra programación.

¿Disfrutas de nuestros tutoriales? Suscríbete a DelftStack en YouTube para apoyarnos en la creación de más guías en vídeo de alta calidad. Suscríbete

Utilice urlparse() para extraer el dominio de la URL

Artículo relacionado - Python URL

Utilice `urlparse()` para extraer el dominio de la URL