Extraer dominio de URL en Python

Naila Saad Siddiqui 21 junio 2023
Extraer dominio de URL en Python

Este artículo utilizará ejemplos prácticos para explicar la función urlparse() de Python para analizar y extraer el nombre de dominio de una URL. También hablaremos sobre cómo mejorar nuestra capacidad para resolver direcciones URL y usar sus diferentes componentes.

Utilice urlparse() para extraer el dominio de la URL

El método urlparse() es parte del módulo urllib de Python, útil cuando necesita dividir las URL en diferentes componentes y usarlos para varios propósitos. Veamos el ejemplo:

from urllib.parse import urlparse

component = urlparse("http://www.google.com/doodles/mothers-day-2021-april-07")
print(component)

En este fragmento de código, primero hemos incluido los archivos de la biblioteca del módulo urllib. Luego pasamos una URL a la función urlparse. El valor de retorno de esta función es un objeto que actúa como una matriz que tiene seis elementos que se enumeran a continuación:

  • esquema - Especifique el protocolo que podemos usar para obtener los recursos en línea, por ejemplo, HTTP/HTTPS.
  • netloc - net significa red y loc significa ubicación; por lo que significa la ubicación de la red de URL.
  • ruta: una ruta específica que utiliza un navegador web para acceder a los recursos proporcionados.
  • params - Estos son los parámetros de los elementos path.
  • consulta: se adhiere al componente ruta y al flujo de datos que un recurso puede usar.
  • fragmento - Clasifica la pieza.

Cuando mostramos este objeto usando la función de impresión, imprimirá el valor de sus componentes. La salida de la valla de código anterior será la siguiente:

ParseResult(scheme='http', netloc='www.google.com', path='/doodles/mothers-day-2021-april-07', params='', query='', fragment='')

Puede ver en el resultado que todos los componentes de URL están separados y almacenados como elementos individuales en el objeto. Podemos obtener el valor de cualquier componente usando su nombre así:

from urllib.parse import urlparse

domain_name = urlparse("http://www.google.com/doodles/mothers-day-2021-april-07").netloc
print(domain_name)

Usando el componente netloc, podemos obtener el nombre de dominio de la URL de la siguiente manera:

www.google.com

De esta manera, podemos analizar nuestra URL y usar sus diferentes componentes para varios propósitos en nuestra programación.

Artículo relacionado - Python URL