Obtener página web en Python

Manav Narula 30 enero 2023
  1. Use el paquete urllib para obtener una página web en Python
  2. Utilizar el paquete requests para obtener una página web en Python
Obtener página web en Python

En Python, podemos crear conexiones y leer datos de la web. Podemos descargar archivos a través de la web y leer páginas web completas.

Este tutorial muestra cómo obtener una página web en Python.

Use el paquete urllib para obtener una página web en Python

Este paquete se usa para obtener páginas web y manejar operaciones relacionadas con URL en Python. Podemos usar la función urllib.request.urlopen() para recuperar una página web usando su URL.

El módulo urllib.request abre la URL dada y devuelve un objeto. Este objeto tiene diferentes atributos como header, status, y más. Podemos leer la página web usando la función read() con este objeto. Nos devolverá el contenido completo de la página web.

Vea el siguiente ejemplo.

import urllib.request

page = urllib.request.urlopen("http://www.python.org")
print(page.read())

En los últimos tiempos, han surgido nuevas versiones del paquete urllib. Primero, tenemos el paquete urllib2, construido como una versión experimental de urllib con características más nuevas y mejoradas. También puede aceptar el objeto Requests del paquete requests. En el paquete urllib2 falta la función urlencode().

El paquete urllib3 también fue introducido y es un paquete de terceros, a diferencia de las dos versiones anteriores. El paquete requests del que hablamos a continuación utiliza internamente funcionalidades de este paquete.

Utilizar el paquete requests para obtener una página web en Python

La librería requests es sencilla de utilizar y proporciona muchas funcionalidades relacionadas con HTTP. Podemos utilizar la función requests.get() para obtener una página web y devolver un objeto Response.

Este objeto también posee varios atributos como status_code, content y más. Podemos usar el atributo content para devolver el contenido de la página web dada.

Por ejemplo,

import requests

response = requests.get("http://www.python.org")
print(response.status_code)
print(response.content)

La librería requests tiene como objetivo proporcionar una API simple de usar y tiene una forma más conveniente de manejar los errores. Además, decodifica automáticamente la respuesta recuperada en Unicode.

Manav Narula avatar Manav Narula avatar

Manav is a IT Professional who has a lot of experience as a core developer in many live projects. He is an avid learner who enjoys learning new things and sharing his findings whenever possible.

LinkedIn