Domäne aus URL in Python extrahieren

Naila Saad Siddiqui 21 Juni 2023
Domäne aus URL in Python extrahieren

Dieser Artikel erklärt anhand von praktischen Beispielen die Python-Funktion urlparse() zum Parsen und Extrahieren des Domainnamens aus einer URL. Wir besprechen auch die Verbesserung unserer Fähigkeit, URLs aufzulösen und ihre verschiedenen Komponenten zu verwenden.

Verwenden Sie urlparse(), um die Domain aus der URL zu extrahieren

Die Methode urlparse() ist Teil des urllib-Moduls von Python und nützlich, wenn Sie die URLs in verschiedene Komponenten aufteilen und für verschiedene Zwecke verwenden müssen. Schauen wir uns das Beispiel an:

from urllib.parse import urlparse

component = urlparse("http://www.google.com/doodles/mothers-day-2021-april-07")
print(component)

In diesem Codeschnipsel haben wir zunächst die Bibliotheksdateien aus dem Modul urllib eingebunden. Dann haben wir eine URL an die Funktion urlparse übergeben. Der Rückgabewert dieser Funktion ist ein Objekt, das sich wie ein Array mit sechs Elementen verhält, die unten aufgeführt sind:

  • Schema – Geben Sie das Protokoll an, das wir verwenden können, um die Online-Ressourcen abzurufen, zum Beispiel HTTP/HTTPS.
  • netloc - net bedeutet Netzwerk und loc bedeutet Standort; es bedeutet also den Netzwerkstandort der URLs.
  • Pfad – Ein bestimmter Pfad, den ein Webbrowser verwendet, um auf die bereitgestellten Ressourcen zuzugreifen.
  • params – Dies sind die Parameter der path-Elemente.
  • query – hält sich an die path-Komponente und den Datenstrom, den eine Ressource verwenden kann.
  • fragment - Es klassifiziert den Teil.

Wenn wir dieses Objekt mit der Druckfunktion anzeigen, druckt es den Wert seiner Komponenten. Die Ausgabe des obigen Codezauns sieht wie folgt aus:

ParseResult(scheme='http', netloc='www.google.com', path='/doodles/mothers-day-2021-april-07', params='', query='', fragment='')

Sie können der Ausgabe entnehmen, dass alle URL-Komponenten getrennt und als einzelne Elemente im Objekt gespeichert sind. Wir können den Wert jeder Komponente erhalten, indem wir ihren Namen wie folgt verwenden:

from urllib.parse import urlparse

domain_name = urlparse("http://www.google.com/doodles/mothers-day-2021-april-07").netloc
print(domain_name)

Mit der Komponente netloc können wir den Domainnamen der URL wie folgt erhalten:

www.google.com

Auf diese Weise können wir unsere URL analysieren lassen und ihre verschiedenen Komponenten für verschiedene Zwecke in unserer Programmierung verwenden.

Verwandter Artikel - Python URL