Extrahieren Sie alle URLs mit wunderschöner Suppe und Python3

Extrahieren Sie alle URLs mit wunderschöner Suppe und Python3

Der folgende Link extrahiert alle URLs für eine bestimmte Webseite.

#!/usr/bin/env Python3 # Python Version: 3.4.2 # BS4 Version: 4.3.2-2 von Urllib.Anfrage import urlopen von bs4 import BeautifulSoup html importieren = urlopen ("http: // gnu.org ") # Legen Sie Ihre URL ein, um BSOBJ zu extrahieren = BeautifulSoup (HTML.lesen()); für Verknüpfung In BSOBJ.find_all ('a'): drucken(Verknüpfung.Get ('href'))

Speichern Sie das obige Skript in einer Datei zB. Extrakt-url.py und machen Sie es ausführbar:

$ chmod +x extract-url.py 

Führen Sie das Skript aus:

$ ./Extract-url.py 

Verwandte Linux -Tutorials:

  • So erstellen Sie eine Tkinter -Anwendung mithilfe eines objektorientierten…
  • Wie man mit der Woocommerce -REST -API mit Python arbeitet
  • So richten Sie einen OpenVPN -Server auf Ubuntu 20 ein.04
  • Laden Sie die Datei von der URL unter Linux mit der Befehlszeile herunter
  • Eine Einführung in Linux -Automatisierung, Tools und Techniken
  • Dinge zu installieren auf Ubuntu 20.04
  • So setzen Sie Standardprogramme mithilfe von Update-Alternativen auf…
  • So lesen und erstellen Sie CSV -Dateien mit Python
  • So kratzen Sie Webseiten aus der Befehlszeile mit HTMLQ ab
  • Wie man Nautilus-Erweiterungen mit Nautilus-Python schreibt