Extrahieren Sie alle URLs mit wunderschöner Suppe und Python3
- 4300
- 1352
- Aileen Dylus
Der folgende Link extrahiert alle URLs für eine bestimmte Webseite.
#!/usr/bin/env Python3 # Python Version: 3.4.2 # BS4 Version: 4.3.2-2 von Urllib.Anfrage import urlopen von bs4 import BeautifulSoup html importieren = urlopen ("http: // gnu.org ") # Legen Sie Ihre URL ein, um BSOBJ zu extrahieren = BeautifulSoup (HTML.lesen()); für Verknüpfung In BSOBJ.find_all ('a'): drucken(Verknüpfung.Get ('href'))
Speichern Sie das obige Skript in einer Datei zB. Extrakt-url.py
und machen Sie es ausführbar:
$ chmod +x extract-url.py
Führen Sie das Skript aus:
$ ./Extract-url.py
Verwandte Linux -Tutorials:
- So erstellen Sie eine Tkinter -Anwendung mithilfe eines objektorientierten…
- Wie man mit der Woocommerce -REST -API mit Python arbeitet
- So richten Sie einen OpenVPN -Server auf Ubuntu 20 ein.04
- Laden Sie die Datei von der URL unter Linux mit der Befehlszeile herunter
- Eine Einführung in Linux -Automatisierung, Tools und Techniken
- Dinge zu installieren auf Ubuntu 20.04
- So setzen Sie Standardprogramme mithilfe von Update-Alternativen auf…
- So lesen und erstellen Sie CSV -Dateien mit Python
- So kratzen Sie Webseiten aus der Befehlszeile mit HTMLQ ab
- Wie man Nautilus-Erweiterungen mit Nautilus-Python schreibt
- « Installation des Amazon S3CMD -Befehlszeile S3 Tool unter Debian Linux
- Bash Shellshock Bug Linux -System -Schwachbarkeitstest »