Abrufen von Webseiten mit WGet, Curl und Lynx
- 4206
- 542
- Miriam Bauschke
Unabhängig davon Tools, mit denen Sie Webseiten in eine textbasierte Datei herunterladen können. Wenn Sie mehr darüber erfahren möchten, wie Sie die von Ihnen heruntergeladenen Seiten analysieren können, können Sie sich unsere Big Data -Manipulation für Spaß und Profit Teil 1 ansehen.
In diesem Tutorial lernen Sie:
- So abrufen/herunterladen Sie Webseiten mit WGet, Curl und Lynx
- Was die Hauptunterschiede zwischen den WGet-, Curl- und Luchs -Tools sind
- Beispiele, die zeigen, wie WGet, Curl und Lynx verwendet werden
Softwareanforderungen und Konventionen verwendet
Kategorie | Anforderungen, Konventionen oder Softwareversion verwendet |
---|---|
System | Linux-Verteilungsunabhängige |
Software | BASH -Befehlszeile, Linux -basiertes System |
Andere | Jedes Dienstprogramm, das standardmäßig nicht in der Bash -Shell enthalten ist sudo apt-Get Installieren Sie den Dienstprogramm (oder yum install Für Redhat -basierte Systeme) |
Konventionen | # - Erfordert, dass Linux -Commands mit Root -Berechtigungen entweder direkt als Stammbenutzer oder mithilfe von verwendet werden sudo Befehl$-erfordert, dass Linux-Commands als regulärer nicht privilegierter Benutzer ausgeführt werden |
Bevor wir beginnen, installieren Sie bitte die 3 Dienstprogramme mit dem folgenden Befehl (auf Ubuntu oder Mint) oder verwenden Sie yum install
anstatt APT -Installation
Wenn Sie eine Redhat -basierte Linux -Verteilung verwenden.
$ sudo apt-GET Installieren Sie WGet Curl Lynx
Wenn wir fertig sind, fangen wir an!
Beispiel 1: WGet
Verwendung wget
Um eine Seite abzurufen ist einfach und unkompliziert:
$ wget https: // linuxconfig.org/linux-complex-bash-one-liner-examples-2020-10-03 15: 30: 12-- https: // linuxconfig.org/linux-complex-bash-ein-Liner-Untersuchung auflösen Linuxconfig.org (LinuxConfig.org)… 2606: 4700: 20 :: 681a: 20d, 2606: 4700: 20 :: 681a: 30d, 2606: 4700: 20 :: AC43: 4B67,… Verbindung mit Linuxconfig herstellen.org (LinuxConfig.Org) | 2606: 4700: 20 :: 681a: 20d |: 443… verbunden. HTTP-Anforderung gesendet, auf Antwort warten… 200 OK Länge: nicht spezifiziert [Text/HTML] Speichern auf: 'Linux-Complex-Bash-One-Liner-Examples' Linux-Komplex-Bash-One-Liner-Examples [] 51.98K --.-Kb/s in 0.005S 2020-10-03 15:30:12 (9.90 mb/s)-'Linux-Komplex-Bash-One-Liner-Examples' gespeichert [53229] $
Hier haben wir einen Artikel heruntergeladen Linuxconfig.Org
in eine Datei, die standardmäßig den gleichen so genannt wird wie der Name in der URL.
Schauen wir uns den Dateiinhalt an
$ file linux-complex-bash-one-liner-examples linux-complex-bash-One-Liner-Examples: HTML-Dokument, ASCII-Text, mit sehr langen Zeilen, mit CRLF, CR, LF-Zeilen-Terminatoren $ Head -n5 Linux- Komplexe Bash-One-Liner-Beispiele
Großartig, Datei
(Das Dienstprogramm der Dateiklassifizierung) erkennt die heruntergeladene Datei als HTML und die an Kopf
bestätigt diese ersten 5 Zeilen (-N5
) Sehen Sie wie HTML -Code aus und sind textbasiert.
Beispiel 2: Locken
$ curl https: // linuxconfig.org/linux-komplex-bash-ein-Liner-Exampl 0-:-:---:-:--:-::-84466 $
Diesmal haben wir benutzt Locken
das Gleiche wie in unserem ersten Beispiel zu tun. Standardmäßig, Locken
wird ausgeben auf Standard (Stdout
) und zeigen Sie die HTML -Seite in Ihrem Terminal an! Somit leiten wir stattdessen um (verwenden >
) zur Datei Linux-Komplex-Bash-One-Liner-Beispiele
.
Wir bestätigen erneut den Inhalt:
$ file linux-complex-bash-one-liner-examples linux-complex-bash-One-Liner-Examples: HTML-Dokument, ASCII-Text, mit sehr langen Zeilen, mit CRLF, CR, LF-Zeilen-Terminatoren $ Head -n5 Linux- Komplexe Bash-One-Liner-Beispiele
Großartig, das gleiche Ergebnis!
Eine Herausforderung, wenn wir diese/diese Dateien weiter verarbeiten möchten, besteht darin, dass das Format HTML basiert. Wir könnten die Ausgabe durch Verwendung analysieren sed
oder awk
und einige semi-komplexe regelmäßige Ausdruck. Verwenden wir stattdessen ein Tool, das nativ aktiviert/programmiert wurde, um Seiten in das Textformat abzugeben.
Beispiel 3: Luchs
Lynx ist ein weiteres Tool, mit dem wir dieselbe Seite abrufen können. Im Gegensatz zu wget
Und Locken
, Luchs
soll ein vollständiger (textbasierter) Browser sein. Wenn wir also ausgeben von Luchs
, Die Ausgabe ist Text und nicht HTML, basiert. Wir können die verwenden Luchs -Dump
Befehl zur Ausgabe auf die auf die Webseite zugegriffene Webseite, anstatt einen vollständig interaktiven (testbasierten) Browser in Ihrem Linux-Client zu starten.
$ lynx -dump https: // linuxconfig.org/linux-complex-bash-ein-Liner-Examples> Linux-Komplex-Bash-One-Liner-Examples $
Lassen Sie uns den Inhalt der erstellten Datei noch einmal untersuchen:
$ Datei Linux-Complex-Bash-One-Liner-Examples Linux-Complex-Bash-One-Liner-Examples: UTF-8 Unicode Text $ Head -n5 Linux-Komplex-Bash-One-Liner-Examples * [1] Ubuntu + o [2] zurück o [3] Ubuntu 20.04 O [4] Ubuntu 18.04
Wie Sie sehen können, haben wir diesmal eine UTF-8 Unicode
Textbasierte Datei im Gegensatz zum vorherigen wget
Und Locken
Beispiele und die Kopf
Der Befehl bestätigt, dass die ersten 5 Zeilen textbasiert sind (mit Verweisen auf die URLs in Form von [NR]
Markierungen). Wir können die URLs gegen Ende der Datei sehen:
$ Tail -n86 Linux-Komplex-Bash-One-Liner-Examples | Kopf -n3 sichtbare Links 1. https: // linuxconfig.org/ubuntu 2. https: // linuxconfig.org/linux-komplex-bash-ein-Liner-Beispiele
Wenn wir auf diese Weise Seiten abrufen.
Abschluss
In diesem Artikel hatten wir eine kurze Einführung in die wget
, Locken
Und Luchs
Tools, und wir stellten fest, wie letzteres verwendet werden kann, um Webseiten in einem Textformat abzurufen, das alle HTML.
Bitte verwenden Sie immer das hier verantwortungsbewusste Wissen: Bitte überladen Webserver nicht und rufen Sie nur Public Domain, No-Copyright oder CC-0 usw. ab. Daten/Seiten. Überprüfen Sie auch immer, ob es einen herunterladbaren Datenbank/Datensatz der Daten gibt, an denen Sie interessiert sind. Dies ist sehr bevorzugt, Webseiten individuell abzurufen.
Genießen Sie Ihr neu gefundenes Wissen und, Mama, freuen uns auf diesen Kuchen, für den Sie das Rezept mithilfe mit dem Rezept heruntergeladen haben Luchs -Dump
! Wenn Sie weiter in eines der Tools eintauchen, hinterlassen Sie uns bitte einen Kommentar bei Ihren Entdeckungen.
Verwandte Linux -Tutorials:
- Big Data Manipulation zum Spaß und Gewinn Teil 1
- Big Data Manipulation zum Spaß und Gewinn Teil 3
- Big Data Manipulation zum Spaß und Gewinn Teil 2
- Dinge zu installieren auf Ubuntu 20.04
- WGet -Datei Download unter Linux
- Eine Einführung in Linux -Automatisierung, Tools und Techniken
- Dinge zu tun nach der Installation Ubuntu 20.04 fokale Fossa Linux
- Curl -Datei herunterladen unter Linux
- Dinge zu installieren auf Ubuntu 22.04
- Mint 20: Besser als Ubuntu und Microsoft Windows?