Programmierung & Skripten

Abrufen von Webseiten mit WGet, Curl und Lynx

4241
542
Miriam Bauschke

Unabhängig davon Tools, mit denen Sie Webseiten in eine textbasierte Datei herunterladen können. Wenn Sie mehr darüber erfahren möchten, wie Sie die von Ihnen heruntergeladenen Seiten analysieren können, können Sie sich unsere Big Data -Manipulation für Spaß und Profit Teil 1 ansehen.

In diesem Tutorial lernen Sie:

So abrufen/herunterladen Sie Webseiten mit WGet, Curl und Lynx
Was die Hauptunterschiede zwischen den WGet-, Curl- und Luchs -Tools sind
Beispiele, die zeigen, wie WGet, Curl und Lynx verwendet werden

Abrufen von Webseiten mit WGet, Curl und Lynx

Softwareanforderungen und Konventionen verwendet

Softwareanforderungen und Linux -Befehlszeilenkonventionen

Kategorie	Anforderungen, Konventionen oder Softwareversion verwendet
System	Linux-Verteilungsunabhängige
Software	BASH -Befehlszeile, Linux -basiertes System
Andere	Jedes Dienstprogramm, das standardmäßig nicht in der Bash -Shell enthalten ist `sudo apt-Get Installieren Sie den Dienstprogramm` (oder `yum install` Für Redhat -basierte Systeme)
Konventionen	# - Erfordert, dass Linux -Commands mit Root -Berechtigungen entweder direkt als Stammbenutzer oder mithilfe von verwendet werden `sudo` Befehl $-erfordert, dass Linux-Commands als regulärer nicht privilegierter Benutzer ausgeführt werden

Bevor wir beginnen, installieren Sie bitte die 3 Dienstprogramme mit dem folgenden Befehl (auf Ubuntu oder Mint) oder verwenden Sie yum install anstatt APT -Installation Wenn Sie eine Redhat -basierte Linux -Verteilung verwenden.

$ sudo apt-GET Installieren Sie WGet Curl Lynx

Wenn wir fertig sind, fangen wir an!

Beispiel 1: WGet

Verwendung wget Um eine Seite abzurufen ist einfach und unkompliziert:

$ wget https: // linuxconfig.org/linux-complex-bash-one-liner-examples-2020-10-03 15: 30: 12-- https: // linuxconfig.org/linux-complex-bash-ein-Liner-Untersuchung auflösen Linuxconfig.org (LinuxConfig.org)… 2606: 4700: 20 :: 681a: 20d, 2606: 4700: 20 :: 681a: 30d, 2606: 4700: 20 :: AC43: 4B67,… Verbindung mit Linuxconfig herstellen.org (LinuxConfig.Org) | 2606: 4700: 20 :: 681a: 20d |: 443… verbunden. HTTP-Anforderung gesendet, auf Antwort warten… 200 OK Länge: nicht spezifiziert [Text/HTML] Speichern auf: 'Linux-Complex-Bash-One-Liner-Examples' Linux-Komplex-Bash-One-Liner-Examples [] 51.98K --.-Kb/s in 0.005S 2020-10-03 15:30:12 (9.90 mb/s)-'Linux-Komplex-Bash-One-Liner-Examples' gespeichert [53229] $

Hier haben wir einen Artikel heruntergeladen Linuxconfig.Org in eine Datei, die standardmäßig den gleichen so genannt wird wie der Name in der URL.

Schauen wir uns den Dateiinhalt an

$ file linux-complex-bash-one-liner-examples linux-complex-bash-One-Liner-Examples: HTML-Dokument, ASCII-Text, mit sehr langen Zeilen, mit CRLF, CR, LF-Zeilen-Terminatoren $ Head -n5 Linux- Komplexe Bash-One-Liner-Beispiele

Großartig, Datei (Das Dienstprogramm der Dateiklassifizierung) erkennt die heruntergeladene Datei als HTML und die an Kopf bestätigt diese ersten 5 Zeilen (-N5) Sehen Sie wie HTML -Code aus und sind textbasiert.

Beispiel 2: Locken

$ curl https: // linuxconfig.org/linux-komplex-bash-ein-Liner-Exampl 0-:-:---:-:--:-::-84466 $

Diesmal haben wir benutzt Locken das Gleiche wie in unserem ersten Beispiel zu tun. Standardmäßig, Locken wird ausgeben auf Standard (Stdout) und zeigen Sie die HTML -Seite in Ihrem Terminal an! Somit leiten wir stattdessen um (verwenden >) zur Datei Linux-Komplex-Bash-One-Liner-Beispiele.

Wir bestätigen erneut den Inhalt:

$ file linux-complex-bash-one-liner-examples linux-complex-bash-One-Liner-Examples: HTML-Dokument, ASCII-Text, mit sehr langen Zeilen, mit CRLF, CR, LF-Zeilen-Terminatoren $ Head -n5 Linux- Komplexe Bash-One-Liner-Beispiele

Großartig, das gleiche Ergebnis!

Eine Herausforderung, wenn wir diese/diese Dateien weiter verarbeiten möchten, besteht darin, dass das Format HTML basiert. Wir könnten die Ausgabe durch Verwendung analysieren sed oder awk und einige semi-komplexe regelmäßige Ausdruck. Verwenden wir stattdessen ein Tool, das nativ aktiviert/programmiert wurde, um Seiten in das Textformat abzugeben.

Beispiel 3: Luchs

Lynx ist ein weiteres Tool, mit dem wir dieselbe Seite abrufen können. Im Gegensatz zu wget Und Locken, Luchs soll ein vollständiger (textbasierter) Browser sein. Wenn wir also ausgeben von Luchs, Die Ausgabe ist Text und nicht HTML, basiert. Wir können die verwenden Luchs -Dump Befehl zur Ausgabe auf die auf die Webseite zugegriffene Webseite, anstatt einen vollständig interaktiven (testbasierten) Browser in Ihrem Linux-Client zu starten.

$ lynx -dump https: // linuxconfig.org/linux-complex-bash-ein-Liner-Examples> Linux-Komplex-Bash-One-Liner-Examples $

Lassen Sie uns den Inhalt der erstellten Datei noch einmal untersuchen:

$ Datei Linux-Complex-Bash-One-Liner-Examples Linux-Complex-Bash-One-Liner-Examples: UTF-8 Unicode Text $ Head -n5 Linux-Komplex-Bash-One-Liner-Examples * [1] Ubuntu + o [2] zurück o [3] Ubuntu 20.04 O [4] Ubuntu 18.04

Wie Sie sehen können, haben wir diesmal eine UTF-8 Unicode Textbasierte Datei im Gegensatz zum vorherigen wget Und Locken Beispiele und die Kopf Der Befehl bestätigt, dass die ersten 5 Zeilen textbasiert sind (mit Verweisen auf die URLs in Form von [NR] Markierungen). Wir können die URLs gegen Ende der Datei sehen:

$ Tail -n86 Linux-Komplex-Bash-One-Liner-Examples | Kopf -n3 sichtbare Links 1. https: // linuxconfig.org/ubuntu 2. https: // linuxconfig.org/linux-komplex-bash-ein-Liner-Beispiele

Wenn wir auf diese Weise Seiten abrufen.

Abschluss

In diesem Artikel hatten wir eine kurze Einführung in die wget, Locken Und Luchs Tools, und wir stellten fest, wie letzteres verwendet werden kann, um Webseiten in einem Textformat abzurufen, das alle HTML.

Bitte verwenden Sie immer das hier verantwortungsbewusste Wissen: Bitte überladen Webserver nicht und rufen Sie nur Public Domain, No-Copyright oder CC-0 usw. ab. Daten/Seiten. Überprüfen Sie auch immer, ob es einen herunterladbaren Datenbank/Datensatz der Daten gibt, an denen Sie interessiert sind. Dies ist sehr bevorzugt, Webseiten individuell abzurufen.

Genießen Sie Ihr neu gefundenes Wissen und, Mama, freuen uns auf diesen Kuchen, für den Sie das Rezept mithilfe mit dem Rezept heruntergeladen haben Luchs -Dump! Wenn Sie weiter in eines der Tools eintauchen, hinterlassen Sie uns bitte einen Kommentar bei Ihren Entdeckungen.

Abrufen von Webseiten mit WGet, Curl und Lynx

Softwareanforderungen und Konventionen verwendet

Beispiel 1: WGet

Beispiel 2: Locken

Beispiel 3: Luchs

Abschluss

Verwandte Linux -Tutorials:

Beste Artikel

So sichern und wiederherstellen Sie eine PostgreSQL -Datenbank

In diesem Artikel erfahren Sie, wie Sie eine PostgreSQL -Datenbank unter Linux sichern und wiederher...

So installieren Sie die neuesten NodeJs und NPM unter Linux

In diesem Leitfaden werden wir uns ansehen, wie Sie Nodejs und NPM in Rhel, Centos, Fedora, Rocky, A...