Abrufen von Webseiten mit WGet, Curl und Lynx

Abrufen von Webseiten mit WGet, Curl und Lynx

Unabhängig davon Tools, mit denen Sie Webseiten in eine textbasierte Datei herunterladen können. Wenn Sie mehr darüber erfahren möchten, wie Sie die von Ihnen heruntergeladenen Seiten analysieren können, können Sie sich unsere Big Data -Manipulation für Spaß und Profit Teil 1 ansehen.

In diesem Tutorial lernen Sie:

  • So abrufen/herunterladen Sie Webseiten mit WGet, Curl und Lynx
  • Was die Hauptunterschiede zwischen den WGet-, Curl- und Luchs -Tools sind
  • Beispiele, die zeigen, wie WGet, Curl und Lynx verwendet werden
Abrufen von Webseiten mit WGet, Curl und Lynx

Softwareanforderungen und Konventionen verwendet

Softwareanforderungen und Linux -Befehlszeilenkonventionen
Kategorie Anforderungen, Konventionen oder Softwareversion verwendet
System Linux-Verteilungsunabhängige
Software BASH -Befehlszeile, Linux -basiertes System
Andere Jedes Dienstprogramm, das standardmäßig nicht in der Bash -Shell enthalten ist sudo apt-Get Installieren Sie den Dienstprogramm (oder yum install Für Redhat -basierte Systeme)
Konventionen # - Erfordert, dass Linux -Commands mit Root -Berechtigungen entweder direkt als Stammbenutzer oder mithilfe von verwendet werden sudo Befehl
$-erfordert, dass Linux-Commands als regulärer nicht privilegierter Benutzer ausgeführt werden

Bevor wir beginnen, installieren Sie bitte die 3 Dienstprogramme mit dem folgenden Befehl (auf Ubuntu oder Mint) oder verwenden Sie yum install anstatt APT -Installation Wenn Sie eine Redhat -basierte Linux -Verteilung verwenden.

$ sudo apt-GET Installieren Sie WGet Curl Lynx 


Wenn wir fertig sind, fangen wir an!

Beispiel 1: WGet

Verwendung wget Um eine Seite abzurufen ist einfach und unkompliziert:

$ wget https: // linuxconfig.org/linux-complex-bash-one-liner-examples-2020-10-03 15: 30: 12-- https: // linuxconfig.org/linux-complex-bash-ein-Liner-Untersuchung auflösen Linuxconfig.org (LinuxConfig.org)… 2606: 4700: 20 :: 681a: 20d, 2606: 4700: 20 :: 681a: 30d, 2606: 4700: 20 :: AC43: 4B67,… Verbindung mit Linuxconfig herstellen.org (LinuxConfig.Org) | 2606: 4700: 20 :: 681a: 20d |: 443… verbunden. HTTP-Anforderung gesendet, auf Antwort warten… 200 OK Länge: nicht spezifiziert [Text/HTML] Speichern auf: 'Linux-Complex-Bash-One-Liner-Examples' Linux-Komplex-Bash-One-Liner-Examples [] 51.98K --.-Kb/s in 0.005S 2020-10-03 15:30:12 (9.90 mb/s)-'Linux-Komplex-Bash-One-Liner-Examples' gespeichert [53229] $ 

Hier haben wir einen Artikel heruntergeladen Linuxconfig.Org in eine Datei, die standardmäßig den gleichen so genannt wird wie der Name in der URL.

Schauen wir uns den Dateiinhalt an

$ file linux-complex-bash-one-liner-examples linux-complex-bash-One-Liner-Examples: HTML-Dokument, ASCII-Text, mit sehr langen Zeilen, mit CRLF, CR, LF-Zeilen-Terminatoren $ Head -n5 Linux- Komplexe Bash-One-Liner-Beispiele      

Großartig, Datei (Das Dienstprogramm der Dateiklassifizierung) erkennt die heruntergeladene Datei als HTML und die an Kopf bestätigt diese ersten 5 Zeilen (-N5) Sehen Sie wie HTML -Code aus und sind textbasiert.

Beispiel 2: Locken

$ curl https: // linuxconfig.org/linux-komplex-bash-ein-Liner-Exampl 0-:-:---:-:--:-::-84466 $ 

Diesmal haben wir benutzt Locken das Gleiche wie in unserem ersten Beispiel zu tun. Standardmäßig, Locken wird ausgeben auf Standard (Stdout) und zeigen Sie die HTML -Seite in Ihrem Terminal an! Somit leiten wir stattdessen um (verwenden >) zur Datei Linux-Komplex-Bash-One-Liner-Beispiele.

Wir bestätigen erneut den Inhalt:

$ file linux-complex-bash-one-liner-examples linux-complex-bash-One-Liner-Examples: HTML-Dokument, ASCII-Text, mit sehr langen Zeilen, mit CRLF, CR, LF-Zeilen-Terminatoren $ Head -n5 Linux- Komplexe Bash-One-Liner-Beispiele      


Großartig, das gleiche Ergebnis!

Eine Herausforderung, wenn wir diese/diese Dateien weiter verarbeiten möchten, besteht darin, dass das Format HTML basiert. Wir könnten die Ausgabe durch Verwendung analysieren sed oder awk und einige semi-komplexe regelmäßige Ausdruck. Verwenden wir stattdessen ein Tool, das nativ aktiviert/programmiert wurde, um Seiten in das Textformat abzugeben.

Beispiel 3: Luchs

Lynx ist ein weiteres Tool, mit dem wir dieselbe Seite abrufen können. Im Gegensatz zu wget Und Locken, Luchs soll ein vollständiger (textbasierter) Browser sein. Wenn wir also ausgeben von Luchs, Die Ausgabe ist Text und nicht HTML, basiert. Wir können die verwenden Luchs -Dump Befehl zur Ausgabe auf die auf die Webseite zugegriffene Webseite, anstatt einen vollständig interaktiven (testbasierten) Browser in Ihrem Linux-Client zu starten.

$ lynx -dump https: // linuxconfig.org/linux-complex-bash-ein-Liner-Examples> Linux-Komplex-Bash-One-Liner-Examples $ 

Lassen Sie uns den Inhalt der erstellten Datei noch einmal untersuchen:

$ Datei Linux-Complex-Bash-One-Liner-Examples Linux-Complex-Bash-One-Liner-Examples: UTF-8 Unicode Text $ Head -n5 Linux-Komplex-Bash-One-Liner-Examples * [1] Ubuntu + o [2] zurück o [3] Ubuntu 20.04 O [4] Ubuntu 18.04 

Wie Sie sehen können, haben wir diesmal eine UTF-8 Unicode Textbasierte Datei im Gegensatz zum vorherigen wget Und Locken Beispiele und die Kopf Der Befehl bestätigt, dass die ersten 5 Zeilen textbasiert sind (mit Verweisen auf die URLs in Form von [NR] Markierungen). Wir können die URLs gegen Ende der Datei sehen:

$ Tail -n86 Linux-Komplex-Bash-One-Liner-Examples | Kopf -n3 sichtbare Links 1. https: // linuxconfig.org/ubuntu 2. https: // linuxconfig.org/linux-komplex-bash-ein-Liner-Beispiele 

Wenn wir auf diese Weise Seiten abrufen.

Abschluss

In diesem Artikel hatten wir eine kurze Einführung in die wget, Locken Und Luchs Tools, und wir stellten fest, wie letzteres verwendet werden kann, um Webseiten in einem Textformat abzurufen, das alle HTML.

Bitte verwenden Sie immer das hier verantwortungsbewusste Wissen: Bitte überladen Webserver nicht und rufen Sie nur Public Domain, No-Copyright oder CC-0 usw. ab. Daten/Seiten. Überprüfen Sie auch immer, ob es einen herunterladbaren Datenbank/Datensatz der Daten gibt, an denen Sie interessiert sind. Dies ist sehr bevorzugt, Webseiten individuell abzurufen.

Genießen Sie Ihr neu gefundenes Wissen und, Mama, freuen uns auf diesen Kuchen, für den Sie das Rezept mithilfe mit dem Rezept heruntergeladen haben Luchs -Dump! Wenn Sie weiter in eines der Tools eintauchen, hinterlassen Sie uns bitte einen Kommentar bei Ihren Entdeckungen.

Verwandte Linux -Tutorials:

  • Big Data Manipulation zum Spaß und Gewinn Teil 1
  • Big Data Manipulation zum Spaß und Gewinn Teil 3
  • Big Data Manipulation zum Spaß und Gewinn Teil 2
  • Dinge zu installieren auf Ubuntu 20.04
  • WGet -Datei Download unter Linux
  • Eine Einführung in Linux -Automatisierung, Tools und Techniken
  • Dinge zu tun nach der Installation Ubuntu 20.04 fokale Fossa Linux
  • Curl -Datei herunterladen unter Linux
  • Dinge zu installieren auf Ubuntu 22.04
  • Mint 20: Besser als Ubuntu und Microsoft Windows?