wget
Häufige Konfigurationen
| Befehl | Beschreibung |
|---|---|
wget URL | Einfacher Download einer Datei |
wget -c URL | Fortsetzen eines unterbrochenen Downloads |
wget -P /pfad/zum/verzeichnis URL | Download in ein bestimmtes Verzeichnis |
wget -O neue_datei.txt URL | Download mit neuem Dateinamen |
Website spiegeln
Um eine komplette Website zu spiegeln, verwende:
wget --mirror --convert-links --adjust-extension --page-requisites --no-parent https://example.com
--mirror: Aktiviert den Spiegelmodus--convert-links: Konvertiert Links für lokale Betrachtung--adjust-extension: Fügt .html zu Dateien hinzu, wenn nötig--page-requisites: Lädt alle für die HTML-Seiten benötigten Dateien--no-parent: Verhindert das Herunterladen von übergeordneten Verzeichnissen
WARC-Archive erstellen
WARC (Web ARChive) ist ein Format zum Speichern von Webseiten mit Metadaten:
wget --warc-file=archiv --warc-cdx --warc-max-size=1000m https://example.com
--warc-file: Name der WARC-Datei--warc-cdx: Erstellt zusätzlich eine CDX-Datei für schnellen Zugriff--warc-max-size: Maximale Größe einer WARC-Datei
Weitere nützliche Optionen
-r: Rekursiver Download-l Tiefe: Begrenzt die Rekursionstiefe--limit-rate=200k: Begrenzt die Download-Geschwindigkeit-w 2: Wartet 2 Sekunden zwischen Downloads--random-wait: Zufällige Wartezeit zwischen Downloads-U "Mozilla/5.0": Setzt einen benutzerdefinierten User-Agent--no-check-certificate: Ignoriert SSL-Zertifikatsfehler--user=username --password=password: Authentifizierung