Zum Hauptinhalt springen

wget

Häufige Konfigurationen

BefehlBeschreibung
wget URLEinfacher Download einer Datei
wget -c URLFortsetzen eines unterbrochenen Downloads
wget -P /pfad/zum/verzeichnis URLDownload in ein bestimmtes Verzeichnis
wget -O neue_datei.txt URLDownload mit neuem Dateinamen

Website spiegeln

Um eine komplette Website zu spiegeln, verwende:

wget --mirror --convert-links --adjust-extension --page-requisites --no-parent https://example.com
  • --mirror: Aktiviert den Spiegelmodus
  • --convert-links: Konvertiert Links für lokale Betrachtung
  • --adjust-extension: Fügt .html zu Dateien hinzu, wenn nötig
  • --page-requisites: Lädt alle für die HTML-Seiten benötigten Dateien
  • --no-parent: Verhindert das Herunterladen von übergeordneten Verzeichnissen

WARC-Archive erstellen

WARC (Web ARChive) ist ein Format zum Speichern von Webseiten mit Metadaten:

wget --warc-file=archiv --warc-cdx --warc-max-size=1000m https://example.com
  • --warc-file: Name der WARC-Datei
  • --warc-cdx: Erstellt zusätzlich eine CDX-Datei für schnellen Zugriff
  • --warc-max-size: Maximale Größe einer WARC-Datei

Weitere nützliche Optionen

  • -r: Rekursiver Download
  • -l Tiefe: Begrenzt die Rekursionstiefe
  • --limit-rate=200k: Begrenzt die Download-Geschwindigkeit
  • -w 2: Wartet 2 Sekunden zwischen Downloads
  • --random-wait: Zufällige Wartezeit zwischen Downloads
  • -U "Mozilla/5.0": Setzt einen benutzerdefinierten User-Agent
  • --no-check-certificate: Ignoriert SSL-Zertifikatsfehler
  • --user=username --password=password: Authentifizierung