1. Über wget
wget ist ein Kommandozeilenprogramm, mit dem Dateien aus dem Internet heruntergeladen werden können.
2. Rekursive Extraktion:
https://www.gnu.org/software/wget/manual/wget.html#Recursive-Retrieval-Options
wget -r -l 1 http://www.spiegel.de/kultur
- Beispiel: Extraktion Zeitungskorpus: Kultur-Seite und die Artikel, auf die diese verweist (Rekursionstiefe 1);
- weitere Anwendungsmöglichkeiten: Extraktion von Chats/Foren etc.(Aufbau großer Webkorpora; Stichwort: Web als Korpus)
3. Extraktion nach URL-Muster:
mkdir taugenichts
cd taugenichts
wget http://gutenberg.spiegel.de/buch/aus-dem-leben-eines-taugenichts-4285/{1,2,3}
- Beispiel: Extraktion der ersten drei Kapitel des 'Taugenichts'
- Extraktion nach Regeln: für Webextraktion von Korpusdatenbanken / Online-Textsammlungen etc.
wget http://gutenberg.spiegel.de/buch/aus-dem-leben-eines-taugenichts-4285/{1..10}
- Kapitel 1-10 extrahieren (im selben Ordner: überschreibt zuvor heruntergeladene Dateien)
4. Konkatenieren der HTML-Dateien:
cd .. cat taugenichts/* > taugenichts_all.txt