I dati linguistici: raccolta, denominazione, trascrizione
To view the contents of this post, you must be authenticated and have the required access level.
Weiterlesen →To view the contents of this post, you must be authenticated and have the required access level.
Weiterlesen →1. Über python Linguistische Datenverarbeitung mit python 2. Beispiel: Parsing eines XML-Dokuments und Ausgabe aller <p>-Inhalte #!/usr/bin/env python # -*- coding: utf-8 -*- import re import xml.etree.ElementTree as etree f = open(‚greif.csv‘, ‚w‘) #PARSING tree = etree.parse(‚greif.xml‘) root = tree.getroot() #DEBUG: OUTPUT TAGS for x in root.iter(): print x.tag + ‚ = ‚ + […]
Weiterlesen →3. Über wget wget ist ein Kommandozeilenprogramm, mit dem Dateien aus dem Internet heruntergeladen werden können. 4. Rekursive Extraktion: https://www.gnu.org/software/wget/manual/wget.html#Recursive-Retrieval-Options wget -r -l 1 http://www.spiegel.de/kultur Beispiel: Extraktion Zeitungskorpus: Kultur-Seite und die Artikel, auf die diese verweist (Rekursionstiefe 1); weitere Anwendungsmöglichkeiten: Extraktion von Chats/Foren etc.(Aufbau großer Webkorpora; Stichwort: Web als Korpus) 5. Extraktion nach URL-Muster: mkdir […]
Weiterlesen →