Diplomthema: Intelligentes Extrahieren von Kontaktdaten und personenbezogenen Daten aus WebseitenAls Studienarbeit bzw. Diplomarbeit 1 AufgabenWebadressen (URLs) bzw. Domänadressen liegen vor. Das im Rahmen einer Diplomarbeit zu erstellende Programm soll alle Kontaktdaten und personenbezogenen Daten aus Webseiten extrahieren. Die gewonnenen Daten werden wahlweise in einer Textdatei oder einer Datenbank abgelegt. Dabei sollen Daten, die z.B. per CSS unsichtbar sind, ausgelassen werden. Es sind alle beliebigen Schreibweisen von Telefonnummern, Namen, Adressen etc. zu berücksichtigen und normiert auszugeben, auch sprachabhängig, z.B. für Deutsch, Englisch und andere Sprachen. Die Extrahierung und die Bestimmung relevanter Webdressen sind zwei Studienarbeiten, die aber auch von zwei Studenten gemeinsam durchgeführt werden können. 2 Anforderung
3 Prinzipielle Meilensteine
4 Zusätzliche Informationen
Bewerben Sie sich für eine Studienarbeit/Diplomarbeit unter
|