Diplomthema: Relevanz einer Webseite hinsichtlich Sprache und Thema einer Netzauftritts bzw. anderer Webseiten dieser DomäneAls Studienarbeit bzw. Diplomarbeit 1 AufgabenSchlagwörter und Domännamen sind bekannt. Das im Rahmen der Diplomarbeit zu erstellende Programm soll alle Webseiten einer Domäne prüfen, ob zu den Schlagwörtern passende Webseiten vorhanden sind und diese ähnlich den Suchmaschinen gewichten (Meta-Informationen, Schlagworthäufigkeit usw.). Späteres Ziel und kein Gegenstand dieser Tätigkeit ist, Kontaktdaten oder andere Daten von den Webseiten einer Domäne intelligent zu extrahieren, die zum Thema der Suchanfrage passen. Einstellbar soll sein, ob genau die Suchbegriffe vorhanden sein müssen oder ob auch alternative Begriffe ausschlaggebend sind. Bei den Suchbegriffen sind UND-, ODER- und NICHT-Operatoren sowie Klammerungen möglich (max. 10 Therme). Es ist also die Relevanz einer Webseite zu bestimmen, die sich aus der Entfernung einer Webseite mit den gesuchten Daten zur nächsten Themenwebseite ergibt. Die eigentliche Herausforderung ist das Entwickeln von Algorithmen zum Bestimmen der Relevanz entfernter Webseiten, ohne dass die Schlagwörter dort enthalten sein müssen. Die bewerteten Webseiten werden entweder in einer Datenbank oder sequentiell in einer Datei gespeichert, um diese im Rahmen einer weiteren Studienarbeit bzw. Diplomarbeit entsprechend zu extrahieren. Die Relevanzbestimmung und die Kontaktdaten-Extrahierung sind zwei Diplomthemen, die aber auch von zwei bis drei Studenten gemeinsam durchgeführt werden können. 2 Anforderung
3 Prinzipielle Meilensteine
4 Zusätzliche Informationen
Bewerben Sie sich für eine Studienarbeit/Diplomarbeit unter
|