This page is available in German language only.

Im WS 2013/2014 bearbeiteten wir vier Projekte. 

AOL Search Leak: Wie suchen wir im Web?

Der AOL Suchanfragendatensatz aus dem Jahr 2006 umfasst ca. 36 Mio Anfragen und angeklickte Webseiten. Typische Anfragen in dem Korpus sind beispielsweise [best albums in 2005] oder [baby names].  Welche syntaktischen und lexikalischen Anfragemuster benutzen wir in 2-5 Wörter langen Sucnanfragen mit der  Intention: [Gib mir eine geordnete Liste/eine Tabelle] oder [Aggregiere/Bilde den Durchschnitt]? 

All about Companies: Extraktion des Impressums im .DE Web

Können wir automatisch erkennen ob auf einer Webseite des .DE Webs ein Impressum existiert? Können wir für diese Seiten auch einschätzen, ob es sich um eine Firmenseite, z.B. einer GmbH, KG, OHG oder AG, handelt? Für die Beantwortung dieser Fragen wurde ein Klassifikationsverfahren entwickelt. Die Betreuung erfolgte zuammen mit der Neofonie GmbH und im Rahmen des BMWi geförderten Vorhabens MIA - Ein Marktplatz für Informationen und Analysen auf dem Datenbestand des deutschsprachigen Webs.
[PDF]

InfoBoxes

Foren, Blogs und Webseiten sind eine wertvolle textuelle Quelle, z.B. für Produktbewertungen, für Fragen und Anworten oder für Fakten. Kann der Computer uns eigentlich Feedback geben, was er aus dem Text "versteht?" Kann der Computer uns eine Art Wikipedia Infox erstellen, noch während wir schreiben? Können wir diese Informationen mit Informationen in einer Datenbank kombinieren? Die Betreuung dieses Vorhabens erfolgte im Rahmen des Forschungsprojektes www.GoOLAP.info.
[PDF] [DEMO]

INDREX - In Database Relation Extraction

Derzeit benutzen 'Data Scientists' noch häufig ein System für die Informationsextraktion aus Texten und ein weiteres System, häufig ein RDBMS, für die Speicherung und Analyse der Resultate. Der Austausch der Daten zwischen den zwei Systemen, die Optimierung der Systeme und die Beherrschung von Anfragesprachen für beide 'Welten' sind mühselig und aufwendig. Können wir ein RDBMS mit User Defined Functions und User Defined Aggregates so erweitern, dass der Endanwender diesen Prozess in einem System und mit SQL ausdrücken kann?
[PDF]