Datenmanagement-Projekt mit Partnern aus der Region
This page is available in German language only.
Zalando: Optimierung der Suche für mehrdeutige Suchanfragen
Die Suchanfrage ist [rosa pullover] aber was möchte der Kunde? Ein Kleidungstück der Marke "Rosa" oder ein Kleidungsstück in der Farbe "rosa"? In diesem Semester untersuchten wir Methoden zur Auflösung solcher Mehrdeutigkeiten, insbesondere Language Modells. Studeriende berechneten am Beispiel der Lucene Implementierung mögliche Interpretationen aus Daten von Zalando vor und implementierten ein Ranking.
[PDF]
Springer Science: Interprationen von Anfragen
Google hat es vorgemacht, geben wir [Pathologie]ein erhalten wir über den Knowledgegraph eine Erklärung aus Wikipedia, für [Der Pathologie] eine Fachzeitschrift und für [Giovanni Battista Morgagni] Informationen über den berühmten Pathologien. Für diese drei Intentionen, [WHAT IS THIS MEDICAL TERM], [NAVIGATE TO JOURNAL], [ALL ABOUT AUTHOR]berechnten wir einen Index für die Springer-interne Suche vor.
[PPT]
INDREX - In Database Relation Extraction
Derzeit benutzen 'Data Scientists' noch häufig ein System für die Informationsextraktion aus Texten und ein weiteres System, häufig ein RDBMS, für die Speicherung und Analyse der Resultate. Der Austausch der Daten zwischen den zwei Systemen, die Optimierung der Systeme und die Beherrschung von Anfragesprachen für beide 'Welten' sind mühselig und aufwendig. Alexander Löser von der BHT und der Doktorand Torsten Kilias (TUB) entwicklen dafür das System INDREX, es vereint beide Funktionalitäten und ist skalierbar. Es basiert auf dem Hadoop File System, der Query Engine Cloudera IMPALA und dem Parquet File Format. In diesem Semester erweiterten wir das System mit Joins zwischen Textdaten und einem RDBMS.
Medieninformatik-Studierende arbeiteten für ihr Semesterprojekt „Enterprise Data Management“ mit dem Springer Science + Business Media Verlag, dem Unternehmen Zalando und der TU Berlin zusammen. Schwerpunkt im SS 2014 war das Thema „Suche“.