Im Fokus im Sommersemester SS 2016 stand die Anwendung von tiefen Lernverfahren (Deep Learning) für das Text Mining und die Lead Detection. Ein Projekt untersuchte auch Hauptspeicherdatenbanken und Text Mining.

TELI: Interaktives Text Mining für Call Center

Es wäre doch cool, wenn wir, während eines Schreibens einer Email an ein Call Center oder einen Versandhandel gleich die entsprechenden Produkte eingeblendet bekommen würden. Quasi sollte die "Suchanfrage" durch unsere Email ausgelöst werden. Genau diese Fähigkeit untersuchte das Team TELI im Projekt Text Entity Linkage Interaction.

[Video][PDF]

INDREX-MM: Text Mining in Main Memory Database Systems (Exasol)

Nach dem Erfolg mit INDREX in einer Shared Nothing Datenbank (Cloudera IMPALA) waren wir neugierig, ob wir das gleiche Prinzip auch auf Shared Memory Datenbanken (Hauptspeicherdatenbanken) übertragen können. Das Team hat dafür Data Loader, Datenstrukturen,  und UDFs für EXASOL angepasst. Letztendlich konnten wir mit dieser Vorarbeit zeigen, dass interaktive Relationsextraktion auf Reuters NIST RCV1 mit 800.000 Dokumenten und über einer Millarde Annotationen auch in Sekundenschnelle möglich ist.

Die Arbeit (mit den Unternehmen EXASOL AG aus Nürnberg) wurde als DEMO auf der NLP Konferenz COLING 2016 in Osaka angenommen.

 [Video][COLING 2016 DEMO]

Deep Learning: TriGram2Vec

Wie robust sind WORD2VEC Embeddings und lassen sich diese auch durch TriGram Hashes erweitern? Diese Aufgabe stellte sich die Gruppe und trainierte ein eigenes TriGram-Hash-Modell.

[Video][PDF]

Lead Detection mit LSTMs

Können wir einem Shopping Portal vorhersagen, wer wahrscheinlich kaufen wird? In Zusammenarbeit mit webtrekk konnte das Team diese Frage mit einer Precsion von 80% und einem Recall von 40% beantworten. Es hatte dazu das Sequenzlernverfahren LSTM auf Rohdaten von Webtrekk angewandt. Besondere Schwierigkeiten waren One-Class Learning, Imbalanced Class Learning, Finden optimaler Parameter für LSTM in Tensorflow für relativ kleine Mengen von Trainingsdaten und die Transformation der Merkmale aus den Rohdaten in die Vektorrepräsentation.

[PPT]