Enterprise Data Management WS 2015/16
Screen Scraping für Fashion Blogs
Welche Blog-Hoster berichten am häufigsten zum Thema Fashion? Können wir den menschlich geschriebenen Content der Blogger extrahieren? Würden wir lieber Regelwissen benutzen oder maschinell benutzte Klassifikatoren, wie Boilerplate? Ein Team analysierte diese Fragen zusammen mit Betreuern von Zalando SE. [PDF] [Video]
Bootstrapped Classification from Few Fashion Examples
Marken und Produkte in der Fashion Domäne verändern sich sehr schnell, oft sind es auch gerade Nischenmarken die eher kurzlebig sind. Das Fashionunternehmen Zalando SE möchte in der "Liste" dieser Namen auf dem aktuellen Stand sein. Wie können wir diese neuen Produkte effektiv in Blogs erkennen? Wie können wir den "Kontext", also begleitende Wörter, von bereits bekannten Marken effektiv auf unbekannte Marken generalisieren? Ein Team der Beuth-HS untersuchte zusammen mit Betreuern von Zalando dazu Verfahren des tiefen Lernens, wie Word2VEC oder Glove [PDF] [Video].
Maschinenlesen mit INDREX auf Biomedizinischen Texten
Für Wissenschaftler bietet der Verlag SpringerNature mehrere hunderttausend Dokumente zum Thema Life Science an. Besonders relevant für die Wissenschaftler und Kunden von SpringerNature ist der Beziehungstyp INTERACT(DRUG, *), also ob eine Droge/Präperat mit anderen Drogen oder Proteinen u.ä. im Körper interagiert. Ein Team der Beuth-HS mit Betreuern von SpringerNature hat regelbasiert mit dem System INDREX, einem RDBMS für das Text MiningMuster für das Erkennen von Präperaten erstellt und Muster für Beziehungstypen in Texten in SQL abgebildet. Aufgrund dieser Muster wurden maschinell in 57.000 Dokumenten mehr als 20.000 solcher Interaktionen gefunden. [PDF] [Video]
Customer Set Expansion u.a. mit One Class Classification
Geben sind mehrere tausend Kunden die bereits erfolgreich eine Dienstleistung des Berliner Unternehmen Webtrekk gekauft haben und eine große Menge an Kunden, die potentielle Käufer sein könnten. Welcher Teil aus dieser zweiten Menge sollte das Call Center Team von Webtrekk ansprechen? Welche Muster beschreiben einen existiernden Kunden, welche dieser Muster lassen sich für die potentiellen Kunden generalisieren? Ein Team der Beuth-HS und Webtrekk GmbH ging dieser Frage anhand "Big Data" auf den Grund. [PDF] [VIDEO]