- 6-10 MITARBEITER
- Spezialist
[Über Uns] Limebit GmbH ist eine Berliner Unternehmen für Data Science und Machine Learning Services. Zu den Kunden unserer Agentur zählen zahlreiche Startups, Mittelständler und Großunternehmen wie Bayer, Edeka und Wikipedia. Über unsere Agenturtätigkeit hinaus halten wir akademische Lehraufträge an der Hochschule für Ökonomie und Management, bspw. "Data Science & Big Data".
Unsere Kundenfälle
5 Projekte, realisiert von Limebit GmbH
Lehraufträge an der FOM Hochschule
Aufgabe
Seit dem Sommersemester 2017 halten wir Lehraufträge an der FOM Fachhochschule für Ökonomie & Management in Berlin in den Modulen "Webkonzeptionierung" und "Data Science & Machine Learning" Dort lehrt unser Geschäftsführer Philipp Koch verschiedene Module, u.a. einen Lehrauftrag in "Data Science & Big Data" und lehrt die Entwicklung von Modellen zur prädiktiven Analysen. Die Lehrinhalte umfassen dabei sowohl simple Modelle wie Entscheidungsbäume und Random Forests als auch komplexe Deep Neural Networks. Auch die Bewertung, Auswahl, Implementierung und Verbesserung von Machine Learning Modellen ist Teil des Vorlesungsinhalts.
Deep Learning Empfehlungssysteme für Filme und Serien
Aufgabe
Für JustWatch ist die Zufriedenheit der Nutzerinnen ein wichtiges Kernthema, um die Nachhaltigkeit der Webplattform zu gewährleisten. Aus diesem Grund ist es relevant, das Nutzungserlebnis zu personalisieren, um die Verweildauer und Interaktionsrate von Nutzerinnen mit der Plattform zu erhöhen. Voraussetzung hierfür ist ein intelligentes Empfehlungssystem, das anhand aller verfügbaren Daten jeder Nutzerin sinnvolle und individuelle Filmempfehlungen bereitstellen kann. Eine zusätzliche Herausforderung ist dabei, dass die verfügbaren Daten mit mehreren Milliarden Datenpunkten ein besonders hohes Volumen haben, welches größtenteils sparse ist (ein Großteil der Nutzerinnen hat einen Großteil der Filme nicht gesehen). Empfehlungssysteme auf dieser Grundlage bergen besondere Herausforderungen.
Lösung
Gemeinsam mit JustWatch haben wir auf Basis moderner Deep Learning Frameworks (fast.ai und TensorFlow) ein Empfehlungssystem konzeptioniert und entwickelt, welches sehr zielgerichtet die Interessen der Nutzerinnen analysiert und auf Basis der gesehenen Filme passende Empfehlungen ausliefert. Dabei kamen sogenannte Kollaborative Filter zum Einsatz, die dabei helfen, Nutzerinnen und Filme nach Ähnlichkeit zu clustern. Die Implementierung erfolgte in Python.
Ergebnis
Die konzeptionierte und entwickelte Lösung ist bei JustWatch im Produktiveinsatz und ermöglicht ein personalisiertes Erlebnis für Nutzerinnen. JustWatch entwickelt die Lösung konstant weiter und kann somit einen höheren Plattformmehrwert liefern.
Medizinische Forschung mittels Deep Learning
Aufgabe
Die Beurteilung der Nebenwirkungen, Verträglichkeit, Wirksamkeit o.ä. von Medikamenten nach Markteinführung ist ein wichtiger Punkt, um die Sicherheit von Medikamenten sicherzustellen und zu optimieren. Mittels traditioneller statistischer Modelle können so Fragestellungen beantwortet werden, die in klinischen Studien nicht untersuchbar sind. Die wissenschaftliche Fachliteratur diskutiert jedoch zunehmend mehr die Relevanz von Deep Learning Algorithmen zur Verbesserung der bestehenden Modelle.
Lösung
Wir wurden von Bayer als Dienstleister für die Durchführung von Forschungsprojekten zur Evaluation und Umsetzung von Machine Learning und Deep Learning in der epidemiologischen Forschung beauftragt. Die erste Projektphase bestand aus der Durchführung mehrerer Workshops, um herauszufinden, wie der klassische Ansatz in der Pharmakoepidemiologie bei Bayer aktuell genutzt wird. Anschließend wurde der aktuelle Forschungsstand zu Machine und Deep Learning erarbeitet und mögliche Wege zur Verbesserung der bisherigen Modelle durch Neuronale Netze und verschiedene Typen regularisierter Regressionen skizziert. In der zweiten Projektphase haben wir bestehende Modelle erweitert und in ein Python basiertes Machine Learning Framework überführt. Das Machine Learning Framework unterstützt automatische Code-Dokumentation, vollständige Reproduzierbarkeit von Experimenten und Versionierung von Daten-Pipelines und Daten-Quellen. Aufbauend auf dem Framework haben wir ein Simulationsverfahren der Universität Harvard als Python Package implementiert, welches die Performance-Bewertung verschiedener Modelle ermöglicht.
Ergebnis
Seit September 2019 überführen wir die Implementierung in eine Full-Stack Analyse-Plattform, die auch nicht-technischen Nutzerinnen die Möglichkeit zur Anwendung Künstlicher Intelligenz gibt. Nutzerinnen können über ein User Interface Machine Learning Methoden auf beliebige Datensätze anwenden, benchmarken und jederzeit reproduzieren. Die Plattform kann mit Datensätzen von mehreren Millionen Einträgen umgehen und wird auf der Bayer eigenen Infrastruktur betrieben.
Politische Diskursanalyse mittels NLP
Aufgabe
Die Plenarprotokolle des Deutschen Bundestages liegen teilweise digitalisiert vor, sind jedoch weit davon entfernt, maschinenlesbar zu sein. Sie bergen jedoch potenziell Antworten auf relevante Fragen: So sind sie nicht nur Informationsquelle für viele MdB Büros, sondern auch aus historischer und politikwissenschaftlicher Sicht eine wertvolle Quelle. Um die Daten auswertbar und im großen Maße zugänglich machen zu können, müssen diese aufgebrochen und kleinteilig verfügbar gemacht werden. So umfasst der von uns innerhalb des letzten Jahres verarbeitete Korpus etwa 800.000 Redebeiträge von über 4.200 Rednerinnen, sowie 2.5 Millionen Reaktionen aus allen Fraktionen seit 1949.
Lösung
Neben der Verfügbarmachung dieser wertvollen Daten analysieren wir mittels Methoden des Natural Language Processing die Veränderung der Sprache im Bundestag. Wir können analysieren, wie sich der politische Diskurs der Parteien, einzelner Politiker und des gesamten Plenums verändert hat und wie dies die politische Auseinandersetzung verändert. Mittels rekurrenten Neuronalen Netzen können wir Sprachmodelle auf Basis dieses Korpus trainieren und interessante, gesamtgesellschaftlich relevante Ergebnisse generieren.
Ergebnis
Das Projekt Open Discourse ist ein laufendes Projekt, an dem dauerhaft zwei unserer Machine Learning Engineers tätig sind. Im kommenden Jahr werden wir die Ergebnisse und eine zugehörige Plattform Open Discourse veröffentlichen und als politikwissenschaftliches Tool mit gesamtgesellschaftlichem Einfluss zugänglich machen.
Data Science bei Wikimedia Deutschland
Aufgabe
Da Wikimedia ein gemeinnütziger Verein ist, ist das Erreichen der Spendenziele elementar wichtig für das Fortbestehen des Vereins und die Fortführung und Weiterentwicklung von Projekten wie der Wikipedia. Hierzu hatte Wikimedia im Jahr 2017 ein Spendenziel von 7,9 Millionen Euro. Um diese Summe zu erreichen, werden umfangreiche A/B-Tests, E-Mail- und Brief-Kampagnen durchgeführt. Diese Kampagnen müssen stetig angepasst und optimiert werden. Dies geschieht mittels verschiedener statistischer Analysen. Um die Kampagnen zu optimieren, werden nahezu täglich neue Hypothesen über die Formulierung von Texten, die Gestaltung von Bannern und ähnlichen Elementen aufgestellt, deren Signifikanz anschließend ermittelt werden muss.
Lösung
Wikimedia hat Limebit mit der Durchführung der Datenanalysen beauftragt. Hierzu erfolgte zunächst die Einarbeitung in die bestehenden Analyseroutinen und anschließend die Durchführung und Optimierung der Auswertungen. Mithilfe von R haben wir Automatisierungen der wiederkehrenden Schritte entwickelt und neben den bestehenden Hypothesentests zusätzlich (Multivariate-) Varianzanalysen durchgeführt. Die tägliche Anzahl an Besucherinnen auf der deutschsprachigen Wikipedia betrug im Herbst 2017 durchschnittlich etwa 30 Millionen. Es war für uns demnach notwendig, effizient große Datenmengen zuverlässig zu verarbeiten und auszuwerten, um tagesaktuell auf Entwicklungen der Kampagnen reagieren zu können. Zusätzlich zu den Auswertungen der Kampagnen auf Wikipedia, haben wir diese Ergebnisse dokumentiert und interpretiert, um dem Fundraising-Team dabei zu helfen Handlungsanweisungen abzuleiten. Abgesehen von den Analysen der Website-Kampagnen haben wir zusätzlich die Daten der E-Mail Kampagnen ausgewertet, um zu ermitteln, welche Formulierung und welche Spendenaufforderung am erfolgreichsten war.
Ergebnis
Wikimedia konnte erfolgreich zum Jahreswechsel das erforderliche Spendenziel erreichen und zusätzlich die Anzahl der Fördermitgliedschaften um fast 12.000 Personen erhöhen. Zum Abschluss des Projektes haben wir das Fundraising-Team dabei beraten, wie die Datenerhebung und die Durchführung von Test-Kampagnen in der Art konzipiert werden kann, dass die Daten anschließend zu komplexeren Analysen und maschinellem Lernen genutzt werden könnten. Beispielsweise um individuelle Spendenempfehlungen an Personen zu schicken, die in der Vergangenheit bereits gespendet haben.
Unsere Kunden, sie vertrauen uns
Deutsche Bahn
seit 2019
Chatbots und Sprachanalyse für juristische Fragestellungen
Wikipedia (Wikimedia Deutschland e. V.)
seit 2017
Data Science für Fundraising
JustWatch GmbH
seit 2019
Deep Learning Empfehlungssysteme für Filme und Serien
Edeka Digital
seit 2019
Datenorientierte Entwicklung
Volkswagen
seit 2019
Schulungen im Bereich Data Science und Machine Learning
Barmer
seit 2018
Schulungen im Bereich Data Science und Machine Learning
Archipinion GmbH
seit 2019
Data Science Analysen
Bayer AG
seit 2019
Medizinische Forschung mittels Deep Learning
Fachhochschule für Ökonomie & Management
seit 2017
Lehrauftrag Data Science & Machine Learning
Hochschule für Medien, Kommunikation und Wirtschaft
seit 2019
Lehrauftrag Data Science
Vodafone GmbH
seit 2019
Schulungen im Bereich Data Science und Machine Learning
Branchenerfahrung
Kontakt
Kontaktdaten von Limebit GmbH
Kontaktieren Sie uns gerne per E-Mail oder über unsere sozialen Netzwerke. Unser Team steht Ihnen jederzeit zur Verfügung, um Ihre Fragen zu beantworten und Ihnen weiterzuhelfen. Wir freuen uns auf Ihre Nachricht und darauf, Ihnen bestmöglich zu unterstützen.