Text Mining

Daten & Analytics Textanalyse Mustererkennung

Text Mining umfasst das Ableiten aussagekräftiger Erkenntnisse aus unstrukturierten Textdaten mittels computerbasierter Algorithmen und statistischer Methoden. Historisch entstand es in den 90er und f...

Text Mining bezeichnet die automatisierte Auswertung grosser Mengen unstrukturierter Textdaten mit dem Ziel, daraus verwertbare Informationen, Muster oder Zusammenhaenge zu gewinnen. Es kombiniert Verfahren aus der Statistik, der Sprachverarbeitung und dem maschinellen Lernen, um Inhalte aus E-Mails, Dokumenten, Webseiten, Bewertungen oder Social-Media-Beitraegen systematisch zu erschliessen. Anders als bei einer klassischen Datenbankabfrage liegen die Informationen hier nicht in geordneten Spalten vor, sondern muessen erst durch Algorithmen aus dem Text extrahiert werden.

Typische Schritte sind die Aufbereitung der Texte (etwa das Entfernen von Fuellwoertern, das Erkennen von Wortstaemmen oder das Aufteilen in einzelne Begriffe), die Identifikation wichtiger Entitaeten wie Personen, Orte oder Produkte, sowie die Analyse von Haeufigkeiten, Beziehungen und Stimmungen. Darauf aufbauend lassen sich Themen automatisch zuordnen (Themenmodellierung), Texte in Kategorien einsortieren (Klassifikation) oder aehnliche Inhalte gruppieren. Moderne Verfahren nutzen zunehmend Sprachmodelle, die den Kontext eines Textes besser erfassen als rein statistische Ansaetze und auch Ironie, Bezuege oder Fachbegriffe zuverlaessiger einordnen.

Fuer kleine und mittlere Unternehmen ist Text Mining vor allem dort interessant, wo viele Texte anfallen, die manuell kaum auszuwerten sind. Ein Handwerksbetrieb kann zum Beispiel Kundenbewertungen automatisch nach wiederkehrenden Beschwerdepunkten durchsuchen, eine Steuerkanzlei eingehende Mandantenmails nach Dringlichkeit oder Themengebiet vorsortieren, und ein Online-Haendler aus Produktbewertungen Hinweise auf Qualitaetsprobleme ableiten. Auch im Personalwesen lassen sich Bewerbungen vorstrukturieren, im Vertrieb Gespraechsnotizen auswerten oder im Einkauf Vertragsdokumente nach bestimmten Klauseln durchsuchen. Viele dieser Funktionen sind heute bereits in gaengiger Buerosoftware, CRM-Systemen oder spezialisierten Cloud-Diensten enthalten.

Die Chancen liegen in einer deutlichen Zeitersparnis und in Erkenntnissen, die bei manueller Sichtung untergehen wuerden. Grenzen ergeben sich aus der Qualitaet der Texte, aus Datenschutzanforderungen (insbesondere bei personenbezogenen Inhalten) und aus der Tatsache, dass Algorithmen Bedeutung nicht im menschlichen Sinn verstehen. Verwandte Begriffe sind Natural Language Processing, Sentiment-Analyse und Information Retrieval.

Text Mining

Verwandte Begriffe

Data Mining

Annotation

Big Data

Common Crawl

Computer Vision