Text Mining
Text Mining umfasst das Ableiten aussagekräftiger Erkenntnisse aus unstrukturierten Textdaten mittels computerbasierter Algorithmen und statistischer Methoden. Historisch entstand es in den 90er und f...
Text Mining bezeichnet die automatisierte Auswertung grosser Mengen unstrukturierter Textdaten mit dem Ziel, daraus verwertbare Informationen, Muster oder Zusammenhaenge zu gewinnen. Es kombiniert Verfahren aus der Statistik, der Sprachverarbeitung und dem maschinellen Lernen, um Inhalte aus E-Mails, Dokumenten, Webseiten, Bewertungen oder Social-Media-Beitraegen systematisch zu erschliessen. Anders als bei einer klassischen Datenbankabfrage liegen die Informationen hier nicht in geordneten Spalten vor, sondern muessen erst durch Algorithmen aus dem Text extrahiert werden.
Typische Schritte sind die Aufbereitung der Texte (etwa das Entfernen von Fuellwoertern, das Erkennen von Wortstaemmen oder das Aufteilen in einzelne Begriffe), die Identifikation wichtiger Entitaeten wie Personen, Orte oder Produkte, sowie die Analyse von Haeufigkeiten, Beziehungen und Stimmungen. Darauf aufbauend lassen sich Themen automatisch zuordnen (Themenmodellierung), Texte in Kategorien einsortieren (Klassifikation) oder aehnliche Inhalte gruppieren. Moderne Verfahren nutzen zunehmend Sprachmodelle, die den Kontext eines Textes besser erfassen als rein statistische Ansaetze und auch Ironie, Bezuege oder Fachbegriffe zuverlaessiger einordnen.
Fuer kleine und mittlere Unternehmen ist Text Mining vor allem dort interessant, wo viele Texte anfallen, die manuell kaum auszuwerten sind. Ein Handwerksbetrieb kann zum Beispiel Kundenbewertungen automatisch nach wiederkehrenden Beschwerdepunkten durchsuchen, eine Steuerkanzlei eingehende Mandantenmails nach Dringlichkeit oder Themengebiet vorsortieren, und ein Online-Haendler aus Produktbewertungen Hinweise auf Qualitaetsprobleme ableiten. Auch im Personalwesen lassen sich Bewerbungen vorstrukturieren, im Vertrieb Gespraechsnotizen auswerten oder im Einkauf Vertragsdokumente nach bestimmten Klauseln durchsuchen. Viele dieser Funktionen sind heute bereits in gaengiger Buerosoftware, CRM-Systemen oder spezialisierten Cloud-Diensten enthalten.
Die Chancen liegen in einer deutlichen Zeitersparnis und in Erkenntnissen, die bei manueller Sichtung untergehen wuerden. Grenzen ergeben sich aus der Qualitaet der Texte, aus Datenschutzanforderungen (insbesondere bei personenbezogenen Inhalten) und aus der Tatsache, dass Algorithmen Bedeutung nicht im menschlichen Sinn verstehen. Verwandte Begriffe sind Natural Language Processing, Sentiment-Analyse und Information Retrieval.
Verwandte Begriffe
Data Mining
Data Mining ist ein Prozess der Entdeckung von Mustern in großen Datensätzen. Es wird verwendet, um…
Annotation
Im Kontext der künstlichen Intelligenz (KI) bezieht sich Annotation auf den Prozess, bei dem Daten…
Big Data
Mit Big Data werden Mengen von Daten bezeichnet, die zu groß, zu komplex, zu schnelllebig oder zu…
Common Crawl
Common Crawl ist eine gemeinnützige Initiative, die das Web durchforstet, um umfangreiche Archive…
Computer Vision
Computer Vision ist ein Teilbereich der künstlichen Intelligenz, der sich mit der automatischen…