Vision Transformer (ViT)
Bildverarbeitungsmodell, das die Transformer-Architektur aus dem Sprachbereich auf Bilder überträgt. Konkurrenz zu klassischen Convolutional Neural Networks.
Der Vision Transformer (ViT) ist ein 2020 von Google vorgestelltes Modell, das die ursprünglich für Sprache entwickelte Transformer-Architektur direkt auf Bilder anwendet. Statt wie Convolutional Neural Networks (CNNs) mit Faltungsoperationen zu arbeiten, zerlegt ein ViT das Eingabebild in kleine Bildausschnitte ("Patches"), behandelt diese wie Tokens in einem Satz und verarbeitet sie mit Self-Attention.
Damit zeigte sich, dass die starken induktiven Annahmen von CNNs (lokale Nachbarschaften, Translationsinvarianz) nicht zwingend nötig sind, bei genügend Daten lernt ein Vision Transformer diese Eigenschaften selbst. Auf großen Datensätzen wie JFT-300M übertraf der ViT entsprechend trainierte CNNs deutlich und setzte neue Bestmarken in der Bildklassifikation.
Heute sind Vision Transformer die Grundlage vieler moderner Vision-Modelle (DINOv2, SAM, CLIP, MAE) und multimodaler Systeme, die Bild und Sprache kombinieren. In der Praxis kommen sie überall zum Einsatz, wo CNNs früher dominierten: Bildklassifikation, Objekterkennung, Segmentierung und Bilderverständnis in großen multimodalen LLMs.
Verwandte Begriffe
Attention-Mechanismus
Technik, die einem neuronalen Netz erlaubt, sich bei der Verarbeitung auf die jeweils relevantesten…
RoPE (Rotary Positional Embeddings)
Technik in Sprachmodellen, die Positionsinformationen von Wörtern im Text durch Rotationsmatrizen…
YOLO (You Only Look Once)
Schnelle Objekterkennungsmethode, die Position und Klasse von Objekten in Bildern in Echtzeit…
Computer Vision
Computer Vision ist ein Teilbereich der künstlichen Intelligenz, der sich mit der automatischen…
Data Mesh
Dezentraler Architekturansatz für Datenmanagement, bei dem Fachbereiche ihre Daten…