Vision Transformer (ViT)

Bildverarbeitungsmodell, das die Transformer-Architektur aus dem Sprachbereich auf Bilder überträgt. Konkurrenz zu klassischen Convolutional Neural Networks.

Der Vision Transformer (ViT) ist ein 2020 von Google vorgestelltes Modell, das die ursprünglich für Sprache entwickelte Transformer-Architektur direkt auf Bilder anwendet. Statt wie Convolutional Neural Networks (CNNs) mit Faltungsoperationen zu arbeiten, zerlegt ein ViT das Eingabebild in kleine Bildausschnitte ("Patches"), behandelt diese wie Tokens in einem Satz und verarbeitet sie mit Self-Attention.

Damit zeigte sich, dass die starken induktiven Annahmen von CNNs (lokale Nachbarschaften, Translationsinvarianz) nicht zwingend nötig sind, bei genügend Daten lernt ein Vision Transformer diese Eigenschaften selbst. Auf großen Datensätzen wie JFT-300M übertraf der ViT entsprechend trainierte CNNs deutlich und setzte neue Bestmarken in der Bildklassifikation.

Heute sind Vision Transformer die Grundlage vieler moderner Vision-Modelle (DINOv2, SAM, CLIP, MAE) und multimodaler Systeme, die Bild und Sprache kombinieren. In der Praxis kommen sie überall zum Einsatz, wo CNNs früher dominierten: Bildklassifikation, Objekterkennung, Segmentierung und Bilderverständnis in großen multimodalen LLMs.

Verwandte Begriffe