Multimodale KI

KI-Modelle, die Text, Bild, Audio und Video gemeinsam verarbeiten.