In dieser Arbeit soll untersucht werden, ob durch die Kombination akustischer und visueller Merkmale von Videodaten eine Verbesserung der automatischen Klassifikation, Segmentierung und Ahnlichkeitssuche moglich ist. Dazu wird jeder dieser Schwerpunkte sowohl mit rein akustischen als auch mit rein visuellen Methoden getestet, um Verbesserungen durch die Kombination beider Modalitaten bei der Metadatenverarbeitung festzustellen. Die Videoauswahl beschrankt sich auf Musikvideos, da diese ein breites Spektrum moglicher Stilrichtungen und Merkmalsauspragungen enthalten. Die Ziele der Arbeit sind dabei 1. Herauszufinden, ob durch Kombination akustischer und visueller Merkmale eine bessere Klassifikation moglich ist, 2. Die unimodale Segmentierung nach akustischen und visuellen Merkmalen zu untersuchen und eine verknupfte Segmentierung zu erstellen und zu testen und 3. Eine Ahnlichkeitssuche nach multimodalen Gesichtspunkten durchzufuhren und deren Ergebnisse mit denen unimodaler Suchen zu...