In ihrem Beitrag „Seeing History Unseen: Evaluating Vision-Language Models for WCAG-Compliant Alt-Text in Digital Heritage Collections“ evaluieren Moritz Mähr und Moritz Twente die den Einsatz von visuellen Sprachmodellen hinsichtlich ihrer Fähigkeit, barrierefreie Alternativtexte (alt-Text) gemäß den WCAG-Richtlinien (Web Content Accessibility Guidelines) für digitale Kulturerbesammlungen zu generieren: Seeing History Unseen: Evaluating Vision-Language Models for WCAG-Compliant Alt-Text in Digital Heritage Collections
Der Fokus liegt darauf, wie diese Modelle genutzt werden können, um visuelle Inhalte von historischen und kulturellen Sammlungen so zu beschreiben, dass sie für blinde und sehbehinderte Menschen zugänglich sind. Dabei werden Herausforderungen und Potenziale von automatisierten Bildbeschreibungen im Kontext digitaler Archive und Museen untersucht, um die Zugänglichkeit und inklusiven Nutzung dieser Bestände zu verbessern. Während sich hier durchaus spannende Potentiale bieten, werden durch die Modelle jedoch auch Fakten halluziniert oder unreflektiert historische Vorurteile reproduziert.
Die zum Projekt erstellten Daten und Code sind unter https://maehr.github.io/chr2025-seeing-history-unseen/paper veröffentlicht.