(Eigenständige) Archivierung von Webseiten

Olwert · 15. Dezember 2025 um 18:55

Hat jemand von euch schon Erfahrungen mit der Archivierung von Webseiten und in diesem Zusammenhang mit der eigenständigen Anwendung von Webcrawlern gemacht?
Mein Haushalt erlaubt (leider?) die Involvierung eines Dienstleisters nicht, sodass die dem Thema interessiert gegenüberstehende IT-Abteilung und ich die Sicherung der alsbald abzulösenden zentralen Homepage unserer Behörde selbst angehen wollen. Die Homepage ist dankenswerterweise technisch nicht allzu aufwendig, weshalb keine großartige Java-Show und/oder Flash-Animationen ihrer Bewahrung harren.

delaisab · 6. Januar 2026 um 07:22

Tatsächlich haben wir für eine Auswahl von Webseiten eine Lösung mit Heritrix umgesetzt. Heritrix läuft auf einem Linuxserver und wir crawlen die Webseitenauswahl ein bis zweimal pro Jahr und sichern die Abbilder auf den eigenen Servern. Die Umsetzung hat meiner Einschätzung nach so circa 10-15 Arbeitsstunden gedauert. Wir sollten eigentlich eine ausführliche Dokumentation zur Einrichtung des Servers haben, die ich bei Bedarf gerne auch bereitstellen kann.

wobintosh · 6. Januar 2026 um 09:39

Die Kolleg*innen in Hannover haben sich da m.W. grade reingearbeitet, haben aber scheinbar noch nicht den Sprung ins Forum geschafft. Werde ich Ihnen, wenn ich morgen wieder im Büro bin, mal nahelegen

Olwert · 6. Januar 2026 um 18:16

Das klingt in der Tat sehr interessant. Wenn du die Dokumentation ohne allzu großen Aufwand finden kannst, würde ich mich über Zusendung an die bekannte Adresse freuen.
Oder vielleicht kannst du es auch hier im Forum posten, wenn auch nicht 1:1.

Marian · 13. Januar 2026 um 15:21

Wir testen aktuell verschiedene Crawler. Neben Heritrix nutzen wir Browsertrix, wget und haben erste Crawls mit Brozzler durchgeführt.
Browsertrix und Brozzler arbeiten etwas anders als Heritrix oder wget und ähneln in ihrer Arbeitsweise eher einem echten Nutzer, der die Inhalte tatsächlich “absurft” (man kann den Crawlern sogar live bei der Arbeit zusehen). Das hat gerade bei der Verwendung von Javaskript auf den Webseiten große Vorteile gegenüber dem reinen “Einsammeln” der einzelnen Webseiten.

Wir betreiben für die Crawler einzelne Docker-Container aber gerade wget lässt sich bspw. auch extrem leicht über Konsole nutzen (Linux vorausgesetzt).

Hier jetzt pauschal zu sagen, nutzt diesen oder jenen Crawler ist nicht ganz einfach. Ich persönlich würde immer erst mal einen Versuch mit wget starten und mir das Ergebnis ansehen, da (zumindest in unseren Tests) wget einfach “abartig” schnell ist im Vergleich zu den “professionellen” Crawlern und die Ergebnisse, bspw. beim Crawlen von Webseiten im nds. Landes-CMS, ausgezeichnet sind.

Vermutlich werden wir uns final bei den meisten Webseiten auf Browsertrix fokussieren; das Projekt ist jedoch noch nicht final abgeschlossen.

Olwert · 13. Januar 2026 um 16:44

Auch für diese Hinweise vielen Dank.
Ich werde den Kollegen der IT mal die verschiedenen Anwendungen vorstellen und bin auch über die Kompatibilität mit unserer Serverinfrastruktur gespannt.

delaisab · 19. Januar 2026 um 20:05

Wenn jemand an unserer Lösung Interesse hat, kann man mich gerne anschreiben. Ich sende dann die Doku zu.

Olwert · 1. April 2026 um 16:53

Zwischenergebnis:
Unsere Haus-IT hat den Heretrix-Crawler recht gut zum Laufen bekommen und soweit ich nach einer Analyse mittels https://replayweb.page/ sagen kann, auch alle relevanten Inhalte, wie Bilder, Videos und GIF erfasst. Es kamen sogar Inhalte zum Vorschein, mit denen selbst das Medien- und Kommunikationsteam nicht mehr gerechnet hat (u.a. Präsentation von Wahlergebnissen aus den frühen 2000ern).
Insofern war es ein gelungenes Experiment und die alte, mittlerweile deaktivierte Homepage konnte vorerst für die Nachwelt gesichert werden. Daher nochmal herzlichen Dank an alle Tipp- und Hinweisgeber.