Hat jemand von euch schon Erfahrungen mit der Archivierung von Webseiten und in diesem Zusammenhang mit der eigenständigen Anwendung von Webcrawlern gemacht?
Mein Haushalt erlaubt (leider?) die Involvierung eines Dienstleisters nicht, sodass die dem Thema interessiert gegenüberstehende IT-Abteilung und ich die Sicherung der alsbald abzulösenden zentralen Homepage unserer Behörde selbst angehen wollen. Die Homepage ist dankenswerterweise technisch nicht allzu aufwendig, weshalb keine großartige Java-Show und/oder Flash-Animationen ihrer Bewahrung harren.
Tatsächlich haben wir für eine Auswahl von Webseiten eine Lösung mit Heritrix umgesetzt. Heritrix läuft auf einem Linuxserver und wir crawlen die Webseitenauswahl ein bis zweimal pro Jahr und sichern die Abbilder auf den eigenen Servern. Die Umsetzung hat meiner Einschätzung nach so circa 10-15 Arbeitsstunden gedauert. Wir sollten eigentlich eine ausführliche Dokumentation zur Einrichtung des Servers haben, die ich bei Bedarf gerne auch bereitstellen kann.
Die Kolleg*innen in Hannover haben sich da m.W. grade reingearbeitet, haben aber scheinbar noch nicht den Sprung ins Forum geschafft. Werde ich Ihnen, wenn ich morgen wieder im Büro bin, mal nahelegen ![]()
Das klingt in der Tat sehr interessant. Wenn du die Dokumentation ohne allzu großen Aufwand finden kannst, würde ich mich über Zusendung an die bekannte Adresse freuen.
Oder vielleicht kannst du es auch hier im Forum posten, wenn auch nicht 1:1. ![]()
Wir testen aktuell verschiedene Crawler. Neben Heritrix nutzen wir Browsertrix, wget und haben erste Crawls mit Brozzler durchgeführt.
Browsertrix und Brozzler arbeiten etwas anders als Heritrix oder wget und ähneln in ihrer Arbeitsweise eher einem echten Nutzer, der die Inhalte tatsächlich “absurft” (man kann den Crawlern sogar live bei der Arbeit zusehen). Das hat gerade bei der Verwendung von Javaskript auf den Webseiten große Vorteile gegenüber dem reinen “Einsammeln” der einzelnen Webseiten.
Wir betreiben für die Crawler einzelne Docker-Container aber gerade wget lässt sich bspw. auch extrem leicht über Konsole nutzen (Linux vorausgesetzt).
Hier jetzt pauschal zu sagen, nutzt diesen oder jenen Crawler ist nicht ganz einfach. Ich persönlich würde immer erst mal einen Versuch mit wget starten und mir das Ergebnis ansehen, da (zumindest in unseren Tests) wget einfach “abartig” schnell ist im Vergleich zu den “professionellen” Crawlern und die Ergebnisse, bspw. beim Crawlen von Webseiten im nds. Landes-CMS, ausgezeichnet sind.
Vermutlich werden wir uns final bei den meisten Webseiten auf Browsertrix fokussieren; das Projekt ist jedoch noch nicht final abgeschlossen.
Auch für diese Hinweise vielen Dank. ![]()
Ich werde den Kollegen der IT mal die verschiedenen Anwendungen vorstellen und bin auch über die Kompatibilität mit unserer Serverinfrastruktur gespannt.
Wenn jemand an unserer Lösung Interesse hat, kann man mich gerne anschreiben. Ich sende dann die Doku zu.