Crowdsourcing – Viele Hände und lernfreudige Maschinen

Die Plattform «VeleHanden» des Stadsarchief Amsterdam

Das Stadtarchiv von Amsterdam gehört zu den Pionieren archivischen Crowdsourcings. Seit 2011 fordern die holländischen Archivarinnen und Archivare die interessierte Öffentlichkeit dazu auf, dem Stadtarchiv dabei zu helfen, die Inhalte der gescannten handschriftlichen Dokumente des Stadtarchivs durchsuchbar zu machen.

Als das Amsterdamer Stadtarchiv seine «Archiefbank» online zugänglich machte, war das zunächst ein grosser Erfolg. Einige Nutzer*innen bemängelten jedoch, dass die Dokumente nicht direkt online zugänglich waren. Das Stadtarchiv richtete daraufhin einen On-Demand-Scanning-Service ein und die Nutzung durch die interessierte Öffentlichkeit stieg an. Dennoch fanden viele Benutzer die für sie relevanten Dokumente und Informationen nicht, weil sie nach Namen, Ortschaften und Adressen suchten, die in den Archivmetadaten jedoch nicht vorhanden waren.

Das Stadtarchiv hatte weder die personellen noch die finanziellen Mittel, um solche Indexe selbst zu erstellen. Das Projekt «Vele Handen» - viele Hände, sollte mithilfe von interessierten Freiwilligen Abhilfe schaffen. So entstanden die Idee und zugleich der Name der Crowdsourcing-Plattform. Das Ziel von «VeleHanden» war es, eine Plattform zu schaffen, die allen niederländischen Archiven offensteht. Finanziell unterstützt wurde der Aufbau der Plattform von der Mondriaan Foundation und dem VSBfonds. Als Betreiberin der Plattform tritt die Firma Picturae B.V. auf. Wenn Archive «VeleHanden» nutzen möchten, zahlen sie eine Servicegebühr, die sich nach Grösse, Komplexität und Dauer einer Kampagne richtet. Die über die Plattform angebotenen Imagedateien, die Metadaten und die von der Crowd erstellten Informationen bleiben unter der Kontrolle des Herkunftsarchivs. Bereits bei der Entwicklung des Tools wurde die Crowd miteinbezogen. Über seinen Newsletter suchte das Stadtarchiv Freiwillige, die sich an den Tests beteiligen.

 

Die Plattform

Auf der Homepage von VeleHanden finden sich allgemeine Informationen über die Plattform. So ist das Crowdsourcing nicht offen, sondern verläuft in zeitlich begrenzten Kampagnen. Auf den Unterseiten der Homepage werden diese Kampagnen ausführlich vorgestellt. Neben einer Beschreibung der Quelle, des Auftrags und aktuellen Neuigkeiten, finden sich hier auch Informationen über die Art und Weise der Belohnung der Crowd für ihre Arbeit, sowie Statistiken zum Stand der Kampagne und Hinweise auf herausragende Leistungen einzelner Teilnehmer*innen. Ein weiterer wichtiger Faktor für die Motivation der Crowd ist das Forum, auf dem die Teilnehmer*innen Fragen stellen, aber auch interessante Erkenntnisse untereinander austauschen können. Die Pflege der Crowd wird über das ganze Jahr hinweg durch Veranstaltungen ergänzt. Es ist VeleHanden wichtig, dass die Crowd unmittelbar spürt, dass ihre Arbeit für die Gesellschaft und insbesondere für die gegenwärtige und zukünftige Forschung relevant ist.

Das Crowdsourcing-Tool ist so eingerichtet, dass je nach Kampagne Seiten von verschiedenen Teilnehmer*innen ein- oder mehrfach bearbeitet werden können. Für die meisten Kampagnen wird die doppelte Bearbeitung gewählt. Teilnehmer*innen wählen nach der Registrierung eine Kampagne aus, an der sie sich beteiligen möchten. Sie erhalten anschliessend einen ersten Scan zugeteilt und geben die gewünschten Daten ein. Ist die Seite abgeschlossen, wird vom System sogleich der nächste Scan geliefert. Scans die keine nutzbaren Informationen enthalten, wie zum Beispiel der Umschlag eines Bandes, können per Knopfdruck als «unbrauchbar» ausgewiesen werden.

Indexierung in der aktuellen Kampagne «Alle Amsterdamse Akten»

Erfahrene Teilnehmer*innen, die sich bewährt haben, können vom Kampagnen-Manager zum Controller erhoben werden. Controller überprüfen die Eingaben. Wurde eine Seite mehrfach bearbeitet, hebt das System Unterschiede in den Resultaten hervor. Der Controller kann entscheiden, welche Lösung die korrekte ist, oder kann selbst Daten eingeben. Ist auch der Controller unsicher, wie die korrekte Lösung lautet, kann er per Knopfdruck eine E-Mail an die/den zuständigen Expertin/Experten des Archivs senden. Erst wenn der Controller seine Arbeit abgeschlossen hat, werden die Daten freigeschaltet.

Die mit dem Crowdsourcing verdienten Belohnungspunkte können Teilnehmer*innen z.B. gegen Museumseintritte, Blumen oder Schokolade eintauschen.

 

Die Kampagnen

Die erste Crowdsourcing-Kampagne wurde 2011 lanciert. Sie hatte die landesweite Indexierung aller niederländischen Militärregister zum Ziel. Bei den Registern handelt es sich um eine fruchtbare Quelle für die Ahnenforschung, weil bei der obligatorischen Rekrutierung für die Armee jeder 19-jährige Mann registriert wird. Bei diesem Quellenbestand konnte deshalb von einem grossen öffentlichen Interesse ausgegangen werden. Der Erfolg der Kampagne war denn auch überwältigend und während der Laufzeit von vier Jahren wurden über 75'000 Scans bearbeitet sowie mehr als 450'000 Namen, Geburtsdaten und Geburtsorte indexiert. In weiteren Kampagnen wurden von der Crowd andere Daten erfasst. So wurden in der Kampagne Amsterdamse Monumenten anhand von Fotos aus der Bilddatenbank Teilnehmer*innen gebeten das Bild zu beschreiben (Adresse, Namen des Objekts, Fotograf, Entstehungsjahr der Fotografie) und in Van de kaart wurden Karten des Stadtarchivs Amsterdam georeferenziert.

Kampagnen-Liste auf der Webseite von «VeleHanden» (Stand 11.9.2019)

 

Noch nicht abgeschlossen, ist die Kampagne Alle Amsterdamse Akten. Die Notariatsakten aus dem Zeitraum 1578-1915 enthalten vielfältige Informationen u.a. über bekannte und weniger bekannte Bewohner*innen und Besucher*innen Amsterdams, internationalen Handel, Schifffahrt, Sklaverei, Augenzeugenberichte von in Seenot Geratenen, Schlägereien in Gasthäusern und illegalen Spielhäusern. Die Quellen werden von der Crowd nach Datum, Art des Dokuments, Personennamen und geographischem Standort indiziert. Nach der Bearbeitung werden die erhobenen Daten von einem Controller und nach Bedarf zusätzlich von einer/einem Expertin/Experten des Stadtarchivs überprüft. Der Input der Crowd wird direkt nach der Überprüfung in den stetig wachsenden Index auf der Website des Amsterdamer Stadtarchivs aufgenommen. Bis Ende September 2019 haben 816 Teilnehmer*innen über 370’000 Seiten bearbeitet.

 

Die Crowd lehrt Computer lesen

Die Amsterdamer Notariatsakten stehen auch im Zentrum eines noch weitergehenden Vorhabens. Seit 2019 ist das Stadtarchiv im Rahmen der Kampagne Crowd leert computer lezen (CLCL) dabei, die vollständigen Texte der Akten 1578-1800 in transkribierter Form zugänglich zu machen. Wie es der Name der Kampagne bereits andeutet, wird die Crowd dazu eingesetzt in Kombination mit Machine-Learning-Methoden, Algorithmen für das Lesen von handschriftlichen Texten zu trainieren. Dazu wird Transkribus, eine Plattform zur Handschriftenerkennung (HTR), Bilderkennung (Layout Analysis) und Strukturerkennung von Texten, eingesetzt. Dazu hat Picturae B.V. die Eingabemaske von Transkribus direkt in VeleHanden eingebettet. Die Vorbereitung der Kampagne und technische Umsetzung dauerte rund ein Jahr. Auf Seiten des Amsterdamer Stadtarchivs beschäftigen sich Mitarbeitende im Umfang von 1 -1.5 Vollzeitäquivalenten mit der Kampagne.

Schwierigkeitsgrad 1 - Beispiel einer Urkunde aus dem 18. Jahrhundert

Die Aufgabe der Crowd in dieser Kampagne ist es, den Algorithmus mit soviel transkribiertem Text eines Notars zu versorgen, dass er ein Modell erstellen kann, das eine möglichst fehlerfreie automatisierte Handschriftenerkennung erreicht. Dazu werden 100 Seiten pro Notar zur Transkription freigegeben. Wurden diese von der Crowd transkribiert, prüft «VeleHanden», ob das Modell bereits eine akzeptable Fehlerquote (Character Error Rate, CER) von ca. 5% erreicht. Liegt die CER zu hoch, werden zusätzliche Akten desselben Notars zur Transkription freigegeben, damit aus mehr Trainingsmaterial ein besseres Modell erstellt werden kann. Die fehlerhafte Transkription des noch nicht ausgereiften Modells wird nun als Lesehilfe verwendet. Die Crowd wird nun dazu eingesetzt, die Fehler im computergenerierten Text zu korrigieren. Durch die Korrektur und Nachschulung lernt das Modell jedes Mal dazu.

Liste der Notare für deren Handschrift mithilfe von Transkribus ein Modell trainiert wurde. In Klammer steht die Anzahl Scans die als Trainingsmaterial transkribiert werden musste, um eine akzeptable CER zu erhalten

Transkribieren ist eine anspruchsvolle und oft auch langwierige Arbeit. Deshalb hat das Amsterdamer Stadtarchiv die Akten in 5 Schwierigkeitsgrade gegliedert. Einsteigern wird empfohlen, mit Schwierigkeitsgrad 1 zu beginnen. Wer über Grundkenntnisse in Paläographie verfügt, kann es mit Level 3 versuchen. Trotz der anspruchsvollen Aufgabe und der erst kurzen Laufzeit von 9 Monaten ist die Grösse der Crowd mit über 200 Beteiligten auch bei dieser Kampagne bereits beachtlich. Auf den wichtigsten Tipp für Archive angesprochen, die mit Crowdsourcing beginnen möchten, meint Mark Ponte vom Stadtarchiv Amsterdam: «Nimm die Crowd ernst, belohne sie, schenke ihr deine Aufmerksamkeit.» Dass dies «VeleHanden» gelingt, beweist eine Crowd von bisher insgesamt fast 16'000 Teilnehmer*innen.

 

Infobox

Stadsarchief Amsterdam, Vijzelstraat 32, 1017 HL Amsterdam

https://velehanden.nl

Kontakt: Mark Ponte (M.Ponte@amsterdam.nl)

Schreibe einen Kommentar