Reconciliation mit lobid, OpenRefine und Cocoda bei der GNDCon

18 Jun 2021, Adrian Pohl, Fabian Steeg, Jakob Voß | 🏷 lobid-gnd 

In der letzten Woche fand die GNDCon 2.0 statt. Die zweite Ausgabe der GNDCon wurde dezentral veranstaltet. Verschiedene Akteure übernahmen dabei die inhaltliche Umsetzung und kümmerten sich um das technische Hosting für eine “MiniCon”. Wir haben gemeinsam mit Jakob Voß von der Verbundzentrale des GBV die MiniCon “Wie verlinken wir unsere Daten mit der GND?” angeboten.

Die Logos von ColiConc, OpenRefine, lobid und GND

Reconciliation als Grundlage für die Verlinkung mit Normdaten

Grundlage einer solchen Verlinkung eigener Daten ist ein Abgleich dieser Daten mit der GND. Dieser zugrunde liegende Prozess des Datenabgleichs wird auch als Reconciliation bezeichnet. Adrian bestimmte in seinem Einleitungsvortrag Reconciliation wie folgt:

“Reconciliation ist ein Prozess zum Abgleich von Namen und ggf. weiteren Attributen (einer Person, eines Ortes, eines Schlagworts etc.) mit jeweils einem Eintrag innerhalb einer Normdatei”

Anwendungsfälle gibt es viele, allein schon im Kontext der Gemeinsamen Normdatei (GND) wollen viele Akteure aus Museen und Archiven oder etwa den Digital Humanities eigene Daten mit der GND verknüpfen. Neben der GND gibt es eine größere Anzahl weiterer Datenquellen, für die eine Reconciliationschnittstelle angeboten wird. Der große Bedarf an Möglichkeiten zur Reconciliation mit Normdatenquellen – nicht nur im Bibliotheksbereich – wurde von der Community erkannt und hat zur Gründung einer Entity Reconciliation Community Group (CG) im Rahmen des World Wide Web Consortium (W3C) geführt. Das lobid-Team ist mit Adrian und Fabian in der Gruppe vertreten, siehe auch Fabians Blogbeitrag “Supporting reconciliation from a library perspective”.

Die Entity Reconciliation CG zielt mittelfristig auf die Spezifikation eines allgemeinen Protokolls für den Datenabgleich im Web ab. In einem ersten Schritt wird zunächst die bestehende API der Reconciliation-Funktionalität in OpenRefine spezifiziert. OpenRefine ist – auch im Bibliotheksbereich – eines der meistbenutzten und -bewährten Werkzeuge für Datenbereinigung und -abgleich und wird als Essential Open Source Software for Science gefördert. Als generisches tabellenbasiertes Werkzeug zur Bereinigung und Transformation von Daten ermöglicht OpenRefine auch die Verknüpfung mit verschiedenen Normdatenquellen und die darauf folgende Anreicherung aus den verknüpften Normdaten.

Reconciliation von lokalen Daten und der GND mit OpenRefine

In seiner Präsentation zur OpenRefine Reconciliation mit lobid-gnd gab Fabian zunächst einen Überblick zu den Datenquellen und der Rechercheoberfläche von lobid-gnd. Die Oberfläche dient hier zum Erkunden der Daten, deren Verständnis eine wichtige Grundlage für einen erfolgreichen Abgleich darstellt.

Im Anschluss wurde zunächst das grundsätzliche Vorgehen beim Datenabgleich mit der Reconciliation-Schnittstelle von lobid-gnd in OpenRefine vorgestellt, sowie die darauf aufbauende Anreicherung auf Basis der abgeglichenen GND-Einträge.

Schließlich wurden verschiedene Strategien zur Verbesserung der Qualität des Abgleichs vorgestellt, insbesondere die Verwendung zusätzlicher lokalen Daten (z.B. Lebensdaten und Berufe) als Merkmale zur Disambiguierung der abzugleichenden Namen.

Reconciliation von Normdaten untereinander mit Cocoda

Mit Cocoda wurde im zweiten Teil der MinCon eine Webanwendung vorgestellt, die ebenfalls die Reconciliation API verwendet, um passende Einträge in der GND oder in anderen Normdateien zu finden. Wie Jakob in seiner Präsentation und einer kurzen Live-Demo zeigte, ist Cocoda im Rahmen des Projekt coli-conc vor Allem entwickelt worden um verschiedene Klassifikationen durch Mappings aufeinander abzubilden. Herausgekommen ist allerdings auch eine Infrastruktur zum einheitlichen Zugriff auf unterschiedlichste Vokabulare, darunter GND, RVK, DDC und Wikidata.

In Cocoda lassen sich nicht nur Vokabulare auf die GND abbilden sondern auch vorhandene Mappings von und auf die GND durchsuchen. Eine Besonderheit von Cocoda ist, dass einzelne Mappings mit ihrer Provenienz gespeichert werden und mit einem Review-System auch komplexere Workflows zur Qualitätssicherung umgesetzt werden können. Der Vortrag schloss mit einem Vergleich von Cocoda und OpenRefine um Anhaltspunkte zu geben wann welches Werkzeug besser geeignet ist.

Diskussion

Schon während der Vorträge entstand im Chat eine lebhafte Diskussion, die zum Teil in Pausen, zum Teil nach den Vorträgen im Plenum aufgegriffen wurde. Den vollständigen Chatverlauf und die Ergebniss von zwei Umfragen finden sich im Etherpad zu der Veranstaltung.

So wurde etwa das Einspielen eigener Daten angesprochen, wenn die GND keinen passenden Eintrag enthält. In OpenRefine lässt sich eine Liste von nicht gemappten Einträgen exportieren, um anschließend beispielsweise im GND-Redaktionsystem neue GND-Einträge zu erstellen. In Cocoda ist es möglich, zumindest auf übergeordnete Einträge zu mappen. Eine Vorschlagsfunktion für neue GND-Einträge ist in Cocoda angedacht, erfordert jedoch die Anbindung an eine Schreib-API für neue Begriffe. Solch eine API könnte auch in OpenRefine verwendet werden um direkt aus der Anwendung Ergänzungen in die GND aufzunehmen, vergleichbar mit der in OpenRefine enthaltenen Extension zum Import in Wikidata.

In der Runde des Resümees am Ende des Tages wurde mit Vertreter*innen verschiedener technisch orientierter MiniCons über die technische Weiterentwicklung der GND diskutiert. Auch hier war der Datenabgleich ein Thema, insbesondere wurde die Bedeutung von Standards bei der Zusammenarbeit in einer verteilten Infrastruktur wie der GND-Kooperative betont.

Zugleich wurde deutlich, wie herausfordernd eine konsolidierte webbasierte Bereitstellung der GND-Daten ist. Die Daten liegen originär in traditionell bibliothekarischen Datenformaten vor (Internformat Pica, Austauschformat MARC), die sich nicht unmittelbar für die Webentwicklung eignen. Deshalb bildet für lobid-gnd der Linked-Data-Service (LDS) der DNB die Datenbasis, allerdings bilden die LDS-Daten nicht alle Informationen aus den Pica-Daten ab. Die Möglichkeit einer kollaborativen Weiterentwicklung der LDS-Daten wäre aus unserer Sicht ein wichtiger Schritt hin zu mehr Zusammenarbeit in der GND-Kooperative bei der Entwicklung neuer bzw. Konsolidierung bestehender GND-Webangebote.

Comments? Feedback? Just add an annotation with hypothes.is.