Import von Forschungsinformationen
Ab Versin 4.9 bietet GRIS die Möglichkeit, Daten aus verschiedenen Quellen in das Eingabeformular zu importieren. Neben Open Alex, DOI, ORCID und PubMed ist auch der Import von Bibtex als Datei möglich.
Importformate
Die Importformate unterscheiden sich teilweise stark in der Menge und Ausführlichkeit der vorhandenen Daten. Deshalb stellt GRIS für jedes Format ein individuelles Mapping zur Verfügung, was bei Bedarf seitens der Entwickler*innen angepasst werden kann. Die Datenqualität ist unabhängig vom Format und vom Mapping. Sie hängt viel mehr von der sorgfältigen Erfassung der jeweiligen Attribute während der Eingabe ab. Um den Import kontrollieren und gegebenenfalls anpassen und ergänzen zu können, wird er zunächst in das Standardformular geladen und angezeigt. Eine Speicherung findet erst nach dem Anklicken des entsprechenden Buttons statt.
Open Alex
OpenAlex ist ein großer Katalog wissenschaftlicher Werke (Artikel, Datensätze, Bücher, Dissertationen). Er enthält zahlreiche Metadaten und Verbindungen zwischen den einzelnen Objekte (Zeitschriften, Autoren, Institutionen, Zitate, Konzepte, Förderer).
Zum Austausch dieser Metadaten stellt OpenAlex eine struturierte und gut dokumentierte REST-Schnittstelle zur Verfügung über die GRIS Zugriff auf die einzelnen Datenfelder hat. Die Datenqualität ist hoch und die Verfügbarkeit sehr gut.
DOI
DOI (Digital Object Identifier) ist ein persistenter, eindeutiger Identifikator für digitale Objekte wie wissenschaftliche Artikel, Datensätze oder Bücher. Er hat eine strukturierte Form (z. B. 10.1234/abcd) und verweist dauerhaft auf die zugehörige Ressource. DOIs werden von Registrierungsstellen wie Crossref oder DataCite vergeben und verwaltet. Über https://doi.org erfolgt per HTTP-Weiterleitung die Auflösung zur aktuellen URL der Ressource.
Für Abfragen stellen mehrere Anbieter eine REST-API zur Verfügung, die DOI‑Metadaten als JSON liefert. Allerdings sei an dieser Stelle anzumerken, dass die Schemata nicht einheitlich sind und die Verwendung der Felder teilweise abweichen. Deshalb kann es bei DOI vorkommen, dass das Mapping nicht alle Felder zuordnen kann oder bestimmte DOIs gar nicht aufgelöst werden können. Im Allgemeinen ist das System jedoch zuverlässig und die Daten besitzen eine hohe Qualität.
ORCID
ORCID (Open Researcher and Contributor ID) ist ein persistenter, global eindeutiger Identifikator für Forschende. Die ORCID verknüpft Publikationen, Datensätze, Affiliationen und Forschungsaktivitäten mit einer Person. Betrieben von einer Nonprofit‑Organisation hat sich ORCID in der Forschungslandschaft zu einem häfig verwendeten Standard entwickelt.
Per REST‑API stellt auch ORCID verscheidene Metadaten frei zur Verfügung. Allerdings hat sich gezeigt, dass die Datenqualität nicht optimal ist. Deshalb benutzt GRIS nicht die ORCID-Daten selbst, sondern fragt über die dort hinterlegte DOI (falls vorhanden) die entsprechenden Metadaten ab.
Bibtex
BibTeX ist ein Literaturverwaltungsformat und ein Programm zur Formatierung von Literaturverzeichnissen für LaTeX‑Dokumente. Literaturdaten werden in .bib‑Dateien als Einträge (article, book, etc.) mit Feldern wie author, title, year gespeichert. Viele Tools (JabRef, Zotero, Mendeley) unterstützen Import/Export von BibTeX und erleichtern Pflege sowie Austausch der Bibliographie.
Alle Metadaten werden nach einer festen Syntax als einfache Textdatei gespeichert und können in GRIS über einen Dateiupload importiert werden. Befinden sich mehrere Einträge in der BIB-Datei, verwendet GRIS jeweils den ersten für den Import.
Ansicht der Rohdaten
Zur Kontrolle der importierten Felder werden in einem neuen Reiter auf der Detailseite die Rohdaten angezeigt, die von der Schnittstelle oder aus der Datei eingelesen wurden. Damit lassen sich eventuelle Probleme beim Mapping oder bei der Verarbeitung besser erkennen und gegebenenfalls die Werte von Hand übertragen.
Mögliche Probleme
Bei der Übertragung der Importdaten können verschiedene Fehler auftreten. Diese müssen jedoch nicht immer durch Bugs im Code verursacht werden:
Bugs im Code
Bugs im Code können trotz sorgfältiger Prüfung und Tests vorkommen. Zur Behebung kann innerhalb des GRIS-Konsortiums ein GIT-Ticket eingestellt werden. Externe Nutzende können Anfragen an die gris[at]gesis.org richten. Der Patch wird von den Entwickler*innen über GIT veröffentlicht.
Netzwerkprobleme
Für Abfragen von Dienste über eine API benötigt GRIS eine Netzwerkverbindung. Je nach Geschwindigkeit und Bandbreite kann es zu Timeouts kommen. Außerdem muss sichergestellt werden, dass der jeweilige Dienst selbst erreichbar ist. Auch hier kann es zu Ausfällen kommen.
Falsche Mapping-Einträge
Falsch Mappingeinträge können verschiedene Ursachen haben. Beispielsweise, weil sich Metadatenschemata geändert haben oder andere Felder benutzt werden. Zwar versuchen die Anbieter solchen Problemen mit Standardisierung zu entgegnen, es kommt jedoch trotzdem vor, dass Nutzende diese Regeln nicht beachten und Daten bereits auf der Quellseite falsch zuordnen oder auslassen. In diesem Fall empfiehlt sich ein Vergleich mit der Rohdatenanzeige in GRIS, um das Problem näher einzugrenzen.
Falsche oder fehlende Zuordnung von Personen
Die Zuordnung von Personen stellt den Importer vor eine große Herausforderungen. Oft sind die Daten nur als zusammenhängender String vorhanden, der zunächst durch einen Parser in die entsprechenden Namensteile zerlegt werden muss. Hinzu kommen Tippfehler, abweichende oder abgekürzte Schreibweisen und Änderungen der Personennamen. Letzteres kann beispielsweise durch Heirat oder Scheidung der Fall sein.
Für die Zuordnung externer und internen Personeneinträge greift bei GRIS ein dreistufiger Prozess:
- Suche unter den institutseigenen (internen) Personeneinträgen: Bei Treffer wird die vorhandene Personennamen-ID zugeordnet
- Suche unter den externen Personeneinträgen: Bei Treffer wird die vorhandene Personennamen-ID zugeordnet
- Anlegen eines neuen Eintrags und Zuordnung der neuen ID
Falsche oder fehlende Zuordnung von Ressourcentypen
Für alle Import-Quellen sind Zuordnungen für die Ressourcentypen als Mapping hinterlegt. Falls Ressourcentypen jedoch individuell bearbeitet wurden, muss die Zuordnung angepasst werden, damit der gewünschte Typ während des Imports auch gefunden wird. Diese Zuordnung kann unter Import → Ressourcentyp-Mappings bearbeiten editiert werden. Dazu wird in der Tabelle die Zeile mit dem Quelltyp markiert und rechts ein GRIS-Ressourcentyp zugeordnet. Noch nicht zugewiesene Typen sind rot markiert.
In der Spalte Standard wird jeweils der Standardzuordnung bei einer Neuinstallation angezeigt.
Fehlerhafte Eingabedaten
Wie bereits oben erwähnt, können bereits die Eingabedaten Fehler enthalten. Felder können falsch oder gar nicht ausgefüllt sein. Auch hier empfiehlt sich ein Blick in die Rohdatenanzeige.
Timeouts
API-Abfragen unterliegen zeitlichen Beschränkungen, nach denen das System den Vorgang abbricht. Die Ursachen dafür sind schlechte Netzwerkverbindungen oder eine gestörte Verfügbarkeit durch Ausfälle und Systemüberlastung auf der Quellseite. Zur Eingrenzung des Fehlers sollte die Netzwerkanbindung des GRIS-Servers und die Erreichbarkeit der API-Services vom IT-Aupport überprüft werden.
Fehlende Felder im Zielformular
Manche Felder werden durchaus korrekt importiert, können aber im Zielformular nicht dargstellt werden, weil das Feld nicht vorhanden ist. In solchen Fällen muss zunächst gerpüft werden, ob der richtige Ressourcentyp zugeordnet wurde. Falls nicht sollte dieser zuerst richtig eingestellt werden (sh. Falsche oder fehlende Zuordnung von Ressourcentypen weiter oben).