Metadata Quality Assessment Methodologie

Dieses Dashboard bewertet die Qualität der Metadaten der Datensätze von opendata.swiss mittels der Metadata Quality Assessment (MQA) Methode. Das MQA ist ein von data.europa.eu entwickeltes Werkzeug zur Untersuchung der Qualität der vom europäischen Portal gesammelten Metadaten. Durch die Anwendung dieser Methodik auf der Ebene der Organisationen von opendata.swiss ermöglicht das Dashboard den Datenanbietenden, die Qualität ihrer Metadaten zu überprüfen und Verbesserungsvorschläge zu erhalten. Im Folgenden beschreiben wir die Funktionalität des Dashboards und die verwendete Methodik.

Haben Sie Fragen dazu, dann kontaktieren Sie uns unter opendata@bfs.admin.ch.

Umfang der Analyse

Mit dem auf opendata.swiss angewandten MQA möchten wir zwei zentrale Fragen beantworten:
Wie gut ist die Qualität der Metadaten der Datensätze von Organisationen, die auf opendata.swiss referenziert sind? Welche Barrieren müssen überwunden werden, um eine bessere Qualität zu erreichen?

Darauf aufbauend untersucht das MQA derzeit die folgenden Kriterien:

Konformität mit dem DCAT-AP CH-Standard
Offenlegung von Informationen, die nach dem DCAT-AP CH-Standard nicht zwingend erforderlich sind
Zugänglichkeit der in den Metadaten referenzierten Daten über die Access- und Download-URL
Maschinenlesbarkeit der referenzierten Datensätze
Verwendung von Lizenzen

Jede Frage führt zu individuellen Überprüfungen, die im Folgenden detailliert beschrieben werden.

Einschränkung der Analyse

Die auf opendata.swiss angewandte MQA-Methode untersucht nur die Metadaten, die im Katalog von opendata.swiss über ckan.opendata.swiss/catalog.jsonld gesammelt wurden.
Einige Indikatoren, die gemäss der MQA-Methode auf data.europa bewertet werden, können in diesem Dashboard nicht analysiert werden, da sie derzeit nicht im Katalog von opendata.swiss verfügbar sind. Dabei handelt es sich um die folgenden Indikatoren:

Zugänglichkeitsgrad (Wiederverwendbarkeit)
Zugänglichkeitsgrad aus Vokabular (Wiederverwendbarkeit)
DCAT-AP CH-Konformität (Interoperabilität)

Um eine faire und auf opendata.swiss zugeschnittene Bewertung zu gewährleisten und gleichzeitig die Gesamtkonsistenz der Methode zu wahren, werden die Punkte für diese Indikatoren automatisch an alle Datenanbietenden vergeben.

Hinweis: Das Portal data.europa.eu bewertet Portale, darunter auch opendata.swiss, nach der MQA-Methode. Die Bewertung von opendata.swiss auf data.europa.eu kann aufgrund der oben beschriebenen vorgenommenen Anpassungen von der Bewertung auf dem Dashboard abweichen.

Der Prozess

Das Dashboard basiert auf einem rigorosen und automatisierten Bewertungsprozess, der eine konsistente und aktuelle Analyse der Qualität der Metadaten gewährleistet.
Die Daten, die zur Berechnung der Punktzahlen verwendet werden, werden täglich aktualisiert. Die Qualität der Metadaten wird anhand einer Reihe von Indikatoren bewertet, die auf den FAIR-Prinzipien basieren. Jeder Indikator wird in den untenstehenden Tabellen pro Dimension erläutert. Nach der Bewertung der Indikatoren werden die Ergebnisse in übersichtlichen, interaktiven Grafiken dargestellt, die es erleichtern, Stärken und Verbesserungsaspekte zu identifizieren.

Annahmen

Der MQA basiert auf den folgenden Annahmen:

Verwendung von nicht-obligatorischen Feldern

Wir glauben, dass das Ausfüllen der DCAT-AP CH Pflichtfelder allein nicht ausreicht, um qualitativ hochwertige Metadaten zu liefern. Aus diesem Grund werden bei der Evaluierung auch Felder geprüft, die nach DCAT-AP CH nicht als Pflichtfelder angegeben sind. Die genauen Felder, die geprüft werden, sind unten aufgeführt.

Identischer Inhalt für mehrere Distributionen

Wenn ein Datensatz mehr als eine Distribution enthält, sind alle Distributionen inhaltlich identisch, sie unterscheiden sich nur in der Darstellung der Daten. Zum Beispiel kann ein Datensatz zwei Distributionen haben, von denen eine die Daten als PDF und die andere die identischen Daten als maschinenlesbares RDF/XML anbietet. Diese Definition bezieht sich auf die Art und Weise, wie Datensätze im MQA bewertet werden (eine Art "Best Practice"), sollte aber nicht als Standarddefinition von Distributionen angesehen werden. Gemäss diser Annahme wird nur die Distribution mit der höchsten Punktzahl zur Berechnung der Punkte für die Dimension Interoperabilität herangezogen.

Dimensionen

Dieser Abschnitt beschreibt alle Dimensionen, die der MQA untersucht, um die Qualität der Metadaten zu bestimmen. Die Dimensionen werden aus den FAIR-Prinzipien abgeleitet.

Auffindbarkeit

Die folgende Tabelle beschreibt die Metriken, die Menschen und Maschinen beim Auffinden von Datensätzen helfen. In diesem Bereich können maximal 100 Punkte erzielt werden.

Indikator	Beschreibung	Metrik	Gewichtung
Schlagwörter	Schlagwörter unterstützen direkt die Suche und erhöhen damit die Auffindbarkeit des Datensatzes.	Es wird geprüft, ob Schlagwörter definiert sind. Die Anzahl der Schlagwörter hat keinen Einfluss auf die Punktzahl. Dataset dcat:keyword	30
Kategorien	Kategorien helfen den Benutzern, Datensätze thematisch zu erforschen.	Es wird geprüft, ob dem Datensatz eine oder mehrere Kategorien zugeordnet sind. Die Anzahl der zugeordneten Kategorien hat keinen Einfluss auf die Punktzahl. Dataset dcat:theme	30
Räumliche Abdeckung	Die Nutzung räumlicher Informationen würde es den Nutzern ermöglichen, den Datensatz mit einer Suche mit räumlichem Bezug zu finden.	Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht. Dataset dct:spatial	20
Zeitliche Abdeckung	Die Verwendung von zeitlichen Angaben würde den Benutzern eine Suche mit Zeitbezug ermöglichen.	Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht. Dataset dct:temporal	20

Zugänglichkeit

Die folgende Tabelle beschreibt, welche Metriken verwendet werden, um festzustellen, ob der Zugriff auf die von den Distributionen referenzierten Daten gewährleistet ist. In diesem Bereich können maximal 100 Punkte erzielt werden.

Indikator	Beschreibung	Metrik	Gewichtung
Zugänglichkeit der AccessURL	Die AccessURL ist nicht unbedingt ein direkter Link zu den Daten, sondern kann auch auf eine URL verweisen, die den Zugriff auf den Datensatz ermöglicht oder unter der weiteren Informationen über den Datensatz verfügbar sind.	Die Zugänglichkeit der angegebenen URL wird mittels einer HTTP-HEAD-Anfrage überprüft. Wenn der zurückgegebene Statuscode im Bereich 200 oder 300 liegt, wird die Zugänglichkeit der Distribution positiv bewertet. Distribution dcat:accessURL	50
DownloadURL	Die DownloadURL ist ein direkter Link zu den referenzierten Daten.	Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht. Distribution dcat:downloadURL	20
Zugänglichkeit der Download URL	Wenn eine DownloadURL existiert, wird sie auf ihre Erreichbarkeit geprüft.	Die Zugänglichkeit der angegebenen URL wird mittels einer HTTP-HEAD-Anfrage überprüft. Wenn der zurückgegebene Statuscode im Bereich 200 oder 300 liegt, wird die Zugänglichkeit der Ressource positiv bewertet. Distribution dcat:downloadURL	30

Indikator

Beschreibung

Metrik

Gewichtung

Zugänglichkeit der AccessURL

Die AccessURL ist nicht unbedingt ein direkter Link zu den Daten, sondern kann auch auf eine URL verweisen, die den Zugriff auf den Datensatz ermöglicht oder unter der weiteren Informationen über den Datensatz verfügbar sind.

Die Zugänglichkeit der angegebenen URL wird mittels einer HTTP-HEAD-Anfrage überprüft. Wenn der zurückgegebene Statuscode im Bereich 200 oder 300 liegt, wird die Zugänglichkeit der Distribution positiv bewertet.

Distribution
dcat:accessURL

DownloadURL

Die DownloadURL ist ein direkter Link zu den referenzierten Daten.

Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht.

Distribution
dcat:downloadURL

Zugänglichkeit der Download URL

Wenn eine DownloadURL existiert, wird sie auf ihre Erreichbarkeit geprüft.

Distribution
dcat:downloadURL

Interoperabilität

Die folgende Tabelle beschreibt die Metriken, die zur Bestimmung der Interoperabilität einer Distribution verwendet werden. Gemäss der Annahme "identischer Inhalt mit mehreren Distributionen" wird nur die Distribution mit der höchsten Punktzahl zur Berechnung der Punkte herangezogen. In diesem Bereich können maximal 110 Punkte erzielt werden.

Indikator	Beschreibung	Metrik	Gewichtung
Format	Dieses Feld gibt das Dateiformat der Distribution an.	Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht. Distribution dct:format	20
Media Type	Dieses Feld gibt den Media Type der Distribution an.	Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht. Distribution dcat:mediaType	10
Format / Media type aus Vokabular	Prüft, ob Format und Media Type zu einem kontrollierten Vokabular gehören.	Das Vokabular für das Format kann in dem data.europa.eu GitLab-Repository gefunden werden. Der Medientyp wird gegen die IANA-Liste geprüft. Distribution dct:format dcat:mediaType	10
Nicht-proprietär	Prüft, ob das Format der Distribution nicht-proprietär ist.	Die Distribution wird als nicht-proprietär betrachtet, wenn das angegebene Format in der entsprechenden data.europa.eu GitLab-Repository Vokabular enthalten ist. Distribution dct:format	20
Maschinenlesbarkeit	Prüft, ob das Format der Distribution maschinenlesbar ist.	Die Distribution wird als maschinenlesbar betrachtet, wenn das angegebene Format in der entsprechenden data.europa.eu GitLab-Repository Vokabular enthalten ist. Distribution dct:format	20
DCAT-AP CH Konformität	Die DCAT-AP-Konformität wird für alle im Katalog verfügbaren Quellen und Datensätze berechnet.	Dieser Indikator ist derzeit nicht verfügbar.	30

Wiederverwendbarkeit

Die folgende Tabelle beschreibt, welche Metriken zur Überprüfung der Wiederverwendbarkeit der Daten verwendet werden. In diesem Bereich können maximal 75 Punkte erzielt werden..

Indikator	Beschreibung	Metrik	Gewichtung
Lizenz	Eine Lizenz ist eine wertvolle Information für die Wiederverwendung von Daten.	Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht. Distribution dct:license	20
Lizenzvokabular	Wir möchten die Angabe von falschen Lizenzinformationen einschränken.	Es wird geprüft, ob das kontrollierte Lizenzvokabular verwendet wird. Distribution dct:license	10
Zugänglichkeitsgrad	Dieses Feld gibt an, ob der Zugang zu den Daten öffentlich oder eingeschränkt ist.	Dieser Indikator ist nicht verfügbar, da diese Eigenschaft nicht auf opendata.swiss implementiert ist. Dataset dct:accessRights	10
Zugänglichkeitsgrad aus Vokabular	Die Verwendung eines kontrollierten Vokabulars erhöht die Wiederverwendbarkeit.	Dieser Indikator ist nicht verfügbar, da diese Eigenschaft nicht auf opendata.swiss implementiert ist. Dataset dct:accessRights	5
Kontakt	Die Kontaktstelle enthält Informationen, an wen Sie sich bei Fragen zu den Daten wenden können.	Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht. Dataset dcat:contactPoint	20
Publizierender	Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht.	Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht. Dataset dct:publisher	10

Kontext

Die folgende Tabelle zeigt einige einfache Eigenschaften, die dem Benutzer mehr Kontext bieten. In diesem Abschnitt können maximal 20 Punkte gesammelt werden.

Indikator	Beschreibung	Metrik	Gewichtung
Nutzungsbedingungen	In einigen Fällen kann eine bestimmte Lizenz nicht auf einen Datensatz angewendet werden. Das Feld "Rechte" kann verwendet werden, um einen Verweis auf eine Ressource anzugeben, der einen Benutzer über die Rechte informiert, die er bei der Nutzung des Datasets hat.	Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht. Distribution dct:rights	5
Grösse in Bytes	Gibt die Grösse der Datei in Bytes an.	Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht. Distribution dcat:byteSize	5
Veröffentlichungsdatum	Das Datum, an dem der Datensatz oder die Distribution veröffentlicht wurde.	Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht. Dataset und Distribution dct:issued	5
Aktualisierungsdatum	Das Datum, an dem der Datensatz oder die Distribution zuletzt geändert wurde.	Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht. Dataset und Distribution dct:modified	5

Bewertung

Die folgende Tabelle zeigt die verschiedenen Dimensionen, die im Rahmen der Methodik bewertet werden, sowie die maximale Punktzahl, die für jede Dimension vergeben werden kann.

Dimension	Maximale Punktzahl
Auffindbarkeit	100
Zugänglichkeit	100
Interoperabilität	110
Wiederverwendbarkeit	75
Kontext	20
Summe	405

Die endgültige Bewertung geschieht über vier Bewertungsgruppen. Die Zuordnung der Punkte zur Bewertungskategorie ist in der folgenden Tabelle dargestellt. Die Darstellung der Bewertung im MQA wird ausschließlich über die Bewertungskategorien ausgedrückt. Dies ermöglicht es den Anbietern, die höchste Bewertung trotz eines leichten Punktabzug zu erreichen.

Bewertung	Punktebereich
Ausgezeichnet	351 - 405
Gut	221 – 350
Ausreichend	121 – 220
Mangelhaft	0 - 120