Metadata Quality Assessment Methodologie
Dieses Dashboard bewertet die Qualität der Metadaten der Datensätze von opendata.swiss mittels der Metadata Quality Assessment (MQA) Methode. Das MQA ist ein von data.europa.eu entwickeltes Werkzeug zur Untersuchung der Qualität der vom europäischen Portal gesammelten Metadaten. Durch die Anwendung dieser Methodik auf der Ebene der Organisationen von opendata.swiss ermöglicht das Dashboard den Datenanbietenden, die Qualität ihrer Metadaten zu überprüfen und Verbesserungsvorschläge zu erhalten. Im Folgenden beschreiben wir die Funktionalität des Dashboards und die verwendete Methodik.
Haben Sie Fragen dazu, dann kontaktieren Sie uns unter opendata@bfs.admin.ch.
Umfang der Analyse
Mit dem auf opendata.swiss angewandten MQA möchten wir zwei zentrale Fragen beantworten:
Wie gut ist die Qualität der Metadaten der Datensätze von Organisationen, die auf opendata.swiss referenziert sind? Welche Barrieren müssen überwunden werden, um eine bessere Qualität zu erreichen?
Darauf aufbauend untersucht das MQA derzeit die folgenden Kriterien:
- Konformität mit dem DCAT-AP CH-Standard
- Offenlegung von Informationen, die nach dem DCAT-AP CH-Standard nicht zwingend erforderlich sind
- Zugänglichkeit der in den Metadaten referenzierten Daten über die Access- und Download-URL
- Maschinenlesbarkeit der referenzierten Datensätze
- Verwendung von Lizenzen
Jede Frage führt zu individuellen Überprüfungen, die im Folgenden detailliert beschrieben werden.
Einschränkung der Analyse
Die auf opendata.swiss angewandte MQA-Methode untersucht nur die Metadaten, die im Katalog von opendata.swiss über ckan.opendata.swiss/catalog.jsonld gesammelt wurden.
Einige Indikatoren, die gemäss der MQA-Methode auf data.europa bewertet werden, können in diesem Dashboard nicht analysiert werden, da sie derzeit nicht im Katalog von opendata.swiss verfügbar sind. Dabei handelt es sich um die folgenden Indikatoren:
- Zugänglichkeitsgrad (Wiederverwendbarkeit)
- Zugänglichkeitsgrad aus Vokabular (Wiederverwendbarkeit)
- DCAT-AP CH-Konformität (Interoperabilität)
Um eine faire und auf opendata.swiss zugeschnittene Bewertung zu gewährleisten und gleichzeitig die Gesamtkonsistenz der Methode zu wahren, werden die Punkte für diese Indikatoren automatisch an alle Datenanbietenden vergeben.
Hinweis: Das Portal data.europa.eu bewertet Portale, darunter auch opendata.swiss, nach der MQA-Methode. Die Bewertung von opendata.swiss auf data.europa.eu kann aufgrund der oben beschriebenen vorgenommenen Anpassungen von der Bewertung auf dem Dashboard abweichen.
Der Prozess
Das Dashboard basiert auf einem rigorosen und automatisierten Bewertungsprozess, der eine konsistente und aktuelle Analyse der Qualität der Metadaten gewährleistet.
Die Daten, die zur Berechnung der Punktzahlen verwendet werden, werden täglich aktualisiert. Die Qualität der Metadaten wird anhand einer Reihe von Indikatoren bewertet, die auf den FAIR-Prinzipien basieren. Jeder Indikator wird in den untenstehenden Tabellen pro Dimension erläutert. Nach der Bewertung der Indikatoren werden die Ergebnisse in übersichtlichen, interaktiven Grafiken dargestellt, die es erleichtern, Stärken und Verbesserungsaspekte zu identifizieren.
Annahmen
Der MQA basiert auf den folgenden Annahmen:
Verwendung von nicht-obligatorischen Feldern
Wir glauben, dass das Ausfüllen der DCAT-AP CH Pflichtfelder allein nicht ausreicht, um qualitativ hochwertige Metadaten zu liefern. Aus diesem Grund werden bei der Evaluierung auch Felder geprüft, die nach DCAT-AP CH nicht als Pflichtfelder angegeben sind. Die genauen Felder, die geprüft werden, sind unten aufgeführt.
Identischer Inhalt für mehrere Distributionen
Wenn ein Datensatz mehr als eine Distribution enthält, sind alle Distributionen inhaltlich identisch, sie unterscheiden sich nur in der Darstellung der Daten. Zum Beispiel kann ein Datensatz zwei Distributionen haben, von denen eine die Daten als PDF und die andere die identischen Daten als maschinenlesbares RDF/XML anbietet. Diese Definition bezieht sich auf die Art und Weise, wie Datensätze im MQA bewertet werden (eine Art "Best Practice"), sollte aber nicht als Standarddefinition von Distributionen angesehen werden. Gemäss diser Annahme wird nur die Distribution mit der höchsten Punktzahl zur Berechnung der Punkte für die Dimension Interoperabilität herangezogen.
Dimensionen
Dieser Abschnitt beschreibt alle Dimensionen, die der MQA untersucht, um die Qualität der Metadaten zu bestimmen. Die Dimensionen werden aus den FAIR-Prinzipien abgeleitet.
Auffindbarkeit
Die folgende Tabelle beschreibt die Metriken, die Menschen und Maschinen beim Auffinden von Datensätzen helfen. In diesem Bereich können maximal 100 Punkte erzielt werden.
Indikator | Beschreibung | Metrik | Gewichtung |
---|---|---|---|
Schlagwörter | Schlagwörter unterstützen direkt die Suche und erhöhen damit die Auffindbarkeit des Datensatzes. |
Es wird geprüft, ob Schlagwörter definiert sind. Die Anzahl der Schlagwörter hat keinen Einfluss auf die Punktzahl. Dataset |
30 |
Kategorien | Kategorien helfen den Benutzern, Datensätze thematisch zu erforschen. |
Es wird geprüft, ob dem Datensatz eine oder mehrere Kategorien zugeordnet sind. Die Anzahl der zugeordneten Kategorien hat keinen Einfluss auf die Punktzahl. Dataset |
30 |
Räumliche Abdeckung | Die Nutzung räumlicher Informationen würde es den Nutzern ermöglichen, den Datensatz mit einer Suche mit räumlichem Bezug zu finden. |
Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht. Dataset |
20 |
Zeitliche Abdeckung | Die Verwendung von zeitlichen Angaben würde den Benutzern eine Suche mit Zeitbezug ermöglichen. |
Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht. Dataset |
20 |
Zugänglichkeit
Die folgende Tabelle beschreibt, welche Metriken verwendet werden, um festzustellen, ob der Zugriff auf die von den Distributionen referenzierten Daten gewährleistet ist. In diesem Bereich können maximal 100 Punkte erzielt werden.
Indikator | Beschreibung | Metrik | Gewichtung |
---|---|---|---|
Zugänglichkeit der AccessURL | Die AccessURL ist nicht unbedingt ein direkter Link zu den Daten, sondern kann auch auf eine URL verweisen, die den Zugriff auf den Datensatz ermöglicht oder unter der weiteren Informationen über den Datensatz verfügbar sind. |
Die Zugänglichkeit der angegebenen URL wird mittels einer HTTP-HEAD-Anfrage überprüft. Wenn der zurückgegebene Statuscode im Bereich 200 oder 300 liegt, wird die Zugänglichkeit der Distribution positiv bewertet. Distribution |
50 |
DownloadURL | Die DownloadURL ist ein direkter Link zu den referenzierten Daten. |
Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht. Distribution |
20 |
Zugänglichkeit der Download URL | Wenn eine DownloadURL existiert, wird sie auf ihre Erreichbarkeit geprüft. |
Die Zugänglichkeit der angegebenen URL wird mittels einer HTTP-HEAD-Anfrage überprüft. Wenn der zurückgegebene Statuscode im Bereich 200 oder 300 liegt, wird die Zugänglichkeit der Ressource positiv bewertet. Distribution |
30 |
Interoperabilität
Die folgende Tabelle beschreibt die Metriken, die zur Bestimmung der Interoperabilität einer Distribution verwendet werden. Gemäss der Annahme "identischer Inhalt mit mehreren Distributionen" wird nur die Distribution mit der höchsten Punktzahl zur Berechnung der Punkte herangezogen. In diesem Bereich können maximal 110 Punkte erzielt werden.
Indikator | Beschreibung | Metrik | Gewichtung |
---|---|---|---|
Format | Dieses Feld gibt das Dateiformat der Distribution an. |
Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht. Distribution |
20 |
Media Type | Dieses Feld gibt den Media Type der Distribution an. |
Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht. Distribution |
10 |
Format / Media type aus Vokabular | Prüft, ob Format und Media Type zu einem kontrollierten Vokabular gehören. |
Das Vokabular für das Format kann in dem data.europa.eu GitLab-Repository gefunden werden. Der Medientyp wird gegen die IANA-Liste geprüft. Distribution |
10 |
Nicht-proprietär | Prüft, ob das Format der Distribution nicht-proprietär ist. |
Die Distribution wird als nicht-proprietär betrachtet, wenn das angegebene Format in der entsprechenden data.europa.eu GitLab-Repository Vokabular enthalten ist. Distribution |
20 |
Maschinenlesbarkeit | Prüft, ob das Format der Distribution maschinenlesbar ist. |
Die Distribution wird als maschinenlesbar betrachtet, wenn das angegebene Format in der entsprechenden data.europa.eu GitLab-Repository Vokabular enthalten ist. Distribution |
20 |
DCAT-AP CH Konformität |
Die DCAT-AP-Konformität wird für alle im Katalog verfügbaren Quellen und Datensätze berechnet. |
Dieser Indikator ist derzeit nicht verfügbar. |
30 |
Wiederverwendbarkeit
Die folgende Tabelle beschreibt, welche Metriken zur Überprüfung der Wiederverwendbarkeit der Daten verwendet werden. In diesem Bereich können maximal 75 Punkte erzielt werden..
Indikator | Beschreibung | Metrik | Gewichtung |
---|---|---|---|
Lizenz | Eine Lizenz ist eine wertvolle Information für die Wiederverwendung von Daten. |
Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht. Distribution |
20 |
Lizenzvokabular | Wir möchten die Angabe von falschen Lizenzinformationen einschränken. |
Es wird geprüft, ob das kontrollierte Lizenzvokabular verwendet wird. Distribution |
10 |
Zugänglichkeitsgrad | Dieses Feld gibt an, ob der Zugang zu den Daten öffentlich oder eingeschränkt ist. |
Dieser Indikator ist nicht verfügbar, da diese Eigenschaft nicht auf opendata.swiss implementiert ist. Dataset |
10 |
Zugänglichkeitsgrad aus Vokabular | Die Verwendung eines kontrollierten Vokabulars erhöht die Wiederverwendbarkeit. |
Dieser Indikator ist nicht verfügbar, da diese Eigenschaft nicht auf opendata.swiss implementiert ist. Dataset |
5 |
Kontakt | Die Kontaktstelle enthält Informationen, an wen Sie sich bei Fragen zu den Daten wenden können. |
Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht. Dataset |
20 |
Publizierender | Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht. |
Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht. Dataset |
10 |
Kontext
Die folgende Tabelle zeigt einige einfache Eigenschaften, die dem Benutzer mehr Kontext bieten. In diesem Abschnitt können maximal 20 Punkte gesammelt werden.
Indikator | Beschreibung | Metrik | Gewichtung |
---|---|---|---|
Nutzungsbedingungen | In einigen Fällen kann eine bestimmte Lizenz nicht auf einen Datensatz angewendet werden. Das Feld "Rechte" kann verwendet werden, um einen Verweis auf eine Ressource anzugeben, der einen Benutzer über die Rechte informiert, die er bei der Nutzung des Datasets hat. |
Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht. Distribution |
5 |
Grösse in Bytes | Gibt die Grösse der Datei in Bytes an. |
Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht. Distribution |
5 |
Veröffentlichungsdatum | Das Datum, an dem der Datensatz oder die Distribution veröffentlicht wurde. |
Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht. Dataset und Distribution |
5 |
Aktualisierungsdatum | Das Datum, an dem der Datensatz oder die Distribution zuletzt geändert wurde. |
Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht. Dataset und Distribution |
5 |
Bewertung
Die folgende Tabelle zeigt die verschiedenen Dimensionen, die im Rahmen der Methodik bewertet werden, sowie die maximale Punktzahl, die für jede Dimension vergeben werden kann.
Dimension | Maximale Punktzahl |
---|---|
Auffindbarkeit | 100 |
Zugänglichkeit | 100 |
Interoperabilität | 110 |
Wiederverwendbarkeit | 75 |
Kontext | 20 |
Summe | 405 |
Die endgültige Bewertung geschieht über vier Bewertungsgruppen. Die Zuordnung der Punkte zur Bewertungskategorie ist in der folgenden Tabelle dargestellt. Die Darstellung der Bewertung im MQA wird ausschließlich über die Bewertungskategorien ausgedrückt. Dies ermöglicht es den Anbietern, die höchste Bewertung trotz eines leichten Punktabzug zu erreichen.
Bewertung | Punktebereich |
---|---|
Ausgezeichnet | 351 - 405 |
Gut | 221 – 350 |
Ausreichend | 121 – 220 |
Mangelhaft | 0 - 120 |