Direkt zum Inhalt springen

opendata.swiss

Das Portal für offene Verwaltungsdaten (OGD) der öffentlichen Verwaltung der Schweiz

Metadata Quality Assessment Methodologie

Dieses Dashboard bewertet die Qualität der Metadaten der Datensätze von opendata.swiss mittels der Metadata Quality Assessment (MQA) Methode. Das MQA ist ein von data.europa.eu entwickeltes Werkzeug zur Untersuchung der Qualität der vom europäischen Portal gesammelten Metadaten. Durch die Anwendung dieser Methodik auf der Ebene der Organisationen von opendata.swiss ermöglicht das Dashboard den Datenanbietenden, die Qualität ihrer Metadaten zu überprüfen und Verbesserungsvorschläge zu erhalten. Im Folgenden beschreiben wir die Funktionalität des Dashboards und die verwendete Methodik.

Haben Sie Fragen dazu, dann kontaktieren Sie uns unter opendata@bfs.admin.ch.

Umfang der Analyse

Mit dem auf opendata.swiss angewandten MQA möchten wir zwei zentrale Fragen beantworten:
Wie gut ist die Qualität der Metadaten der Datensätze von Organisationen, die auf opendata.swiss referenziert sind? Welche Barrieren müssen überwunden werden, um eine bessere Qualität zu erreichen?

Darauf aufbauend untersucht das MQA derzeit die folgenden Kriterien:

  • Konformität mit dem DCAT-AP CH-Standard
  • Offenlegung von Informationen, die nach dem DCAT-AP CH-Standard nicht zwingend erforderlich sind
  • Zugänglichkeit der in den Metadaten referenzierten Daten über die Access- und Download-URL
  • Maschinenlesbarkeit der referenzierten Datensätze
  • Verwendung von Lizenzen

Jede Frage führt zu individuellen Überprüfungen, die im Folgenden detailliert beschrieben werden.

Einschränkung der Analyse

Die auf opendata.swiss angewandte MQA-Methode untersucht nur die Metadaten, die im Katalog von opendata.swiss über ckan.opendata.swiss/catalog.jsonld gesammelt wurden.
Einige Indikatoren, die gemäss der MQA-Methode auf data.europa bewertet werden, können in diesem Dashboard nicht analysiert werden, da sie derzeit nicht im Katalog von opendata.swiss verfügbar sind. Dabei handelt es sich um die folgenden Indikatoren:

  • Zugänglichkeitsgrad (Wiederverwendbarkeit)
  • Zugänglichkeitsgrad aus Vokabular (Wiederverwendbarkeit)
  • DCAT-AP CH-Konformität (Interoperabilität)

Um eine faire und auf opendata.swiss zugeschnittene Bewertung zu gewährleisten und gleichzeitig die Gesamtkonsistenz der Methode zu wahren, werden die Punkte für diese Indikatoren automatisch an alle Datenanbietenden vergeben.

Hinweis: Das Portal data.europa.eu bewertet Portale, darunter auch opendata.swiss, nach der MQA-Methode. Die Bewertung von opendata.swiss auf data.europa.eu kann aufgrund der oben beschriebenen vorgenommenen Anpassungen von der Bewertung auf dem Dashboard abweichen.

Der Prozess

Das Dashboard basiert auf einem rigorosen und automatisierten Bewertungsprozess, der eine konsistente und aktuelle Analyse der Qualität der Metadaten gewährleistet.
Die Daten, die zur Berechnung der Punktzahlen verwendet werden, werden täglich aktualisiert. Die Qualität der Metadaten wird anhand einer Reihe von Indikatoren bewertet, die auf den FAIR-Prinzipien basieren. Jeder Indikator wird in den untenstehenden Tabellen pro Dimension erläutert. Nach der Bewertung der Indikatoren werden die Ergebnisse in übersichtlichen, interaktiven Grafiken dargestellt, die es erleichtern, Stärken und Verbesserungsaspekte zu identifizieren.

Annahmen

Der MQA basiert auf den folgenden Annahmen:

Verwendung von nicht-obligatorischen Feldern

Wir glauben, dass das Ausfüllen der DCAT-AP CH Pflichtfelder allein nicht ausreicht, um qualitativ hochwertige Metadaten zu liefern. Aus diesem Grund werden bei der Evaluierung auch Felder geprüft, die nach DCAT-AP CH nicht als Pflichtfelder angegeben sind. Die genauen Felder, die geprüft werden, sind unten aufgeführt.

Identischer Inhalt für mehrere Distributionen

Wenn ein Datensatz mehr als eine Distribution enthält, sind alle Distributionen inhaltlich identisch, sie unterscheiden sich nur in der Darstellung der Daten. Zum Beispiel kann ein Datensatz zwei Distributionen haben, von denen eine die Daten als PDF und die andere die identischen Daten als maschinenlesbares RDF/XML anbietet. Diese Definition bezieht sich auf die Art und Weise, wie Datensätze im MQA bewertet werden (eine Art "Best Practice"), sollte aber nicht als Standarddefinition von Distributionen angesehen werden. Gemäss diser Annahme wird nur die Distribution mit der höchsten Punktzahl zur Berechnung der Punkte für die Dimension Interoperabilität herangezogen.

Dimensionen

Dieser Abschnitt beschreibt alle Dimensionen, die der MQA untersucht, um die Qualität der Metadaten zu bestimmen. Die Dimensionen werden aus den FAIR-Prinzipien abgeleitet.

Auffindbarkeit

Die folgende Tabelle beschreibt die Metriken, die Menschen und Maschinen beim Auffinden von Datensätzen helfen. In diesem Bereich können maximal 100 Punkte erzielt werden.

Indikator Beschreibung Metrik Gewichtung
Schlagwörter Schlagwörter unterstützen direkt die Suche und erhöhen damit die Auffindbarkeit des Datensatzes.

Es wird geprüft, ob Schlagwörter definiert sind. Die Anzahl der Schlagwörter hat keinen Einfluss auf die Punktzahl.

Dataset
dcat:keyword

30
Kategorien Kategorien helfen den Benutzern, Datensätze thematisch zu erforschen.

Es wird geprüft, ob dem Datensatz eine oder mehrere Kategorien zugeordnet sind. Die Anzahl der zugeordneten Kategorien hat keinen Einfluss auf die Punktzahl.

Dataset
dcat:theme

30
Räumliche Abdeckung Die Nutzung räumlicher Informationen würde es den Nutzern ermöglichen, den Datensatz mit einer Suche mit räumlichem Bezug zu finden.

Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht.

Dataset
dct:spatial

20
Zeitliche Abdeckung Die Verwendung von zeitlichen Angaben würde den Benutzern eine Suche mit Zeitbezug ermöglichen.

Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht.

Dataset
dct:temporal

20

Zugänglichkeit

Die folgende Tabelle beschreibt, welche Metriken verwendet werden, um festzustellen, ob der Zugriff auf die von den Distributionen referenzierten Daten gewährleistet ist. In diesem Bereich können maximal 100 Punkte erzielt werden.

Indikator Beschreibung Metrik Gewichtung
Zugänglichkeit der AccessURL Die AccessURL ist nicht unbedingt ein direkter Link zu den Daten, sondern kann auch auf eine URL verweisen, die den Zugriff auf den Datensatz ermöglicht oder unter der weiteren Informationen über den Datensatz verfügbar sind.

Die Zugänglichkeit der angegebenen URL wird mittels einer HTTP-HEAD-Anfrage überprüft. Wenn der zurückgegebene Statuscode im Bereich 200 oder 300 liegt, wird die Zugänglichkeit der Distribution positiv bewertet.

Distribution
dcat:accessURL

50
DownloadURL Die DownloadURL ist ein direkter Link zu den referenzierten Daten.

Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht.

Distribution
dcat:downloadURL

20
Zugänglichkeit der Download URL Wenn eine DownloadURL existiert, wird sie auf ihre Erreichbarkeit geprüft.

Die Zugänglichkeit der angegebenen URL wird mittels einer HTTP-HEAD-Anfrage überprüft. Wenn der zurückgegebene Statuscode im Bereich 200 oder 300 liegt, wird die Zugänglichkeit der Ressource positiv bewertet.

Distribution
dcat:downloadURL

30

Interoperabilität

Die folgende Tabelle beschreibt die Metriken, die zur Bestimmung der Interoperabilität einer Distribution verwendet werden. Gemäss der Annahme "identischer Inhalt mit mehreren Distributionen" wird nur die Distribution mit der höchsten Punktzahl zur Berechnung der Punkte herangezogen. In diesem Bereich können maximal 110 Punkte erzielt werden.

Indikator Beschreibung Metrik Gewichtung
Format Dieses Feld gibt das Dateiformat der Distribution an.

Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht.

Distribution
dct:format

20
Media Type Dieses Feld gibt den Media Type der Distribution an.

Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht.

Distribution
dcat:mediaType

10
Format / Media type aus Vokabular Prüft, ob Format und Media Type zu einem kontrollierten Vokabular gehören.

Das Vokabular für das Format kann in dem data.europa.eu GitLab-Repository gefunden werden.

Der Medientyp wird gegen die IANA-Liste geprüft.

Distribution
dct:format
dcat:mediaType

10
Nicht-proprietär Prüft, ob das Format der Distribution nicht-proprietär ist.

Die Distribution wird als nicht-proprietär betrachtet, wenn das angegebene Format in der entsprechenden data.europa.eu GitLab-Repository Vokabular enthalten ist.

Distribution
dct:format

20
Maschinenlesbarkeit Prüft, ob das Format der Distribution maschinenlesbar ist.

Die Distribution wird als maschinenlesbar betrachtet, wenn das angegebene Format in der entsprechenden data.europa.eu GitLab-Repository Vokabular enthalten ist.

Distribution
dct:format

20
DCAT-AP CH Konformität

Die DCAT-AP-Konformität wird für alle im Katalog verfügbaren Quellen und Datensätze berechnet.

Dieser Indikator ist derzeit nicht verfügbar.

30

Wiederverwendbarkeit

Die folgende Tabelle beschreibt, welche Metriken zur Überprüfung der Wiederverwendbarkeit der Daten verwendet werden. In diesem Bereich können maximal 75 Punkte erzielt werden..

Indikator Beschreibung Metrik Gewichtung
Lizenz Eine Lizenz ist eine wertvolle Information für die Wiederverwendung von Daten.

Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht.

Distribution
dct:license

20
Lizenzvokabular Wir möchten die Angabe von falschen Lizenzinformationen einschränken.

Es wird geprüft, ob das kontrollierte Lizenzvokabular verwendet wird.

Distribution
dct:license

10
Zugänglichkeitsgrad Dieses Feld gibt an, ob der Zugang zu den Daten öffentlich oder eingeschränkt ist.

Dieser Indikator ist nicht verfügbar, da diese Eigenschaft nicht auf opendata.swiss implementiert ist.

Dataset
dct:accessRights

10
Zugänglichkeitsgrad aus Vokabular Die Verwendung eines kontrollierten Vokabulars erhöht die Wiederverwendbarkeit.

Dieser Indikator ist nicht verfügbar, da diese Eigenschaft nicht auf opendata.swiss implementiert ist.

Dataset
dct:accessRights

5
Kontakt Die Kontaktstelle enthält Informationen, an wen Sie sich bei Fragen zu den Daten wenden können.

Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht.

Dataset
dcat:contactPoint

20
Publizierender Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht.

Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht.

Dataset
dct:publisher

10

Kontext

Die folgende Tabelle zeigt einige einfache Eigenschaften, die dem Benutzer mehr Kontext bieten. In diesem Abschnitt können maximal 20 Punkte gesammelt werden.

Indikator Beschreibung Metrik Gewichtung
Nutzungsbedingungen In einigen Fällen kann eine bestimmte Lizenz nicht auf einen Datensatz angewendet werden. Das Feld "Rechte" kann verwendet werden, um einen Verweis auf eine Ressource anzugeben, der einen Benutzer über die Rechte informiert, die er bei der Nutzung des Datasets hat.

Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht.

Distribution
dct:rights

5
Grösse in Bytes Gibt die Grösse der Datei in Bytes an.

Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht.

Distribution
dcat:byteSize

5
Veröffentlichungsdatum Das Datum, an dem der Datensatz oder die Distribution veröffentlicht wurde.

Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht.

Dataset und Distribution
dct:issued

5
Aktualisierungsdatum Das Datum, an dem der Datensatz oder die Distribution zuletzt geändert wurde.

Es wird geprüft, ob diese Eigenschaft gesetzt ist oder nicht.

Dataset und Distribution
dct:modified

5

Bewertung

Die folgende Tabelle zeigt die verschiedenen Dimensionen, die im Rahmen der Methodik bewertet werden, sowie die maximale Punktzahl, die für jede Dimension vergeben werden kann.

Dimension Maximale Punktzahl
Auffindbarkeit 100
Zugänglichkeit 100
Interoperabilität 110
Wiederverwendbarkeit 75
Kontext 20
Summe 405

Die endgültige Bewertung geschieht über vier Bewertungsgruppen. Die Zuordnung der Punkte zur Bewertungskategorie ist in der folgenden Tabelle dargestellt. Die Darstellung der Bewertung im MQA wird ausschließlich über die Bewertungskategorien ausgedrückt. Dies ermöglicht es den Anbietern, die höchste Bewertung trotz eines leichten Punktabzug zu erreichen.

Bewertung Punktebereich
Ausgezeichnet 351 - 405
Gut 221 – 350
Ausreichend 121 – 220
Mangelhaft 0 - 120