Gli Open Data della Pubblica Amministrazione

Il più importante catalogo italiano di Open Data è il catalogo dati della Pubblica Amministrazione, gestito dall’Agenzia per l’Italia Digitale.

Il catalogo[1] è alimentato grazie al contributo di tutti gli Enti Pubblici Italiani. Per renderlo costantemente aggiornato è stata implementata una funzione di harvesting, in grado di importare, in maniera automatica, i metadati dei dataset esposti dalle singole amministrazioni sul proprio catalogo. I metadati raccolti confluiscono poi nel catalogo dati del Portale Europeo.

In totale, sono stati raccolti 18.000 dataset pubblicati dagli Enti Pubblici. Considerando che esistono ca. 10.000 enti è evidente che il numero è decisamente basso…

Il dataset dei metadati

Il primo passo per analizzare il catalogo è stato la creazione del dataset dei metadati, ovvero l’insieme dei metadati di tutti i dati presenti nel catalogo.

Il dataset è stato creato con lo script API_Dati_Pubblici_Luigi.py lanciato in modalità batch (impiega ca. 8h). Il dataset costruito contiene ca. 18.000 righe corrispondenti a tutti i dataset pubblicati dalla PA Italiana. Le informazioni per descrivere il dataset sono state scelte sulla base del profilo DCAT_AP-IT.

Di seguito i dati recuperati e salvati nel file 2017-10-19_DSMetadatiPA.csv

CampoDescrizione
ds_titleTitolo
_catalog_parent_nameCatalogo
gruppoGruppo (o tema)
noteNote
ultima_modificaData ultima modifica del dataset
ds_nameNome del dataset
ds_idID univoco del dataset
ds_licenseTipologia licenza
urlUrl del dataset
mymtypeFormato

L'analisi dei metadati

Analizzando il catalogo, emerge che i primi 10 Enti Pubblici pubblicano l’80% del totale dei dataset italiani. In particolare, emerge il Trentino con 6.000 dataset pubblicati.

Un’informazione utile per individuare dataset con caratteristiche simili è il campo “gruppo”, ovvero la categoria tematica del dataset. Purtroppo, essendo un campo non obbligatorio, solo il 30% dei dataset risulta avere questo campo popolato.

Gruppi-Dataset

Effettuando una nuvola delle parole più utilizzate sui campi note e titolo emerge su tutti la parola Comune e, in generale, quasi tutte le parole fanno riferimento alla tematica principale, ovvero “Popolazione e Società”.

Verificando, invece, il campo ultima modifica, si nota un sufficiente grado di aggiornamento dei metadati; su 18.000 dataset, il 55% risulta aggiornato al 2017.

La situazione attuale si presenta quindi altamente frammentata, con pochi Enti che pubblicano la stragrande maggioranza dei dataset, con una frequenza di aggiornamento non ideale e una bassa attenzione alla qualità del dato pubblicato.

Con l’obiettivo di dare maggiore impulso agli open data in Italia e cercare di creare valore dal patrimonio informativo pubblico Agid, insieme al Team per la Trasformazione Digitale, hanno realizzato un piano triennale basato su due principali linee di azione:

  • valorizzare il patrimonio informativo pubblico attraverso la realizzazione di basi dati d’interesse nazionali, processi finalizzati a rendere open i dati della pubblica amministrazione e la realizzazione vocabolari per standardizzare e normalizzare la qualità dei dato;
  • realizzare una piattaforma Data & Analytics Framework (DAF) per gestire e analizzare gli open data.

Il piano è basato su un approccio collaborativo, è possibile monitorare l’avanzamento dei risultati direttamente sul sito del piano triennale e contribuire attivamente agli obiettivi sugli appositi repository github.


Riferimenti:

  1. Catalogo Dati della Pubblica Amministrazione Italiana

Codice GitHub:

Le fonti e il codice utilizzato sono stati pubblicati al seguente repository: od_dati_pa

It's only fair to share...Share on facebook
Facebook
Share on google
Google
Share on twitter
Twitter
Share on linkedin
Linkedin