Il più importante catalogo italiano di Open Data è il catalogo dati della Pubblica Amministrazione, gestito dall’Agenzia per l’Italia Digitale.
Il catalogo[1] è alimentato grazie al contributo di tutti gli Enti Pubblici Italiani. Per renderlo costantemente aggiornato è stata implementata una funzione di harvesting, in grado di importare, in maniera automatica, i metadati dei dataset esposti dalle singole amministrazioni sul proprio catalogo. I metadati raccolti confluiscono poi nel catalogo dati del Portale Europeo.
In totale, sono stati raccolti 18.000 dataset pubblicati dagli Enti Pubblici. Considerando che esistono ca. 10.000 enti è evidente che il numero è decisamente basso…
Il dataset dei metadati
Il primo passo per analizzare il catalogo è stato la creazione del dataset dei metadati, ovvero l’insieme dei metadati di tutti i dati presenti nel catalogo.
Il dataset è stato creato con lo script API_Dati_Pubblici_Luigi.py lanciato in modalità batch (impiega ca. 8h). Il dataset costruito contiene ca. 18.000 righe corrispondenti a tutti i dataset pubblicati dalla PA Italiana. Le informazioni per descrivere il dataset sono state scelte sulla base del profilo DCAT_AP-IT.
Di seguito i dati recuperati e salvati nel file 2017-10-19_DSMetadatiPA.csv
Campo | Descrizione |
---|---|
ds_title | Titolo |
_catalog_parent_name | Catalogo |
gruppo | Gruppo (o tema) |
note | Note |
ultima_modifica | Data ultima modifica del dataset |
ds_name | Nome del dataset |
ds_id | ID univoco del dataset |
ds_license | Tipologia licenza |
url | Url del dataset |
mymtype | Formato |
L'analisi dei metadati
Analizzando il catalogo, emerge che i primi 10 Enti Pubblici pubblicano l’80% del totale dei dataset italiani. In particolare, emerge il Trentino con 6.000 dataset pubblicati.
Un’informazione utile per individuare dataset con caratteristiche simili è il campo “gruppo”, ovvero la categoria tematica del dataset. Purtroppo, essendo un campo non obbligatorio, solo il 30% dei dataset risulta avere questo campo popolato.
Effettuando una nuvola delle parole più utilizzate sui campi note e titolo emerge su tutti la parola Comune e, in generale, quasi tutte le parole fanno riferimento alla tematica principale, ovvero “Popolazione e Società”.
Verificando, invece, il campo ultima modifica, si nota un sufficiente grado di aggiornamento dei metadati; su 18.000 dataset, il 55% risulta aggiornato al 2017.
La situazione attuale si presenta quindi altamente frammentata, con pochi Enti che pubblicano la stragrande maggioranza dei dataset, con una frequenza di aggiornamento non ideale e una bassa attenzione alla qualità del dato pubblicato.
Con l’obiettivo di dare maggiore impulso agli open data in Italia e cercare di creare valore dal patrimonio informativo pubblico Agid, insieme al Team per la Trasformazione Digitale, hanno realizzato un piano triennale basato su due principali linee di azione:
- valorizzare il patrimonio informativo pubblico attraverso la realizzazione di basi dati d’interesse nazionali, processi finalizzati a rendere open i dati della pubblica amministrazione e la realizzazione vocabolari per standardizzare e normalizzare la qualità dei dato;
- realizzare una piattaforma Data & Analytics Framework (DAF) per gestire e analizzare gli open data.
Il piano è basato su un approccio collaborativo, è possibile monitorare l’avanzamento dei risultati direttamente sul sito del piano triennale e contribuire attivamente agli obiettivi sugli appositi repository github.
Riferimenti:
- Catalogo Dati della Pubblica Amministrazione Italiana
Codice GitHub:
Le fonti e il codice utilizzato sono stati pubblicati al seguente repository: od_dati_pa