Tag Archives: comuni

Gli Open Data della Pubblica Amministrazione

Il più importante catalogo italiano di Open Data è il catalogo dati della Pubblica Amministrazione, gestito dall’Agenzia per l’Italia Digitale.

Il catalogo[1] è alimentato grazie al contributo di tutti gli Enti Pubblici Italiani. Per renderlo costantemente aggiornato è stata implementata una funzione di harvesting, in grado di importare, in maniera automatica, i metadati dei dataset esposti dalle singole amministrazioni sul proprio catalogo. I metadati raccolti confluiscono poi nel catalogo dati del Portale Europeo.

In totale, sono stati raccolti 18.000 dataset pubblicati dagli Enti Pubblici. Considerando che esistono ca. 10.000 enti è evidente che il numero è decisamente basso…

Il dataset dei metadati

Il primo passo per analizzare il catalogo è stato la creazione del dataset dei metadati, ovvero l’insieme dei metadati di tutti i dati presenti nel catalogo.

Il dataset è stato creato con lo script API_Dati_Pubblici_Luigi.py lanciato in modalità batch (impiega ca. 8h). Il dataset costruito contiene ca. 18.000 righe corrispondenti a tutti i dataset pubblicati dalla PA Italiana. Le informazioni per descrivere il dataset sono state scelte sulla base del profilo DCAT_AP-IT.

Di seguito i dati recuperati e salvati nel file 2017-10-19_DSMetadatiPA.csv

CampoDescrizione
ds_titleTitolo
_catalog_parent_nameCatalogo
gruppoGruppo (o tema)
noteNote
ultima_modificaData ultima modifica del dataset
ds_nameNome del dataset
ds_idID univoco del dataset
ds_licenseTipologia licenza
urlUrl del dataset
mymtypeFormato

L’analisi dei metadati

Analizzando il catalogo, emerge che i primi 10 Enti Pubblici pubblicano l’80% del totale dei dataset italiani. In particolare, emerge il Trentino con 6.000 dataset pubblicati.

Ingrandisci

Catalogo Open Data
Distribuzione dei principali cataloghi italiani che pubblicano open data

Un’informazione utile per individuare dataset con caratteristiche simili è il campo “gruppo”, ovvero la categoria tematica del dataset. Purtroppo, essendo un campo non obbligatorio, solo il 30% dei dataset risulta avere questo campo popolato.

Ingrandisci

Categoria Tematica Open Data
Distribuzione dei dataset per categoria tematica

Effettuando una nuvola delle parole più utilizzate sui campi note e titolo emerge su tutti la parola Comune e, in generale, quasi tutte le parole fanno riferimento alla tematica principale, ovvero “Popolazione e Società”.

Ingrandisci

Word Cloud Open Data
Word cloud dei campi note e titolo

Verificando, invece, il campo ultima modifica, si nota un sufficiente grado di aggiornamento dei metadati; su 18.000 dataset, il 55% risulta aggiornato al 2017.

La situazione attuale si presenta quindi altamente frammentata, con pochi Enti che pubblicano la stragrande maggioranza dei dataset, con una frequenza di aggiornamento non ideale e una bassa attenzione alla qualità del dato pubblicato.

Con l’obiettivo di dare maggiore impulso agli open data in Italia e cercare di creare valore dal patrimonio informativo pubblico Agid, insieme al Team per la Trasformazione Digitale, hanno realizzato un piano triennale basato su due principali linee di azione:

  • valorizzare il patrimonio informativo pubblico attraverso la realizzazione di basi dati d’interesse nazionali, processi finalizzati a rendere open i dati della pubblica amministrazione e la realizzazione vocabolari per standardizzare e normalizzare la qualità dei dato;
  • realizzare una piattaforma Data & Analytics Framework (DAF) per gestire e analizzare gli open data.

Il piano è basato su un approccio collaborativo, è possibile monitorare l’avanzamento dei risultati direttamente sul sito del piano triennale e contribuire attivamente agli obiettivi sugli appositi repository github.


Riferimenti:

  1. Catalogo Dati della Pubblica Amministrazione Italiana

Codice GitHub:

Le fonti e il codice utilizzato sono stati pubblicati al seguente repository: od_dati_pa