Tag Archives: opendata

Sanità

Varianti Covid

Quando un virus si replica o crea copie di se stesso a volte cambia leggermente. Questi cambiamenti sono chiamati “mutazioni genetiche”. Un virus con una o più nuove mutazioni del genoma viene indicato come una “variante” del virus originale.

Ad oggi, quattro nuove varianti preoccupano gli esperti:

  • Variante Inglese (Alpha) – nota come B.1.1.7, identificata per la prima volta nel Regno Unito nel Settembre 2020;
  • Variante Africana (Beta)– nota come B.1.351, identificata in Sud Africa nell’Ottobre 2020;
  • Variante Brasiliana (Gamma) – variante P.1, con origine in Brasile nell’Ottobre 2020;
  • Variante Indiana (Delta) – nota con il codice B.1.617.2, con origine in India in Aprile 2021.

I geni nel genoma SARS-CoV-2 che contengono istruzioni per costruire parti del virus sono mostrati, nell’immagine di seguito, in diversi colori. Ad esempio, la sezione marrone nell’immagine contiene istruzioni genetiche per costruire la proteina spike, che consente quindi al virus di attaccarsi alle cellule umane durante l’infezione. Questa sezione del genoma funge da regione chiave per il monitoraggio delle mutazioni.

genoma

Gli scienziati di tutto il mondo che individuano nuove sequenza genetiche del virus le forniscono al GISAID. Il GISAID è un’iniziativa scientifica globale e una fonte primaria fondata nel 2008 che fornisce accesso aperto ai dati genomici dei virus influenzali e del coronavirus responsabile della pandemia COVID-19.

Diffusione delle Varianti in Europa e nel Mondo

A partire dai dati raccolti del GISAID è stato realizzato il sito https://covidcg.org/ che permette il monitoraggio real-time delle varianti Covid, di cui di seguito viene mostrata brevemente la modalità di lettura, non propriamente agevole in quanto le varianti vengono identificate esclusivamente dal loro codice:

  • Variante Inglese B.1.1.7, predominante in Europa e Nord America.
  • Variante Africana B.1.351, predominante in Africa, tuttavia ampiamente superata dalla Variante indiana.
  • Variante Brasiliana P1, predominante in Sud America
  • Infine, la variante Indiana B.1.617.2 , l’ultima scoperta e, al momento , quella che sta preoccupando maggiormente gli scienziati. Dal grafico si nota una presenza massiccia in Asia, Oceania, Africa, ma anche una importante presenza, da pochissimo tempo e in rapida crescita, in Europa.

Con la piena operatività dei vaccini risulta quindi fondamentale tracciare le varianti ed isolarle il prima possibile. Tuttavia, non è sufficiente guardare solo in Italia ma è necessario controllare anche il resto del mondo, per prevenire che il diffondersi delle varianti inibiscano gli attuali vaccini.

Link Utili:

I Cambiamenti Climatici

Problemi globali necessitano di soluzione globali.

Yuval Noah Harari

I cambiamenti climatici sono già realtà e rappresentano una delle maggiori sfide che l’umanità dovrà affrontare nei prossimi anni. I rischi per il pianeta e per le generazioni future sono enormi, e ci obbligano ad intervenire con urgenza.

Anidride Carbonica CO2

Si ritiene che la principale causa dei cambiamenti climatici in corso sia l’emissione incontrollata di gas serra, in primo luogo quella di anidride carbonica da parte dell’uomo. Questo gas contribuisce primariamente all’intensificazione dell’effetto serra e del conseguente surriscaldamento globale.

Secondo le osservazione del centro di Mauna Loa[1],la concentrazione media di CO2 annua globale è passata, negli ultimi 50 anni, da un livello di 310 parti per milioni (ppm) a 411 ppm.

La fonte primaria di emissione di CO2 sono i combustibili fossili; il CDIAC[2] (Carbon Dioxide Information Analysis Center) calcola annualmente le emissioni nazionali di CO2 derivanti dalla combustione di fossili, unite a quelle dovute dalla produzione di cemento e dalla bruciatura di gas naturale. Sulla base di queste informazioni, è stato realizzato il grafico successivo che mostra i Paesi per CO2 prodotta in migliaia di tonnellate (kton), sulla base degli ultimi dati disponibili relativi al 2014. Dai dati riportati dal CDIAC troviamo: la Cina, al primo posto con il 30% di emissioni sul totale, a seguire gli Stati Uniti, con il 15%, l’India con il 7% e la Russia con il 5%.

La principale conseguenza dell’incremento di anidride carbonica nell’atmosfera è il riscaldamento globale, ovvero l’incremento delle temperature medie della superficie della Terra, non riconducibile a cause naturali, riscontrato a partire dall’inizio del XX secolo.

Temperatura Terrestre

Nel 2016, secondo le misurazioni del NOAA Climate National Climate Data Center[3], la temperatura media terrestre (terra + oceani) è cresciuta di +1,2 °C rispetto la temperatura media dell’età pre-industriale (1° anno delle misurazioni corrisponde al 1880).

L’IPCC (Gruppo intergovernativo di esperti sul cambiamento climatico) specifica che, per contenere l’aumento della temperatura media terrestre (rispetto all’era preindustriale) a + 2 °C, sarebbe necessario contenere le concentrazioni di CO2 entro le 450 ppm.

La risposta politica

A livello politico, alla conferenza sul clima di Parigi  del dicembre 2015, 195 paesi hanno adottato il primo accordo universale sul clima mondiale. A grandi linee, l’accordo prevede di:

  • mantenere l’aumento di temperatura inferiore ai 2 gradi, e compiere sforzi per mantenerlo entro 1,5 gradi;
  • diminuire le emissioni di gas serra il prima possibile;
  • versare 100 miliardi di dollari ogni anno ai paesi più poveri per aiutarli a sviluppare fonti di energia meno inquinanti;
  • controllare i progressi compiuti ogni cinque anni, tramite nuove conferenze.

In questo contesto, e per il futuro prossimo, Stati Uniti e Cina hanno grandi responsabilità. Durante la conferenza di Parigi, proprio gli Stati Uniti con Obama avevano indicato la direzione da seguire. Adesso, quello stesso Paese, ma sotto la guida di Donald Trump, si appresta ad abbandonare l’accordo. Nondimeno, la direzione strategica della Cina è abbastanza chiara: nel 2004 la produzione di CO2 si attestava sui 5.010.170 kton, oggi è arrivata a produrne 10.300.000 kton.

… e in Europa?

L’Unione Europea è sulla buona strada per raggiungere i suoi obiettivi di riduzione dei gas serra nel rispetto degli accordi di Parigi. Abbiamo analizzato i dati forniti dall’Eurostat per trovare la conferma.

Percentuale di riduzione dei Gas Serra

Dal 1990 al 2016 l’Unione Europea ha diminuito complessivamente le emissioni di gas serra del 24%. (Obiettivo Accordo di Parigi: 20%)

Il grafico di seguito mostra la percentuale di riduzione dei gas serra dei singoli paesi dal 1990 al 2016.

In dettaglio, i Paesi che hanno ridotto maggiormente le emissioni di gas serra, sono i Paesi “più piccoli“, ovvero quelli con un minore numero di abitanti e PIL rispetto ai principali Paesi dell’Unione Europea (Italia, Francia, Germania).
Inoltre, dall’analisi risultano presenti anche Paesi che hanno incrementato le emissioni, a discapito dell’obiettivo complessivo, ad esempio: Spagna, Portogallo e Islanda.

Percentuale di spesa per il cambiamento climatico

L’UE continua a partecipare attivamente alla politica internazionale in materia di clima e ha aumentato i propri contributi ai finanziamenti per il clima che hanno raggiunto i 15,5 miliardi di euro nel 2016. (Obiettivo Accordo di Parigi: 100mld annui)

Il grafico di seguito mostra la percentuale di spesa per il clima, rispetto alla spesa complessiva dei singoli paesi al 2016.

Analizzando i dati di dettagli della spesa per il clima, in percentuale rispetto alla spesa complessiva di ogni singolo Paese emergono, su tutti ,Germania e Lussemburgo con il 6% della spesa totale dedicata ai Paesi in via di sviluppo, a seguire la Francia con il 3%.

Nonostante le divergenze interne e la necessità di uno sforzo maggiore da parte delle economia maggiormente sviluppate, l‘Europa sta rispettando gli obiettivi degli Accordi di Parigi.

Purtroppo però non sembra essere sufficiente, la soglia critica di +1.5°C è ormai vicina e gli effetti del surriscaldamento globale sono già oggi evidenti. Gli eventi climatici estremi sono sempre più frequenti, è aumentato il rischio desertificazione e i ghiacciai continuano a sciogliersi. Le produzioni alimentari riscontrano gravi perdite e si riduce la disponibilità di acqua. Tutto questo implica cambiamenti dei sistemi ecologici, forestali, marini ed inevitabili ripercussioni sul sistema socio-economico mondiale.


Riferimenti:

  1. Osservatorio Mauna Loa, Hawaii (NOAA-ESRL)
  2. CDIAC (Carbon Dioxide Information Analysis Center)
  3. GISTEMP Global Land-Ocean Temperature Index: Combined Land-Surface Air and Sea-Surface Water Temperature Anomalies [i.e. deviations from the corresponding 1951-1980 means]. Global-mean monthly […] and annual means, 1880-present, updated through most recent month.
  4. Eurostat

Codice GitHub:

Le fonti e il codice utilizzato sono stati pubblicati al seguente repository: od_climate_change

Made in Italy – Il cibo di qualità

Il nostro Paese è noto a livello globale per i prodotti agroalimentari, fiore all’occhiello del Made in Italy. Non a caso è leader europeo per numero di prodotti Dop, Igp e Stg, il sistema europeo delle Indicazioni Geografiche indice della qualità del prodotto alimentare e della capacità di raccontare il territorio. 

Prodotti DOP

prodotti Dop (Denominazione di origine protetta) rappresentano il livello più elevato della qualità certificata e protetta dall’Ue. Si contraddistinguono in quanto: 

  1. sono originari di una specifica zona geografica;
  2. presentano caratteristiche dovute essenzialmente o esclusivamente a un particolare ambiente geografico;
  3. vengono prodotti e trasformati esclusivamente in un delimitato territorio.

Es. Aceto Balsamico di Modena, Bresaola della Valtellina, Asiago, Pistacchio di Bronte [Lista Prodotti DOP].

Prodotti IGP

I prodotti Igp (Indicazione geografica protetta) raggruppano le specialità agroalimentari di pregio riconosciute e tutelate dall’Ue. Si caratterizzano in quanto:

  1. sono originarie di una specifica zona geografica;
  2. possiedono una determinata qualità, reputazione o altre caratteristiche attribuibili a uno specifico territorio;
  3. vengono almeno prodotte e/o trasformate in una delimitata zona geografica.

Es. Arance rosse di Sicilia, Prosciutto IGP Di Norcia, Mortadella Bologna, Speck Alto Adige [Lista Prodotti IGP]

A differenza dei prodotti DOP, il prodotto IGP può essere composto da materie prime provenienti da qualsiasi parte del mondo, ma trasformate nel prodotto finale solo nel luogo originario. Ad esempio per il Prosciutto IGP di Norcia, il maiale può essere allevato in Cina e, successivamente trasformato a Norcia in prodotto Prosciutto IGP di Norcia.

Prodotto STG

Il termine specialità tradizionale garantita, meglio noto con l’acronimo STG, è un marchio di origine introdotto dalla Unione europea volto a tutelare produzioni specifiche che siano caratterizzate da composizioni o metodi di produzione tradizionali. Es. Pizza, Mozzarella [Link Prodotti STG]

La lista dei prodotti Dop, Igp e Stg viene aggiornata periodicamente dal Ministero delle Politiche agricole [1]. In totale, in Italia abbiamo  299 prodotti certificati, cosi suddivisi:

  • 167 prodotti Dop
  • 130 prodotti Igp
  • 2 prodotti Stg

In Europa i dati vengono manutenuti dal Dipartimento Agricolture and Rural Development in un database chiamato DOOR [2].  Come mostrato nella mappa seguente, l’Italia è prima con 299 prodotti certificati, seguita dalla Francia e dalla Spagna rispettivamente con 248 e 196 prodotti.

L’agricoltura biologica

Prodotti BIO

Negli ultimi anni è stata introdotta un’altra etichetta indice di elevata qualità del cibo, parliamo del BIO. Un prodotto è definito bio solo se il 95% dei suoi ingredienti rispetta i principi del metodo biologico. L’agricoltura biologica sfrutta la naturale fertilità del suolo favorendola con interventi limitati di prodotti chimici.  In Europa, i principali produttori di agricoltura biologica sono sempre italiani, con 66.788 produttori certificati [3].

E’ finita? No, PAT e Presidi Slow Food

Nonostante il primato in Europa per prodotti di qualità DOP, IGP e STG e la recente introduzione dei prodotti BIO, l’agricoltura italiana ha dovuto affrontare lo scenario della politica agricola dell’Unione Europea partendo da condizioni nettamente svantaggiate. 

L’agricoltura moderna, estremamente indirizzata verso la meccanizzazione, richiede estensioni di terreno pianeggiante che in Italia difettano. Per reagire a questa situazione il il MiPAAF ha deciso di puntare nettamente su settori di nicchia, valorizzando i prodotti tradizionali in cui prodotti agricoli o dell’allevamento venivano lavorati secondo antiche ricette.

Prodotti PAT

Nascono, quindi, i Prodotti Alimentari Tradizionali PAT. Prodotti non riconosciuti di qualità dall’Europa, ma sempre appartenenti alla categoria dei prodotti di qualità del Made in Italy.

In totale, sono censiti ca. 5000 prodotti PAT, suddivisi per regione [4]:

Infine, un’altro marchio che tutela le piccole eccellenze sono i Presidi Slow Food nati con lo specifico obiettivo di recupero e salvaguardia delle piccole produzioni di eccellenza gastronomica minacciate dall’agricoltura industriale, dal degrado ambientale, dall’omologazione. Nel mondo esistono in tutto 574 Presidi, di cui 311 in Italia [5].

Insomma, dal punto di vista degli “indicatori europei”, il settore agroalimentare italiano si conferma un’eccellenza sotto tutti i punti di vista analizzati:

  • siamo primi per numero di prodotto DOP, IGP e STG e
  • siamo i principali produttori di agricoltura biologica.

Tuttavia, non è sufficiente a rappresentare la varietà dell’offerta agroalimentare del Made in Italy, come confermato dall’elevato numero di prodotti PAT e dai Presidi Slow Food.

Senza dimenticare l’infinita varietà di agricoltori locali non riconosciuti da nessuna delle “etichette” sopra indicate.


Riferimenti:

  1. Lista Prodotti DOP, IGP, STG in Italia. Prodotta dal Ministero delle Politiche agricole.
  2. Lista Prodotti DOP, IGP, STG in Europa. Prodotta dal Dipartimento Agricolture and Rural Development.
  3. Lista Produttori BIO in Europa. Fonte Eurostat.
  4. Lista Prodotti PAT in Italia. Fonte Ministero delle Politiche Agricole.
  5. Lista Presidi Slow Food nel Mondo. Fonte Slow Food.

Codice GitHub:

Le fonti e il codice utilizzato sono stati pubblicati al seguente repository: od_food_porn

Migranti e Rifugiati

Il caso politico dei 629 migranti soccorsi dalla nave Aquarius ha riacceso il dibattito sull’immigrazione in Italia e in Europa. Il tema dell’immigrazione è un fenomeno complesso, ampiamente discusso in tv, sui giornali e sui social.

Tuttavia, spesso i media riportano numeri contrastanti.

C’è chi parla di rifugiati, chi di migranti economici, chi confonde i clandestini con i profughi. Per provare a fare chiarezza su un tema molto complesso, è bene chiarire alcune parole chiave:

  • Migrante Regolare – Un migrante è considerato regolare se risiede in un paese con regolare permesso di soggiorno;
  • Rifugiato – Il rifugiato è colui che non può o non vuole tornare nel suo Paese di origine per il timore di essere perseguitato per motivi di razza, religione, etc.  [Articolo 1A della Convenzione di Ginevra del 1951 ];
  • Richiedente asilo – Coloro che sono in attesa che venga elaborata la richiesta d’asilo per ottenere lo status di rifugiati, la protezione sussidiaria o la protezione umanitaria;
  • Clandestinoé un migrante irregolare;
  • Migrante Economico – I migranti economici sono persone che emigrano dal loro paese di origine per motivi economici;
  • ProfugoProfugo è un termine generico che indica chi lascia il proprio paese a causa di guerre, invasioni, rivolte o catastrofi naturali.

Migranti Regolari

I principali dati sulle migrazioni sono forniti dall’Organizzazione delle Nazioni Unite, in particolare dalla divisione International Migration[1]. In Europa, escluse Russia e Gran Bretagna, i Paesi con il maggior numero di migranti sono: Germania, Francia, Spagna e Italia.

In Italia si attestano circa 6 milioni di Migranti Regolari, i cui Paesi di origine sono in prevalenza: Romania, Albania e Marocco.

Rifugiati

Le analisi sui rifugiati prendono in considerazione i dati forniti dall’Agenzia delle Nazioni Unite per i Rifugiati[2] (UNHCR).  In Italia, nel 2017, sono presenti un totale di 160.000 rifugiati.

Richiedenti Asilo

I dati sui richiedenti asilo sono forniti dal dipartimento per le libertà civili e le immigrazioni del Ministero dell’Interno. Osservando il riepilogo del 2017, si possono sintetizzare le seguenti informazioni utili:

  • Richiedenti asilo: 130.000
  • Principali paesi di provenienza: Nigeria, Bangladesh, Pakistan, Gambia, Senegal, Cosa d’Avorio, Guinea, Mali, Ghana, Eritrea, Ucraina, Siria
  • Pratiche esaminate: 80.000
  • Pratiche approvate con status rifugiato: 6.827
  • Pratiche approvate con status di protezione sussidiaria o protezione umanitaria: 27.046
  • Pratiche respinte: 47.000

Tutti i richiedenti asilo, le cui pratiche vengono respinte (ca. 46.000 nel 2017), possono quindi essere considerati quelli che vengono chiamati migranti economici. 

Clandestini

I dati sui clandestini non sono dati semplici da reperire,  una delle fonti più accreditate è la fondazione ISMU. In un rapporto del 2016 si stima un totale di ca. 500.000 immigrati clandestini in Italia.


Riferimenti:

  1. Dati sulle migrazioni forniti dall’ONU
  2. Dati sui rifugiati forniti dall’UNHCR
  3. Dati sui richiedenti asilo forniti dal Dipartimento per le libertà civili e l’immigrazione
  4. Dati sui clandestini, fonte Fondazione ISMU

Codice GitHub:

Le fonti e il codice utilizzato sono stati pubblicati al seguente repository: od_migranti

Gli Open Data della Pubblica Amministrazione

Il più importante catalogo italiano di Open Data è il catalogo dati della Pubblica Amministrazione, gestito dall’Agenzia per l’Italia Digitale.

Il catalogo[1] è alimentato grazie al contributo di tutti gli Enti Pubblici Italiani. Per renderlo costantemente aggiornato è stata implementata una funzione di harvesting, in grado di importare, in maniera automatica, i metadati dei dataset esposti dalle singole amministrazioni sul proprio catalogo. I metadati raccolti confluiscono poi nel catalogo dati del Portale Europeo.

In totale, sono stati raccolti 18.000 dataset pubblicati dagli Enti Pubblici. Considerando che esistono ca. 10.000 enti è evidente che il numero è decisamente basso…

Il dataset dei metadati

Il primo passo per analizzare il catalogo è stato la creazione del dataset dei metadati, ovvero l’insieme dei metadati di tutti i dati presenti nel catalogo.

Il dataset è stato creato con lo script API_Dati_Pubblici_Luigi.py lanciato in modalità batch (impiega ca. 8h). Il dataset costruito contiene ca. 18.000 righe corrispondenti a tutti i dataset pubblicati dalla PA Italiana. Le informazioni per descrivere il dataset sono state scelte sulla base del profilo DCAT_AP-IT.

Di seguito i dati recuperati e salvati nel file 2017-10-19_DSMetadatiPA.csv

CampoDescrizione
ds_titleTitolo
_catalog_parent_nameCatalogo
gruppoGruppo (o tema)
noteNote
ultima_modificaData ultima modifica del dataset
ds_nameNome del dataset
ds_idID univoco del dataset
ds_licenseTipologia licenza
urlUrl del dataset
mymtypeFormato

L'analisi dei metadati

Analizzando il catalogo, emerge che i primi 10 Enti Pubblici pubblicano l’80% del totale dei dataset italiani. In particolare, emerge il Trentino con 6.000 dataset pubblicati.

Un’informazione utile per individuare dataset con caratteristiche simili è il campo “gruppo”, ovvero la categoria tematica del dataset. Purtroppo, essendo un campo non obbligatorio, solo il 30% dei dataset risulta avere questo campo popolato.

Gruppi-Dataset

Effettuando una nuvola delle parole più utilizzate sui campi note e titolo emerge su tutti la parola Comune e, in generale, quasi tutte le parole fanno riferimento alla tematica principale, ovvero “Popolazione e Società”.

Verificando, invece, il campo ultima modifica, si nota un sufficiente grado di aggiornamento dei metadati; su 18.000 dataset, il 55% risulta aggiornato al 2017.

La situazione attuale si presenta quindi altamente frammentata, con pochi Enti che pubblicano la stragrande maggioranza dei dataset, con una frequenza di aggiornamento non ideale e una bassa attenzione alla qualità del dato pubblicato.

Con l’obiettivo di dare maggiore impulso agli open data in Italia e cercare di creare valore dal patrimonio informativo pubblico Agid, insieme al Team per la Trasformazione Digitale, hanno realizzato un piano triennale basato su due principali linee di azione:

  • valorizzare il patrimonio informativo pubblico attraverso la realizzazione di basi dati d’interesse nazionali, processi finalizzati a rendere open i dati della pubblica amministrazione e la realizzazione vocabolari per standardizzare e normalizzare la qualità dei dato;
  • realizzare una piattaforma Data & Analytics Framework (DAF) per gestire e analizzare gli open data.

Il piano è basato su un approccio collaborativo, è possibile monitorare l’avanzamento dei risultati direttamente sul sito del piano triennale e contribuire attivamente agli obiettivi sugli appositi repository github.


Riferimenti:

  1. Catalogo Dati della Pubblica Amministrazione Italiana

Codice GitHub:

Le fonti e il codice utilizzato sono stati pubblicati al seguente repository: od_dati_pa

Un giorno con #trump

Twitter

Twitter, come Facebook, è un altro grande produttore di dati. “Tecnicamente” non sono “open data” tuttavia, possono essere utilizzati ed analizzati.

Gli ambiti di analisi dei dati Twitter sono molteplici, in questo articolo ci concentreremo sulla Sentiment Analysis, ovvero l’analisi del linguaggio naturale per identificare il “sentiment” positivo o negativo del tweet.

La struttura dell’articolo è suddivisa in tre parti: la prima parte descrive velocemente come recuperare i dati da twitter, la seconda introduce il Machine Learning di cui la Sentiment Analysis fa parte e, infine, la terza descrive i risultati ottenuti analizzando 1 giorno di twitter su #trump.

Per prima cosa ci occuperemo di scaricare in modo massivo una consistente quantità di tweet, seguendo le indicazioni fornite sulla pagina developer di Twitter. Il programma realizzato sfrutta le librerie per scaricare real-time tutti i tweet con uno specifico hashtag. In particolare, per questa analisi abbiamo scelto di analizzare l’hashtag #trump ed abbiamo lasciato girare il programma per un giorno dalle 22.00 del 28.05.2017 alle 22.00 del 29.05.2017. Alla fine è stato accumulato un file di 600 MB per un totale di 100.000 tweet.

Machine Learning

La base dati appena scaricata è stata quindi analizzata attraverso un algoritmo di Machine Learning. Lo strumento di sentiment utilizzato è il Vader, un tool che mette a disposizione un lessico di base e delle regole per analizzare i sentimenti espressi nei social media. La Sentiment Analysis funziona un po’ come tutti gli algoritmi di Machine Learning relativi alla tipologia “Supervised Learning” e si basa sui seguenti step:

  1. Costruzione di un lessico di base, con frasi distinte tra positive e negative.
  2. Definizione di un algoritmo di machine learning (es. Naive Bayes) che “impara” le regole necessarie a classificare una frase in positivo o negativo sulla base del lessico appena definito.
  3. Training dell’algoritmo sul lessico di base per verificare se i risultati ottenuti dall’algoritmo rispecchiano quanto definito nel lessico di base.
  4. Download di nuove frasi (es. da Twitter).
  5. Applicazione dell’algoritmo alle nuove frasi che si occuperà, in autonomia, di decidere se la frase è “positiva” oppure “negativa”.

Il tool VADER è inglobato nella libreria python nltk (Natural Language Tool Kit) e permette di espletare i punti 1,2,3. Mentre, per i punti 4 e 5, realizzeremo uno script ad hoc per scaricare gli ultimi tweet relativi all’hashtag #trump ed elaborarli tramite l’algoritmo di machine learning.

Sentiment Analysis su #trump

La base dati è stata realizzata scaricando 24h di tweets relativi all’hashtag #trump, a cavallo tra il 28.05.2017 e il 29.05.2017, collezionando un totale di 100.000 tweet. Per comprendere meglio i risultati della sentiment è importante ricordare i principali eventi di questi giorni su Trump:

  1. Rischio “impeachment”  a causa delle rivelazioni sullo scambio di informazioni tra Russia e USA.
  2. G7 a Taormina – Trump non cede sugli accordi per il clima.
  3. G7 a Taormina – Merkel accusa Trump di essere “inaffidabile”.

La prima analisi è una semplice distribuzione del sentiment dei tweet: positivi vs negativi. 

Emerge una notevole quantità di tweet “neutri”, per i quali l’algoritmo non ha evidenziato un particolare sentiment positivo o negativo. Tra i tweet classificati emergono di poco i negativi rispetto ai positivi. La sentiment analysis sembrerebbe confermare che, nonostante le notizie negative del giorno, Trump risulta ancora molto popolare tra gli americani.

Una seconda possibile analisi dei tweet è l’andamento del sentiment lungo il periodo temporale (orario), per verificare se e come il sentiment cambia rispetto agli eventi giornalieri.

Purtroppo non sono riuscito a trovare una fonte di news con il dettaglio dell’ora per associarla ai picchi negativi o positivi. Probabilmente, tale tipo di analisi ha più senso su un orizzonte temporale settimanale.

Un ulteriore tipo di analisi dei tweets riguarda la posizione geografica da cui viene inviato il tweet. In questo caso twitter mette a disposizione 3 tipi di informazione sulla posizione:

  • Le coordinate -> su 100.000 tweet solo su 77 sono presenti.
  • La location -> informazione inserita manualmente dall’utente, con conseguente disomogeneità delle informazioni. Tuttavia, emerge ad esempio tra i negativi New York, mentre tra i positivi il Texas e la California.
  • La timezone -> dalla quale emerge che la maggior parte dei tweet provengono dall’America.

Infine, è interessante analizzare le parole più frequenti all’interno dei tweets positivi o negativi. Per i positivi troviamo, ad esempio, ‘TrumpTaxPlan’ mentre tra i negativi: ‘spied’ o ‘Merkel’.

A livello più generale, l’analisi effettuata sui dati Twitter pone due riflessioni:

  1. La qualità del dato e gli algoritmi di machine learning non sono ancora completamente maturi per un’analisi approfondita del “sentimento umano”. Tuttavia, sembra che la strada da fare non sia poi cosi lunga.
  2. Analizzando il dato nudo e crudo, al netto della qualità, c’è comunque qualcosa che non torna… nonostante le notizie negative del giorno i tweet con sentiment positivo sono uguali ai tweet negativi.

Prendendo a campione qualche tweet positivo incontriamo spesso: “TRUMP SHARES MY VALUES GOD FAMILY COUNTRY STRONG WORK ETHIC GREAT EXAMPLE 4 OUR KIDS 2 EMULATE“. Tale tipo di tweet, ovviamente con sentiment positivo, sembra un tweet di propaganda volto ad influenzare l’opinione pubblica. Un tweet simile si ritrova più e più volte in una serie infinita di retweet.

E’ chiaro che, oltre ad influenzare la nostra analisi, influenza anche il comportamento delle persone, un pò sulla scia delle fake-news su Facebook. In questo caso però, il post non è falso ma è semplicemente propaganda politica con effetti, sugli utilizzatori dei Social, ancora tutti da comprendere.

Purtroppo, non è un caso se pochi giorni fa il fondatore di twitter ha rilasciato un’intervista in cui dichiara fallito il suo intento di dare voce a tutti e, addirittura, si scusa dichiarando che, senza Twitter, molto probabilmente Trump non sarebbe diventato presidente.

Il problema della manipolazione delle informazioni e del “sentiment” delle persone sui social è un tema caldo che i BIG dell’informatica stanno cercando di arginare ma, al momento, non sembra essere di facile soluzione.


Riferimenti:

  1. Machine Learning
  2. Sentiment Analysis – Analisi del Sentiment
  3. Vader – Hutto, C.J. & Gilbert, E.E. (2014). VADER: A Parsimonious Rule-based Model for Sentiment Analysis of Social Media Text. Eighth International Conference on Weblogs and Social Media (ICWSM-14). Ann Arbor, MI, June 2014.

Codice GitHub:

Le fonti e il codice utilizzato sono stati pubblicati al seguente repository: od_twitter

, ,

La Grande Fuga – Salute, ricchezza e origini della disuguaglianza in Italia

La Grande Fuga

La fuga più grande nella storia dell’umanità è la fuga dalla povertà e dalla morte

Per migliaia di anni le persone che, favorite dalla sorte, erano sfuggite alla morte nell’infanzia hanno dovuto poi affrontare un’esistenza nella più sconfortante miseria. Grazie al pensiero illuminista, alla rivoluzione industriale e alla messa a punto della teoria microbica delle malattie, le condizioni di vita sono straordinariamente migliorate, il numero di anni da vivere è più che raddoppiato e l’esistenza è diventata più ricca e gradevole. Eppure, un miliardo di persone vive in condizioni economiche appena migliori di quelle dei propri progenitori, vanta livelli di istruzione di poco superiori e può aspettarsi di sopravvivere soltanto un poco più a lungo. Le grandi fughe hanno cambiato radicalmente le cose per quelli di noi che sono diventati più ricchi, sani, alti, robusti e colti dei propri nonni. Ma hanno inciso profondamente anche in senso diverso e meno positivo: perché buona parte della popolazione mondiale è stata lasciata indietro, perché il pianeta è immensamente più disuguale di quanto fosse trecento anni fa. [Angus Deaton]

Angus Deaton è stato premio Nobel per l’economia nel 2015 per le sue analisi sui consumi, sulla povertà e sul welfare. Nel libro “La Grande Fuga – salute, ricchezza e origini della disuguaglianza”, l’autore ripercorre le azioni che, una generazione dopo l’altra, sono state intraprese per rendere l’esistenza meno dura, ma che tuttavia hanno prodotto un incessante oscillare tra progresso e disuguaglianza. Il focus del libro sono i Paesi più poveri, dove il reddito pro-capite non supera i 4.000$ annui. L’ Italia viene poco menzionata e con i suoi 35.000$ di reddito pro-capite medio non viene esaltata, nel bene o nel male, nei capitoli del libro.

L’obietto dell’articolo di oggi è di ripercorrere velocemente le analisi effettuate nel libro, con focus sull’Italia e, in particolare, sul divario tra Nord e Sud.

Il Benessere in Italia

Per capire come stanno le cose è necessario fare il punto sulle condizioni di salute, sul benessere materiale e sulla felicità nel loro insieme. Il primo grafico mette in relazione le aspettative di vita e il reddito pro capite al 2015:

Come possiamo vedere, se ipotizziamo una linea che collega i due punti, questa sarebbe quasi orizzontale. A significare che l’Italia, sia a Sud che a Nord, ha superato il punto di svolta chiamato anche “transizione epidemiologica”. Nei Paesi più poveri, la mortalità dei bambini è ancora molto elevata a causa delle malattie infettive ormai debellate nei Paesi più ricchi grazie allo sviluppo dei vaccini. L’Italia, in realtà, va molto oltre il punto di svolta e si classifica tra i primi al mondo per speranza di vita alla nascita. Dati alla mano ci precede solo Monaco e il Giappone1). La linea orizzontale suggerisce che, appena superata una certa soglia di reddito, la ricchezza non incide più sulle aspettative di vita alla nascita. Questa evidenza ha portato Deaton a sostenere che il merito del crescente benessere non è dovuto solo al reddito, ma anche alla conoscenza. Ovvero, lo sfruttamento pratico delle conoscenze scientifiche, ed in particolare mediche, risulta un componente fondamentale del progresso tanto quanto il reddito. In questo caso possiamo dire che l’Italia è stata brava nello sfruttamento di tali conoscenze e, nonostante l’evidente disuguaglianza di reddito, possiamo affermare che chi nasce al Sud ha le stesse aspettative di vivere tanto a lungo quanto chi nasce al Nord.

Salute e ricchezza costituiscono la base delle analisi sul benessere oggettivo ma, per avere un quadro completo, bisogna affiancarci anche un indicatore qualitativo di benessere, ovvero la felicità delle persone ed infatti il secondo grafico analizza il grado di soddisfazione per la vita in relazione con il reddito pro-capite. La principale fonte informativa in questo campo è l’indagine Gallup 2) che basa i suoi dati sul triennio 2013-2015.  In tale indagine, l’Italia si pone al 50° posto nella classifica e i principali fattori che incidono in questo risultato negativo sembrano essere la disoccupazione giovanile e la corruzione; solo considerare che i nostri vicini di classifica sono il Kyrgyzstan  e il Mozambico.  In Italia, l’ Istat3) calcola tale indicatore, il grado di soddisfazione, con una granularità maggiore e anche qui la differenza tra Nord e Sud non sembra essere rilevante. Su una scala da 1 a 10 il Nord raggiunge un punteggio di 6.9, mentre il Sud si attesta poco dietro a 6.5.

Anche in questo caso la differenza di reddito non incide sul grado di soddisfazione della vita; la ricchezza non protegge dall’ansia, dalla paura e dall’infelicità, né rappresenta un requisito imprescindibile per riuscire a sentirsi felici o a trarre piacere dalla vita quotidiana.

La Vita e la Morte

La salute ha molte dimensioni ed è difficile ricondurla ad un’unica grandezza. Tuttavia ne esiste una facile da misurare e di straordinaria importanza: il semplice fatto di essere vivi o morti. E’ un tipo di informazione di scarso rilievo, ovviamente, per i singoli individui – chi consulta un medico si aspetta certo qualcosa in più di un semplice: “Ok, sei vivo!”. Non è cosi invece per chi intenda occuparsi delle condizioni di salute di gruppi di individui, si tratti di interi popoli o sottogruppi. Un modo consueto di misurare la vita e la morte è guardare a quanto a lungo un bambino appena nato possa sperare di vivere. Si tratta della cosiddetta speranza di vita alla nascita. L’Istat fornisce la serie storica solo a partire dal 2002, per risalire più indietro possiamo utilizzare la banca dati della World Bank4) che tuttavia fornisce solo dati aggregati a livello di Paese. Il terzo grafico evidenzia il trend positivo dal 1960 ad oggi dell’aspettativa di vita in Italia:

La speranza di vita viene calcolata in base alle informazioni relative ai rischi di morte del bambino al momento della nascita e considerando i rischi di morire negli anni successivi, sulla base di quanto noto ad oggi. Come già visto nel primo capitolo, questi rischi oggi sono molto più bassi grazie alle cure dei vaccini. Che la vita si sia allungata di 10 anni in 50 anni è un risultato straordinario, tuttavia bisogna riflettere su un fattore secondario di questo indicatore, ovvero “l’invecchiamento della morte” che passa dai bambini agli anziani. La riduzione della mortalità tra i bambini incide sulle aspettative di vita in misura maggiore della riduzione della mortalità tra gli anziani. Un neonato che corre il rischio di morire, ma poi sopravvive, ha la chance di vivere per molti anni, il che non si può dire per gli anziani.

Per comprendere a fondo tale indicatore, bisogna analizzare i tassi di mortalità per classi di età (quarto grafico). Le curve della mortalità hanno una forma caratteristica che richiama il “baffo” della Nike: hanno un inizio in un punto collocato relativamente in alto, in corrispondenza delle età più giovani; scendono rapidamente fino a raggiungere il loro punto più passo, corrispondente alla mortalità dei bambini di 10 anni; quindi risalgono in modo più o meno regolare con le età successive.

Per poter osservare il fenomeno del “baffo Nike”, in Italia, bisogna utilizzare una scala logaritmica, a conferma che la mortalità infantile è ormai molto bassa. Basta ragionare su un numero, per capire la “grande fuga” italiana dalle malattie epidemiologiche: i morti nella fascia 0-4 anni in Italia nel 2015 sono stati 1.292 contro i 399.505 del 1887 nella stessa fascia [5].

Abbiamo già anticipato il concetto di “invecchiamento della morte“. Oggi, nel 2015 i morti nella fascia 85-89 anni sono circa 100.000 e, come si evince dalla figura 4, la differenza tra Nord e Sud è abissale (ricordiamo che la scala è logaritmica e quindi le differenze sono notevoli). Se prendiamo, ad esempio, l’ultima fascia, al Sud i morti sono 29.898 mentre al Nord 64.087. Per poter analizzare in dettaglio tale fenomeno bisogna considerare due aspetti:

  1. Numerosità della popolazione
  2. Cause di morte negli anziani

Il Nord, con i suoi 27 milioni di abitanti, è sicuramente più popoloso del Sud che si attesta su 14 milioni. Tuttavia, l’Istat fornisce un’ulteriore indicatore sintetico ovvero: il tasso di mortalità ogni 1000 abitanti e, anche in questo caso, il Nord ha un valore superiore (10.5 contro 10.1 del Sud).

La teoria microbica delle malattie ha permesso di eliminare quasi definitivamente il rischio di morte alla nascita, tuttavia esistono ancora molte malattie che causano la morte prevalentemente tra gli anziani. Nei paesi ricchi le principali cause di morte sono da attribuirsi alle malattie cardio-vascolari e al tumore. In Italia, ultimi dati istat disponibili al 2014 sono:

  • Morte per tumore: 86.000 persone al Nord, contro i 35.000 al Sud
  • Morte per malattie cardio-vascolari: 97.000 persone al Nord contro 51.000 al Sud

Per quanto riguarda le malattie cardio-vascolari la medicina sta facendo progressi grazie alle cure dell’ipertensione del colesterolo e alla prevenzione a costi contenuti. Lo stesso purtroppo non si può dire per quanto riguarda i tumori, le cui cure, oltre a non essere sempre efficaci, sono ancora molto costose. Ricordiamo che la “grande fuga” della mortalità infantile è dovuta prevalentemente alla diffusione dei vaccini a basso costo, lo stesso purtroppo non si può dire per il tumore, ed è forse questa la sfida del futuro dei servizi sanitari nazionali.

Nell’ambio della prevenzione sono ormai noti i danni provocati dal fumo, quello che invece balza agli occhi è che al Nord ci si ammala di più di tumore rispetto al Sud. Individuare le cause non è banale, ci sono molti studi on-line, [6] uno interessante riguarda la relazione rispetto a due principali fattori: la dieta e l’ambiente. I tumori possono dipendere da quello che mangiamo, che respiriamo, e da come ci muoviamo e rapportiamo con l’ambiente. Non a caso al Nord l’industrializzazione e l’aumento delle polveri sottili sta facendo molti più danni della “terra dei fuochi”.

Il Denaro

Oltre alla salute, l’altra componente importante per il benessere è il reddito. Vinte le prime battaglie contro la malattia e la morte precoce, anche il tenore di vita cominció a crescere e, da allora, salute e livello di benessere procedettero in larga misura insieme. La crescita economica ha innalzato il tenore di vita e ridotto la povertà, il reddito medio di tutti gli abitanti dal 1820 al 1992 sarebbe cresciuto sette-otto volte. Contemporaneamente, la quota di popolazione mondiale in condizioni di povertà estrema è scesa dall’84 al 24%. Tuttavia, questo aumento del tenore di vita è stato accompagnato da straordinari ampliamenti  delle disuguaglianze di reddito. Anche all’interno di uno stesso Paese, quando il benessere aumenta, non tutti ne beneficiano in eguale misura, cosicché i passi avanti compiuti ampliano spesso le differenze tra individui. Il cambiamento è spesso ingiusto, sia esso positivo o negativo.

Il quinto grafico mette a confronto Nord e Sud sui principali indicatori del benessere materiale: il PIL pro capite, il reddito personale e la spesa per consumi. Il Prodotto Interno Lordo (PIL) misura la produzione totale di un paese e costituisce la base per la determinazione del reddito nazionale. La parte di reddito nazionale a disposizione delle famiglie una volta pagate le tasse è chiamata reddito personale disponibile, mentre la spesa per i consumi è quanto del reddito disponibile è dedicato ai consumi di beni e servizi, la parte restante è il risparmio.

Analizzando il grafico si notano 3 grandi evidenze:

  1. La prima, che non stupisce, è l’enorme disuguaglianza di reddito tra Nord e Sud.
  2. La seconda, riguarda il crollo finanziario del 2008 da cui l’economia italiana non si è più ripresa. Da quel punto in poi, infatti, tutte e tre le grandezze d’interesse si appiattiscono.
  3. La terza, riguarda la linea del consumo pro capite, al Nord è di molto minore del PIL pro capite ma comunque maggiore del reddito disponibile, mentre al Sud la “stranezza” è ancora più marcata, infatti la linea dei consumi è uguale alla linea del PIL.

L’ultimo punto è abbastanza sorprendente, non è un fenomeno registrato da Deaton nel libro e potrebbe evidenziare il fatto che gli italiani non stanno più risparmiando e, inoltre, stanno intaccando quanto già risparmiato. Un’ulteriore lettura del fenomeno, sopratutto per il Sud, potrebbe essere relativa al lavoro nero che spiegherebbe il motivo di un PIL cosi basso e di una linea dei consumi cosi alta rispetto al PIL.

Il PIL presenta diversi inconvenienti in quanto indicatore di benessere; ad esempio, non viene considerato il tempo libero o altri fattori qualitativi. Alcuni economisti sostengono che la crescita economica in passato consistesse essenzialmente nella produzione di un numero maggiore di cose – più case, più camicie, più tavoli, etc. – oggi invece nella produzione di cose migliori. Tuttavia misurare il <<meglio>> è più difficile di misurare il <<più>>.

La mela d’oro del progresso materiale contiene un verme visibile dal grafico precedente: dal 2008 la crescita sta rallentando. Cosa precisamente il rallentamento della crescita del PIL abbia comportato per i cittadini in condizioni peggiori lo si può scoprire esaminando il sesto grafico sui tassi di povertà.

Il grafico mostra la proporzione dei poveri (incidenza), cioè il rapporto tra il numero di individui in condizione di povertà assoluta e il numero individui residenti. Risulta evidente che dal 2008 i tassi di povertà sono in continuo aumento, specie al Sud.

L’evoluzione del reddito può essere analizzata da tre punti di vista diversi: della crescita, della povertà e della disuguaglianza. La crescita si occupa del reddito medio e delle sue variazioni, la povertà dei redditi bassi e la disuguaglianza della dispersione delle risorse tra gli individui. Per avere una visione della disuguaglianza tra la popolazione basti pensare a due numeri:

  • l’1% più ricco degli italiani possiede, oggi, il 25% della ricchezza totale e
  • il 20% della popolazione più ricca raggiunge il 60% della ricchezza totale.

Con la crisi la forbice tra ricchi e poveri si sta allargando, i ricchi sono diventati più ricchi e i poveri ancora più poveri. Per capire ad un livello di granularità maggiore la disuguaglianza di reddito in Italia è possibile analizzare  la percentuale di popolazione compresa nei quinti di reddito equivalenti (settimo grafico). Le soglie per definire i quinti di reddito equivalente (cioè i quintili) sono determinati a livello nazionale su tutte le famiglie, il che significa che a livello Italia in ogni quinto è racchiuso il 20% delle famiglie. Il primo quintile rappresenta la percentuale di famiglie più povere, mentre il quinto quintile rappresenta la percentuale di famiglie più ricche.

Con riferimento alle famiglie che vivono al Sud, accade che nel 2014 il 36% sta nel primo quintile, mentre appena il 7,4% sta nell’ultimo, cioè rispetto alla media nazionale sono di più le famiglie che stanno nel quinto più povero e meno le famiglie che stanno nel quinto più ricco. Inoltre, si nota come dal 2008 la percentuale di famiglie ricche diminuisce mentre aumenta la percentuale di famiglie povere. Al contrario, al Nord registriamo la situazione opposta, a rimarcare il netto divario a livello di reddito tra il Nord e il Sud.

Per riflettere sui redditi e sulle disuguaglianze, un buon punto di partenza è il lavoro. La maggior parte degli individui si procura le proprie entrate lavorando, e dunque lavoro e salari sono di cruciale importanza per l’entità dei loro redditi. Tuttavia è bene tener presente che il lavoro è solo uno dei fattori di reddito, altri sono ad esempio il patrimonio, i dividendi, gli interessi, etc.

La disoccupazione in Italia è uno dei principali indicatori sotto osservazione, a partire dal 2008 non smette di crescere e le differenze tra Nord e Sud rispecchiano le disuguaglianze di reddito già analizzate. Nell’ambito del lavoro preoccupa  sopratutto la disoccupazione giovanile, nel 2016 risultano disoccupati oltre il 40% dei giovani tra i 15 e i 24 anni. La distribuzione del reddito non può essere ricondotta ad un meccanismo unico come il mercato del lavoro e alcuni economisti sostengono di concepire l’evoluzione del reddito come conseguenza dello sviluppo tecnologico e dell’incremento del livello di istruzione. La tecnologia impiegata sul lavoro richiede competenze e formazione, o forse semplicemente capacità di adattamento, che si acquisiscono con un buon livello di istruzione generale. Gli economisti ritengono che l’accelerazione del progresso tecnico costituisca il motore principale della crescente disuguaglianza tra i redditi da lavoro. In questo scenario la globalizzazione ha avuto un ruolo significativo: molte produzioni realizzate da lavoratori non qualificati sono state trasferite nei Paesi più poveri e numerose imprese hanno spostato all’estero funzioni in passato svolte in Italia. Anche l’immigrazione legale ed illegale è stata considerata responsabile della pressione al ribasso esercitata sui salari dei lavoratori non qualificati. Infine, anche la politica gioca un ruolo importante nella determinazione del reddito. In Italia le autorità statali si occupano, ad esempio, di definire le pensioni minime garantite, oppure di definire i rinnovi dei contratti nazionali del lavoro insieme alle parti sociali. Tuttavia, la vera posta in gioco sono le tasse. Nel 2015 l’Italia si è classificata nella top ten dei Paesi “Dracula” nel mondo, con il 40% di incidenza rispetto al pil.

In Italia è evidente che esiste una preoccupante disuguaglianza tra Nord e Sud sia a livello di reddito che di lavoro, spesso viene citata come la “questione meridionale” ed è un problema politico di complessa soluzione. Ciononostante, quello del Nord, non sembra essere un modello perfetto: l’aspettativa di vita alla nascita è pressoché identica al Sud e l’indicatore di felicità, ovvero il benessere “qualitativo”,  non mostra differenze significative. Al contrario, il Nord ha registrato negli ultimi anni dei tassi di mortalità in età adulta decisamente maggiori del Sud. Bisogna ricordare, come suggerisce Deaton, che l’obiettivo del benessere non è aumentare il reddito ma aumentare gli anni per vivere una vita decente.

Riguardo la ripresa economica, che stenta a ripartire e frena tutta l’Italia a partire dal 2008, riporto le parole con cui Deaton conclude il suo libro:

“In Europa e negli Stati Uniti abbiamo finito con il persuaderci che le cose non possano che migliorare. Tuttavia, molte gravi minacce incombono su di noi. Il cambiamento climatico è la più evidente, e per il momento non vi sono soluzioni chiare politicamente percorribili. Le guerre non sono finite. La scienza è sotto attacco dei fondamentalisti religiosi in vari luoghi del mondo. Può comparire un nuovo morbo in qualunque momento. La crescita economica è il motore della fuga dalla povertà e dalla deprivazione materiale. Sennonché nel mondo ricco stenta a procedere. Quasi ovunque il rallentamento della crescita è stato accompagnato da un aumento delle disuguaglianze. Le grandi concentrazioni di ricchezza possono minare la democrazia. E’ un tipo di disuguaglianza che incoraggia coloro che sono già fuggiti a bloccare alle proprie spalle le vie di fuga appena percorse. Poiché l’avanzamento degli uni può avvenire soltanto a spese degli altri, il rallentamento della crescita rende inevitabili i conflitti distributivi.

Nondimeno sono prudentemente ottimista. Il desiderio di fuggire è radicato nel profondo, e domarlo non sarà facile. E’ probabile che il rallentamento della crescita sia sovrastimato. La rivoluzione dell’informazione e i suoi dispositivi contribuiscono al nostro benessere più di quanto siamo in grado di misurare. Non possiamo aspettarci che si progredisca sotto tutti gli aspetti in ogni parte del mondo, o che ciò accada senza intoppi. Gli eventi negativi sono inevitabili, e le nuove fughe, come le vecchie, portano nuove disuguaglianze. Ciononostante, credo che queste battute d’arresto in futuro saranno superate, come è accaduto in passato.”


Riferimenti:

  1. Stati per aspettativa di vita
  2. Indagine Gallup
  3. Istat
  4. World Bank Data
  5. Focus mortalità bambini
  6. Cause tumori Nord vs Sud

Codice GitHub:

Le fonti e il codice utilizzato sono stati pubblicati al seguente repository: od_la_grande_fuga

Il Grafo Sociale di Facebook

Il Grafo Sociale

Social Network sono tra i più grandi produttori di dati e, alcuni di questi, sono accessibili pubblicamente tramite delle API [1].

Uno dei più noti social network è Facebook il quale basa i suoi dati sul “Social Graph”, ovvero una rappresentazione a grafo delle informazioni composta da: nodi, collegamenti e campi.

Ad esempio: data una persona è possibile risalire ai suoi post e, in base ai post, è possibile analizzare i commenti collegati al post.

L’idea di base è capire come poter utilizzare i dati disponibili per analizzare i metodi di comunicazione impiegati sulle pagine Facebook. Come esempio di studio, attraverso un’indagine sul numero di post e di like ricevuti, sono state analizzate le pagine di Salvini, Renzi e del M5S.

Salvini vs Renzi vs M5S

Il primo grafico mostra la distribuzione del numero di post raggruppati per anno di pubblicazione.

In totale dal 2010, i grillini hanno pubblicato 21.931 post, Salvini 16.007 e Renzi in ultima posizione con 3.742 post.

Chart by Visualizer

Il secondo grafico analizza invece la distribuzione del numero di like ricevuti sui post pubblicati, sempre raggruppati per anno di riferimento.

In questo caso, la situazione cambia drasticamente e, in prima posizione, sale Salvini con 50 milioni di like, in seconda Renzi con 10 Milioni di like e infine il Movimento 5 Stelle con 4 milioni.

Chart by Visualizer

Analisi dei "picchi" di likes

Osservando con maggior dettaglio l’andamento dei like ricevuti da Salvini, pagina Facebook con maggior numero di like, si nota a livello macro una crescita repentina avviata nel 2013, anno in cui diventa segretario della Lega Nord, a discapito di Umberto Bossi. Raggiunge il picco nel 2015 come antagonista di Matteo Renzi (Presidente del Consiglio dal 2014), dopodiché inizia la discesa. Ma più della discesa, quello che incuriosisce sono i “picchi”…

Analizzando i post con maggior numero di like presenti sui 4 picchi individuati, troviamo:

  • Ottobre 2014, 90.000 like –  Uno STUPRATORE tunisino di 28 anni, già in galera per violenza sessuale, è evaso dal carcere di Pordenone e ha violentato una ragazza di 28 anni. È stato arrestato. Fossi ministro, applicherei (come già sperimentato in numerosi Paesi europei) la CASTRAZIONE CHIMICA e poi lo rimanderei in Tunisia. Che dite?
  • Aprile 2015, 135.000 like – Ragazzi, da non credere! Ascoltate e divulgate.Sabato e domenica tutti in piazza, vieni a firmare. (Post associato ad un video in cui vengono intervistate due minorenni rom che si vantavano di rubare).
  • Giugno 2015, 97.550 like – Una mamma di 41 anni, separata e con due figli, si è impiccata vicino a Bologna. Le avevano staccato il gas, e per luglio rischiava lo sfratto.Una preghiera per questa mamma, un abbraccio ai suoi due cuccioli di 10 e 11 anni che non lasceremo soli, e tanta rabbia. Stato italiano, dove sei?
  • Novembre 2015, 95.484 like – Da FARE SUBITO.Sostegno militare alla Russia per annientare l’ISIS, controllo delle frontiere, blocco degli sbarchi ed espulsione dei clandestini, verifica a tappeto di tutte le occupazioni abusive nei nostri quartieri popolari, da Milano a Palermo. Ci hanno dichiarato GUERRA. E alla guerra non si risponde con le chiacchiere di Renzi e dell’inutile Alfano

Tutti argomenti relativi al tema dell’immigrazione.

In generale, la possibilità di interrogare i dati messi a disposizione dai Social Network apre un’infinita serie di analisi. Sarebbe stato interessante, ad esempio, indagare meglio le persone che hanno messo tutti quei like ai post di Salvini. Il numero di like ricevuti, sui post tra il 2014 e il 2015, sono pari ai like che in media riceve il Presidente Obama ai suoi post…

Purtroppo o per fortuna, per questioni di privacy, Facebook non permette l’accesso completo alle informazioni personali, resta un pò il dubbio che dietro a tutti quei like ci siano persone vere o programmi creati ad hoc.


Riferimenti:

  1. API Facebook

Codice GitHub:

Le fonti e il codice utilizzato sono stati pubblicati al seguente repository: od_facebook

La città più pericolosa del Mondo

Ciudad de Juarez

Dal 2008 al 2012, la cittadina messicana al confine con gli Stati Uniti, Ciudad de Juarez, è stata ampiamente considerata il luogo più pericoloso della Terra. Nel 2010, la guerra tra i cartelli della droga ha raggiunto il suo apice con 3.766 omicidi[1].

Durante la lettura della serie di Don Winslow, Il potere del cane e Il cartello, sono rimasto colpito dalla spirale di violenza raccontata presso la cittadina messicana. Ciudad de Juarez è stata a lungo la città con più omicidi al mondo; oggi, dopo essersi spopolata è uscita dalla classifica delle 50 città non in guerra con il più elevato numero di omicidi[2].

Oggi (dati disponibili aggiornati al 2015), la classifica è guidata da Caracas (Venenzuela) con 3.946 omicidi, a seguire Cape Town (Sud Africa) con 2.451 e Fortaleza (Brasile con 2.422).

In termini di Paesi, invece, in testa troviamo il Brasile con ben 21 città presenti nella lista. A seguire il Venenzuela e il Messico. In questa lista non è presente nessun Paese Europeo…

In Europa

Per quanto riguarda l’Unione Europea è possibile analizzare il numero di omicidi per Paese attraverso gli OpenData raccolti e distribuiti da Eurostat.

La mappa di seguito mostra il numero di omicidi intenzionali nel 2014 (ultima serie storica disponibile), distribuiti per Paese dell’Unione Europea. Emerge che al terzo posto dei Paesi piú pericolosi, nell’Unione Europea, troviamo l’ Italia con 475 omicidi, dietro alla Germania e alla Francia.

Chart by Visualizer

…e in Italia

In Italia i principali OpenData sono distribuiti dall’ Istat, che contribuisce a sua volta al progetto Eurostat. Anche dal portale Istat, cosi come già riscontrato dal portale Eurostat,  il numero di omicidi intenzionali in Italia nel 2014 ammonta a 475.

Tuttavia, sul portale Istat, i dati sono presenti con maggiore granularità ed è possibile scendere a livello di regione e città.

Come si può notare, a livello di regioni il dato è fortemente concentrato in Campania, Lombardia e Lazio. Insieme, queste tre regioni, occupano circa il 40% del totale.

Chart by Visualizer

Tornando invece a livello di città, cosi come analizzato per Ciudad de Juarez, le più pericolose in Italia risultano essere, senza sorprese, Napoli (49), Roma (47) e Milano (30). Numeri tuttavia molto distanti da quelli che vengono riportati nella lista delle città più pericolose del mondo.

Chart by Visualizer

Riferimenti:

  1. The most dangerous place on Earth
  2. List of cities by murder rate

Codice GitHub:

Le fonti e il codice utilizzato sono presenti al seguente repository: od-crimini-ita.