SpazioDati a supporto del Big Data Challenge di Telecom Italia

label-bigdatachallengeZitti zitti, e quatti quatti, nelle ultime settimane abbiamo fatto un gran lavoro per supportare il Big Data Challenge organizzato da Telecom Italia e di cui siamo partner.
Il tema è sfidante: è utile citare le parole di Fabrizio Antonelli per inquadrarlo al meglio.

Telecom Italia, come tutti i grandi operatori, è a tutti gli effetti una big data company (si pensi che ogni giorno, solo per il traffico telefonico/dati, si generano e analizzano 600 milioni di record) e sta cogliendo questa importante opportunità investendo sullo sviluppo di soluzioni e tecnologie big data. In questo percorso la Telecom Italia Big Data Challenge rappresenta una tappa importante, perché permetterà di portare all’attenzione l’importante ruolo e la centralità dell’operatore telefonico, che produce e veicola enormi moli di dati.
I partecipanti della Telecom Italia Big Data Challenge possono iscriversi sul sito del contest. A partire dal 14 gennaio 2014 avranno accesso a un dataset eterogeneo contenente diversi milioni di record riferiti al periodo novembre-dicembre 2013, attraverso i quali sviluppare soluzioni innovative. Il contest è diviso in 3 Tracks; ogni partecipante potrà decidere se iscriversi alla track app development, ovvero sviluppo di applicazioni web o mobile, data analytics, ovvero algoritmi di analisi di trend, pattern, …, oppure data visualization, visualizzazioni statiche o interattive sui dati a disposizione.

Il 14 gennaio è stato il primo giorno in cui i dati sono stati resi disponibili ai partecipanti, e SpazioDati ha gestito completamente questo processo. Attraverso un’area dedicata, il partecipante al challenge trova tutti i datasets da scaricare, e per alcuni trova anche le API per interrogarli più agilmente. Abbiamo curato infatti anche tutta la fase di trasformazione da semplici datasets ai dataGEM veri e propri, dove valesse la pena a seconda della natura dei dati da maneggiare.

Ecco una sintesi del materiale pubblicato al momento, per stuzzicarvi l’appetito (occhio che il termine per iscriversi al challenge è il 10 febbraio, e si avvicina eh):

  • i dati sono provenienti da due zone geografiche ben definite: l’area di Milano e l’area di Trento. Telecom Italia ha reso disponibili:
    • la griglia geografica in cui è divisa l’area milanese: stiamo parlando di oltre 10.000 celle disponibili via API in JSON e come dataset da scaricare in GeoJSON
    • la griglia geografica in cui è divisa Trento: in questo caso sono 6500 celle, anche queste disponibili via API e come dataset da scaricare ( sempre in GeoJSON )
    • il dataset delle attività telefoniche per singola cella ( chiamate in entrata ed in uscita, sms in entrata ed in uscita, volumi di traffico Internet ). In generale il peso per mese del dataset completo di Milano è di 2.5 GB, mentre per Trento è di 1.6 GB. Sono state predisposti per il download anche datasets per singola giornata per entrambe le zone.
    • il dataset del traffico telefonico dall’area di Milano verso il resto delle province italiane: pesa circa 1.1 GB, ed è disponibile anche per singola giornata. Per l’area di Trento invece pesa poco meno di 1 GB.
    • il dataset del traffico mobile all’interno di Milano (via Telecom Italia Mobile – TIM), che pesa davvero parecchio: oltre 45 GB per dicembre e 47 per novembre. Anche questo disponibile anche per singola giornata, ovviamente. Per l’area di Trento i numeri sono comunque simili: si parla di 43 GB per dicembre e quasi 37 per novembre.
  • i datasets meteo, provenienti dalle agenzie ARPA ( e quindi Open Data ): per l’area di Milano ci sono dati giornalieri ad intervalli di un’ora dai sensori ambientali monitorati dagli enti di competenza. Qui si tratta di misure tradizionali di una stazione meteo ( dalla temperatura, alla pressione barometrica, alle precipitazioni e via dicendo ), con la geolocalizzazione dei sensori.
    Trento invece presenta 36 diverse stazioni con un monitoraggio di 15 min, ed i dati sono disponibili via API, forniti da MeteoTrentino.
  • i dati sulla qualità dell’aria, con intervalli di 10 min. per Trento e di 1 ora o un giorno per Milano ( dove ci sono molte più stazioni ovviamente )
  • per Milano c’è il dataset relativo ai volumi di traffico per l’Area C, forniti dall’agenzia dei trasporti AMAT S.r.l, ed il dataset fornito da Cobra Telematics sulle posizioni GPS delle auto private. Questo dataset contiene le posizioni delle auto private con intervalli di 10 minuti: viene usato dalle assicurazioni per il tracciamento delle proprie auto via GPS.
  • per Trento c’è un dataset relativo ai consumi di energia elettrica relativi alla Provincia Autonoma di Trento, forniti da SET Distribuzioni S.p.a.
  • infine ci sono dei datasets, disponibili via API, di news geolocalizzate, fornite da Milano Today e da Trento Today. In realtà queste news non hanno il contenuto completo del singolo articolo, ma una buona parte di metadati, compreso ovviamente il link all’articolo completo. E’ un’ottima occasione per giocare con il nostro entity extractor Dandelion API, per entrare nel dettaglio del contenuto delle news e scoprire legami insospettabili.

bigdatachallenge

Oltre a tutto questo, in anteprima per i partecipanti al challenge, è disponibile anche il dataGEM delle regioni amministrative di tutta Europa: un insieme di dati creato a partire da fonti ISTAT e EuroStat interrogabile via API. I dati ISTAT sono del 2011, mentre l’aggiornamento per la fonte EuroStat è del 2010. Questo dataGEM è un Open Service di fatto, rilasciato con licenza Creative Commons BY 3.0.

Nei prossimi giorni verranno pubblicati nuovi dati, quindi tenete d’occhio l’area riservata dedicata al challenge e fate girare la voce, è un’occasione davvero unica per sperimentare con dati di questo tipo!

Alcune fonti utili sul challenge e chi ne parla in giro per la Rete: