Linked Open Data in Italia dopo l’International Open Data Day 2014: i nostri contributi alla riflessione

Dopo aver contribuito all’evento romano organizzato con il W3C Italia “Linked Open Data:where are we?”, segnaliamo due ulteriori stimoli alla riflessione sulla situazione dei Linked Open Data in Italia:

  1. in occasione dell’International Open Data Day italiano, in cui abbiamo partecipato all’evento hub romano, parlando dei progetti europei in cui SpazioDati è coinvolta
  2. qualche giorno dopo al centro NEXA di Torino, c’è stato il Nexa Lunch Seminar 18, focalizzato sullo stato dei Linked Open Data italiani.

Si parla dei progetti europei all’International Open Data Day romano: SmartOpenData e FusePool P3

Durante l’evento hub romano del 22 febbraio è emersa l’importanza di fare sinergia tra i progetti europei che stiamo gestendo a livello italiano attorno al tema del Linked Data e della LOD, per favorire un riuso intelligente a diversi livelli.
E’ stata fatta una breve introduzione della sessione con questa presentazione:




Come SpazioDati abbiamo presentato quei due progetti a cui stiamo lavorando, in particolare:

  • per il progetto Smart Open Data il tema è la trasformazione dei dati geografici ed ambientali in Linked Open Data: naturale pensare al tema della direttiva INSPIRE, visto che tra gli obiettivi del progetto c’è anche la gestione di un dialogo costruttivo tra INSPIRE e Linked Open Data. La presentazione che abbiamo portato al kick-off di dicembre rende l’idea del contesto in cui ci poniamo:


    Il nostro ruolo è focalizzato sul Pilot italiano: personalizzeremo il nostro datamarket con i dati sulla qualità dell’acqua forniti da ARPA Sicilia, esponendoli in varie forme per facilitarne il riuso.
    Nella prima settimana di marzo c’è stato un meeting a Londra proprio per approfondire il tema, dal titolo “Linking Geospatial Data“: nella pagina dell’evento sono presenti sia i materiali presentati, che le trascrizioni delle discussioni emerse.
  • per il progetto Fusepool P3, si tratta di creare un workflow automatico che aiuti la creazione di Open Government Data da parte della pubblica amministrazione direttamente in Linked Open Data, con un’attenzione particolare all’usabilità degli strumenti messi in campo. Come SpazioDati svilupperemo una versione di Dandelion API personalizzata per gestire al meglio l’ambito turistico, ed un plugin per Apache Stanbol integrato alle API di Dandelion API. Oltre a tutto questo, verrà integrato Open Refine (che già integra il servizio di Entity Extraction di Dandelion API per chi non lo sapesse, tramite il plugin di Entity Extraction) con un back-end per gestire Big Data (su tecnologia Apache Hadoop).

Cosa è emerso al Nexa Lunch Seminar 18 sui Linked Open Data italiani

Consigliamo la visione di tutto il video, anche se dura un’ora, perchè permette di crearsi un’ottimo quadro della situazione:

In questo video Michele Barbera racconta (attorno al minuto 27) la relazione tra la semantic text API di Entity Extraction nella famiglia Dandelion API con la nuvola dei Linked Open Data, elemento che completa quello accennato alla fine del post precedente.

Un momento durante il NEXA Lunch Webinar 18

Alcune delle cose che sono emerse che meritano attenzione:

  • le slide sullo stato della LOD curate da Diego Camarda raccontano la LOD, sia dal punto di vista delle connessioni presenti, sia dal punto di vista dei modelli di dominio applicati: e tra l’altro, si cita anche il progetto LinkedStat appena rilasciato. La nuvola LOD italiana soffre di grosse connessioni tra i domini dei dati, tranne che per DBpedia italia, abbastanza connessa con il resto della nuvola, come per la versione della LOD internazionale. Questo probabilmente è naturale data la giovane età della LOD italiana.
    Purtroppo però alcune fonti che pubblicano dati in RDF non li espongono come servizi, ovvero con endpoint SPARQL, elemento che fa riflettere sulla trovabilità stessa dei dati e sull’incompresione della visione del mondo Linked.lod-italia-diego-camarda
  • una delle domande dal pubblico fa giustamente emergere il problema del riuso della LOD e degli Open Data in generale: ovvero che siano riusati davvero poco, rispetto al loro potenziale. E non è solo una questione legata alla complessità delle tecnologie del mondo Linked Data. C’è soprattutto mancanza cronica di dati interessanti e di valore immediato: la salute, l’inquinamento, i CAP che oggi sono proprietà di Poste Italiane, tutti i dati relativi alla scelta di dove andare a vivere, e quindi connessi alla qualità della vita (indici di criminalità, catasto, connessioni broadband e saturazione delle centraline, e cose di questo tipo). Questo perchè l’Open Data viene visto dal lato PA solo o quasi come trasparenza, mentre invece bisognerebbe focalizzare il loro potenziale di riuso e di crescita economica. E su questo si cita anche l’ostacolo della potenziale ricaduta politica percepita a priori su certi dati, che quindi non vengono resi disponibili.
  • mentre il punto di vista di Diego fa emergere il potenziale di riuso del dato LOD nel processo all’interno della PA stessa, racconta anche il valore di business legato alla consulenza nell’atto di pubblicazione del dato da parte di un attore privato. Una fetta di mercato che quindi crea valore e ritorno economico, specie per quelle aziende oggi che governano la dimensione tecnologica dei Linked Data.
  • aiutare le imprese a leggere quei dati pubblicati dalla filiera degli Open Government Data, è invece l’altra faccia della medaglia raccontata da Michele Barbera quando presenta SpazioDati.
    Noi vogliamo applicare al mondo degli Open Government Data quell’oggetto chiamato “knowledge graph“, reso famoso soprattutto grazie a Google, creando un grafo “aumentato” anche da fonti di dati private e di comunità.
    Ognuno potrebbe avere un “private knowledge graph” che parla del proprio contesto, e che può essere usato da nuove applicazioni, per ripensare il mondo Enterprise. La sfida di questo approccio si nasconde nel sapere che tutte queste fonti dati rappresentano la realtà secondo dei diversi modelli concettuali, ognuna per il proprio dominio di conoscenza.
    Governando questa complessità posso raccogliere le diverse facce della realtà, riuscendo a costruire un quadro più completo. Quello che si definisce Smart Data, un dato dotato del maggior contesto possibile.
    E’ chiaro che nel fare questo lavoro, SpazioDati usa gli Open Government Data come fonte del grafo di conoscenza, e per questo come ritorno, contribuiamo alla loro creazione e supporto: diventano quindi sensate le attività di mantenimento della DBpedia italiana ed il progetto LinkedStat sui dati ISTAT.
  • come applicazione nata al di sopra di questo knowledge graph raccolto da SpazioDati, anche grazie alla ricchezza ed alla completezza del mondo degli Open Linked Data, nasce la famiglia Dandelion API: si sfrutta la topologia del grafo per comprendere il contesto del contenuto, senza usare quindi le classiche tecniche NLP. Questo permette a Dandelion API, ad esempio, di funzionare benissimo con i testi brevi, che spesso contengono dello slang e degli errori grammaticali, che è il classico contesto dei contenuti non strutturati provenienti dal mondo dei Social Media.
    Da un altro punto di vista, permette un avvicinamento morbido ad alcuni dei concetti del mondo Linked senza doversi trovare di fronte alla sua complessità: infatti nella risposta JSON dell’elenco delle entità contenute in un testo ci sono elementi provenienti dalla LOD (URI dell’entità, tipi e categorie provenienti da DBpedia)
  • come effetto collaterale del lavoro Linked Data fatto da Regesta per la Camera, i servizi di documentazione interni fanno fact-checking del lavoro svolto dalla Camera stessa: l’applicazione di queste tecnologie permette una riduzione del lavoro umano, che diventa solo una questione di controllo sulla classificazione già fatta grazie al mondo Linked sottostante il processo di creazione dei documenti: un riuso interno dai risvolti interessanti
  • il fact-checking è uno dei temi che abbiamo ipotizzato nelle use cases del progetto LinkedStat: grazie a queste tecnologie si possono immaginare delle applicazioni intelligenti che aiutino la navigazione sui link tra i dati, per abilitare nuove forme di fact-checking a livello giornalistico. Di fatto è una delle branchie del Data Journalism, applicato però al mondo Linked Open Data
  • Diego Camarda poi pone il problema degli strumenti messi a disposizione dal Linked Data, e della loro fruibilità per un pubblico non esperto: se il giornalista vorrà sempre dati tabellari a supporto dei propri articoli, non può oggi essere in grado di gestire i dati che trova su dati.camera.it, ad esempio.
    Proprio per questo serve formazione lato mondo giornalistico per la comprensione degli scenari che esistono sul mondo Linked Open Data, e servono maggiori strumenti che si appoggino sullo stack tecnologico del Linked Data, per ampliarne il potenziale riutilizzo.
    E’ comunque insostituibile il lavoro fatto sull’esperienza utente sulla progettazione dei siti Web a partire da dati linked.
  • verso il termine del webinar, dal pubblico presente emergono domande classiche correlate alla distribuzione dei dati: dalla privacy alla qualità del dato, specie se consideriamo i dati creati dalle comunità, come quelli di OpenStreetMap. La dimensione tecnologica aumenta un problema che già esiste nella società, se si pensa al segreto statistico o ad altre possibili triangolazioni tra dati contestuali. E’ il mondo dei Big Data, in un certo senso, ovvero è un problema che emerge grazie alla maggiore proliferazione di dati.
    Ma sul processo di creazione dei dati con modalità crowdsourcing, il punto è diverso: ognuno dei produttori del dato ha una sua metodologia di controllo della qualità del dato che produce. Non serve pensare ad una metodologia per forza comune, a valle per tutti. Il concetto di qualità poi dipende da chi lo consuma il dato, e dipende dal brand dietro al produttore del dato, così come funziona già oggi per il mondo scientifico e la peer review degli articoli. Lo stesso modello può essere applicato al mondo del Linked Open Data.
    È importante il mantenimento della “provenance”, quindi della provenienza del dato: la tecnologia dietro al mondo Linked Data permette una gestione più agevole rispetto alle situazioni attuali di etichette correlate ai file in formato CSV che si trovano in Rete.
    Questo accade grazie alla presenza della citazione della fonte in una forma “machine readable“, ovvero interpretabile dai programmi.
    È possibile che un programma oppure un agente automatico navighi in autonomia e controlli la filiera di provenienza di un dato, senza alcun nostro intervento, creando così nuovi scenari nella percezione stessa della qualità da parte di noi tutti utilizzatori del dato.

Ulteriori fonti per approfondire: