LinkedStat e le semantic API di dataTXT: modi diversi di relazionarsi con la Linked Open Data cloud (LOD)

lod-2014In occasione dell’evento del 20 e 21 febbraio “Linked Open Data: where are we?”, promosso tra gli altri anche dal W3C Italia, abbiamo presentato alcuni progetti a cui stiamo lavorando da tempo: la collaborazione con ISTAT per il progetto LinkedStat e la famiglia di servizi dataTXT, interpretata attraverso gli occhi di chi supporta e crea dati per la nuvola Linked Open Data italiana.
La location dell’evento è stata l’Archivio Centrale dello Stato: un posto che merita davvero una visita, specie dal punto di vista architettonico, da mozzare il fiato se non ci si è abituati.
E’ stata una settimana romana densa di confronti e di spunti di riflessione, anche sul ruolo e sullo stato dell’arte della tecnologia Linked Data, e della dimensione sociale del movimento Open Data italiano. Con un’attenzione particolare finalmente anche sulla filiera che crea valore sui dati, che mai come in questo momento può stimolare e far evolvere il tema del riuso di valore del patrimonio informativo pubblico.
Per seguire il flusso Twitter delle discussioni relative all’evento, l’hashtag di riferimento era #LOD2014.

LinkedStat: rendere i dati ISTAT Linked Data

Per chi segue SpazioDati da un po’ di tempo, LinkedStat è un progetto anticipato qualche mese fa, a Bologna, in occasione della Smart City Exhibition 2013.
Infatti all’interno del Data Lab curato da ISTAT, nella prima giornata di lavoro “Open Census”, era emersa la necessità di aiutare la riflessione del riuso abilitato dalla tecnologia del mondo Linked Data.
La domanda che abbiamo posto sul tavolo è stata: “Se avessimo i dati ISTAT in versione Linked, cosa potrebbe nascere?”
In quei giorni di ottobre LinkedStat era ancora in fase prototipale, ma le idee erano già chiare:


Ecco cosa abbiamo adesso e cosa abbiamo presentato:
-> LinkedStat: from tables to graph (beta)


Ovvero: quasi 150 milioni di triple RDF nate dalla trasformazione del data warehouse dati.istat.it in Linked Open Data, modellato in RDF con il vocabolario DataCube, a partire dal webservice che ISTAT mette a disposizione degli sviluppatori, con i dati esposti secondo lo standard SDMX.
Tutto questo è esposto con un endpoint SPARQL e la navigazione a faccette nativa di Virtuoso. Il sito comprende un tutorial per capire nel dettaglio il modello DataCube usato, e permette di navigare nei dati attraverso il supporto di query sempre più complesse ed articolate.

Il sito dedicato parla da sè: aspettiamo feedback dalla comunità, riusi inaspettati e suggerimenti per far capire maggiormente il potenziale di riuso, a partire da nuovi use cases. Quello più stimolante a cui stiamo lavorando è quello del fact-checking. Ci dedicheremo un approfondimento dedicato.
I dati sono rilasciati con licenza ODbL 1.0, la stessa che adotta OpenStreetMap per capirci.
Vogliamo fare pressione sulla filiera di creazione e di pubblicazione del dato, focalizzando il concetto di dato di qualità: noi usiamo dati per accrescere il valore del grafo dietro dandelion.eu e il nostro valore dipende anche dalla qualità degli Open Community Data, oltre che dagli Open Government Data.
Per questo facciamo azioni come queste: supportare la filiera del dato di qualità per LinkedStat assieme ad ISTAT, e facilitare il dato creato dalla comunità con il mantenimento del nodo italiano di DBpedia.

Usate pure l’hashtag #linkedStat per aggregare gli stimoli ed i commenti attorno al progetto.

Le semantic API di dataTXT: usano e collegano al mondo Linked Open Data

dataTXT-dandelion-lod


Nella seconda giornata dell’evento abbiamo raccontanto come la famiglia delle semantic API dataTXT usi il valore del dato contestuale della Linked Open Data cloud.
-> Making Linked Open Data more usable and accessible using dataTXT semantic text APIs – PDF

Infatti il servizio di entity extraction dataTXT-NEX, ad esempio, funziona così bene sui testi brevi proprio perchè non sfrutta tecniche NLP, ma si appoggia sulla topologia del grafo di conoscenza dietro a dandelion, per estrapolare le entità presenti nel testo, e disambiguarle rispetto al contesto.
L’accuratezza e la profondità di rappresentazione della realtà di questo knowledge graph dipende anche dalla qualità e dalla quantità degli Open Community Data, come DBpedia e OpenStreetMap, per dirne alcune.
Quindi sfruttiamo a nostro vantaggio la conoscenza condivisa come bene comune e disponibile in versione machine readable grazie anche alle tecnologie Linked Data.
Ma non solo.

DataTXT è anche una porta di accesso ad alcuni dei concetti fondanti il mondo dei Linked Data e del Web of Data per gli sviluppatori che non lo conoscono.
Ne facilitiamo l’utilizzo mirato in una modalità in linea con l’approccio recente del W3C nel gestire il gruppo Data Activity, per porla in maniera simile a Phil Archer: serve accettare che non tutti usino il modello RDF e l’approccio Linked, ma avvicinare in ogni caso strumenti e visioni diverse all’interno dello stesso gruppo, a vantaggio di tutto l’ecosistema.
Attraverso dataTXT facciamo usare agli sviluppatori tradizionali non consapevoli del mondo Linked almeno tre elementi (facendo riferimento alla documentazione dell’API):

  • gli URI, attraverso il valore ritornato URI nella risposta JSON della singola entità, che può essere usato come identificativo dell’entità. Ed anche attraverso il parametro include_lod, che inserisce altri URIs utili nella nuvola. Ad oggi DBpedia e Wikipedia, ma in futuro collegheremo altre fonti correlate.
  • dati estratti dalla nuvola LOD senza dover usare tecnologie Linked: infatti i valori di include_types e di include_categories sono valori estratti da DBpedia e resi disponibili nascondendo la tecnologia della fonte Linked.