Big Data & Knowledge Graph

L’obiettivo è affrontare le problematiche di Data Access, Discovery & Integration e Data Lineage dello Shared Layer attraverso la realizzazione di un Knowledge Graph.

Il Knowledge Graph esplica la sua potenzialità abilitando la connessione tra volumi elevati di dati complessi di natura relazionale.

I principali benefici risultano essere:
• Vista integrata sui dati con un modello basato su interconnessioni, senza uno schema rigido estendibile a seconda delle esigenze
• Modello orientato all’esplorazione e alla navigazione dei dati
• Migliore comprensione e sintesi della conoscenza
• Facilità di utilizzo di vocabolari e tassonomie
• Flessibilità di adattamento
• Possibilità di implementare tecniche di inferenza per la scoperta di nuova conoscenza

Le tecnologie adottate al fine di acquisire, processare e strutturare i Big Data sono le seguenti:
Okkam Refine è uno strumento derivante dall’evoluzione e customizzazione di Open Refine per supportare:

• L’ acquisizione e parsing dei dati;
• La pulizia dei dati (puntuale o massiva);
• La normalizzazione del dato;
• La riconciliazione delle entità;
• Il Mapping dei dati sull’ontologia/e di dominio;
• L’export dei dati in formato RDF.

Okkam Entity Name System è il modulo che ha il compito di assegnare gli ID univoci alle entità riscontrate nei differenti flussi di dati. Web service che espone APIs per la riconciliazione e la gestione del ciclo vita di identificativi persistenti.

Apache Flink è il sistema distribuito per il processing di big data. Combina elementi di robustezza alla velocità del processing in memoria. Ottimizzato per l’analisi di data streaming, è particolarmente adatto allo sviluppo di processi batch. La sofisticata gestione della memoria off-heap e sistemi di serializzazione ottimizzati garantiscono le migliori performance allo stato dell’arte.

Tali tecnologie sono collocate, lungo l’iter di processazione e trasformazione che porta i Big Data dal Raw Layer allo Shared Layer, nel seguente modo: