Integrazione di dati genomici e proteomici nel data warehouse GPDW

Docente

Marco Masseroli (mail)

Referente del progetto

Arif Canakoglu (mail)

Area di ricerca

Web, multimedia e database

Bioinformatica

Keyword (max 3 separate da virgola)

Database, data integration, java framework

Tecnologie da utilizzare

DBMS (conoscenza delle principali caratteristiche comuni alle basi di dati relazionali presentate nel corso “basi di dati 1″)
Linguaggi Java e SQL
Linguaggio XML

Descrizione

L’integrazione di dati provenienti da più sorgenti dati eterogenee è di primaria importanza in bioinformatica, sia per supportare l’interpretazione di risultati biomolecolari sperimentali, sia per derivare nuova conoscenza biomedica. Tale integrazione permette di assicurare maggiori dati a supporto e confidenza delle analisi dei dati che sono di solito eseguite solo su una parte dei dati disponibili, che sono distribuiti in diverse banche dati. Per questo scopo, nell’ambito del progetto “Virtual BioInformatics Lab“, si sta sviluppando un data warehouse di dati genomici e proteomici e le procedure automatiche per mantenerlo aggiornato con l’ultima versione disponibile dei dati ivi integrati, che di solito sono aggiornati molto frequentemente nelle sorgenti dati di origine.

Questo progetto richiede l’implementazione di procedure Java che estraggano dati da diversi file di testo formattato (tabellare, XML, flat, …) e li importino in un database relazionale PostgreSQL, chiamato GPDW: Genomic and Proteomic Data Warehouse, utilizzando il framework software disponibile del GPDW. Questo framework ha una architettura modulare ed è controllato da un file di configurazione XML. Il framework ha una classe importer per ogni sorgente dati e una classe loader per ogni file di dati (di una data fonte dati) contenente i dati da importare. Il framwork software GPDW è disponibile in due versioni.

Il progetto richiede una re-implementazione nella versione più recente del framwork delle classi importer e loader per alcuni file di sorgenti dati già importati nel database GPDW con la versione più vecchia del framework.

Il primo passo sarà comprendere la struttura della classe importer della sorgente dati (che controlla i loader della sorgente dati e realizza il post-processing dei dati importati) e della classe loader del file dati (che estrae i dati dal/dai file specificato/i e li inserisce nel database). Classi e file di configurazione XML di esempio saranno forniti.
Partendo da questi esempi e utilizzando la ampia documentazione disponibile (che sarà fornita), il passo successivo sarà creare una classe importer di una sorgente dati (che sarà indicata) e una classe loader per ciascuno dei suoi file di dati da importare. Inoltre si dovrà aggiornare il file di configurazione XML con la definizione della sorgente dati e dei relativi dati forniti.
La correttezza delle procedure di importazione dovrà essere verificata confrontando i dati importati nel GPDW con le nuove classi con i dati importati a partire dagli stessi file dati utilizzando la vecchia versione del framework.

Il numero di classi importer e loader da implementare potrà variare in base alla complessità (in genere bassa) di tali classi e dei dati da importare.

Progetto di Ingegneria Informatica

GeoInformatic Project