GAGET: Genome Assembly Graph Evaluation Tool – GUI and Accuracy

Posted on 21/04/2022 by Marco Santambrogio

Docente

Marco Santambrogio (web, mail)

Referente del progetto

Guido Walter Di Donato ( mail)

Area di ricerca

Architetture dei sistemi di elaborazione

Keyword (max 3 separate da virgola)

Graph, Genomics

Descrizione (max 500 caratteri)

Graph-based data structures provide a natural mechanism for the compact representation of related genomic sequences, and variations among them, as alternative paths in a directed graph. Consequently, many genome assembly tools currently use internal graph representations and offer the possibility to output the assembly graph in various formats. However, most genome assembly projects still focus on “classic” contigs and scaffolds rather than assembly graphs, due to the lack of proper tools for the analysis and the quality assessment of such graphs. In this context, we are currently developing GAGET, a tool for the evaluation of genome assembly graphs, based on the alignment of reference sequences to the graphs themselves.
Currently, GAGET computes a series of different quality metrics, adapted from the sequence to the graph domain (e.g. N50, NG50, GC content), and it provides as output a report with different plots describing the results. The aim of this project is to develop an interactive Graphic User Interface (GUI) for navigating the assembly graph and the reference genome, and visualizing the computed metrics. An additional goal is to improve the accuracy of the current algorithm for selecting the best set of compatible local alignments between the reference and the assembly graph, in order to reconstruct the path in the graph that better represents the reference sequence.

Implementazione di un algoritmo di allineamento di sequenze genomiche su FPGA

Posted on 08/03/2021 by Marco Santambrogio

Docente

Marco Domenico Santambrogio (mail)

Area di ricerca

Architetture dei sistemi di elaborazione

Keyword (max 3 separate da virgola)

FPGA, Computazione ad alte prestazioni, Genomica

Tecnologie da utilizzare

C/C++, FPGA

Descrizione (max 500 caratteri)

L’allineamento di sequenze è una procedura centrale nella bioinformatica che trova moltissime applicazioni nel campo della genomica e, più in generale, nella biologia molecolare. Le evoluzioni tecnologiche richiedono algoritmi che siano sempre più veloci ed efficienti per portare a termine tali procedure. Purtroppo, gli algoritmi ad oggi sviluppati per l’allineamento di sequenze hanno complessità temporale e spaziale, nel migliore dei casi, quadratica. Per questo scopo, noi proponiamo un’implementazione basata su FPGA del “Wavefront Alignment Algorithm” (WFA). Questo algoritmo è usato per l’allineamento gap-affine globale che sfrutta regioni omologhe tra le due sequenze ed è stato ideato per velocizzare gli algoritmi proposti precedentemente di complessità ancora maggiore (algoritmo di Needleman-Wunsch). L’implementazione su FPGA ha lo scopo di accelerare tale algoritmo per renderlo più veloce, flessibile e meno dispendioso di energia nell’esecuzione.

MARC – Model and Analysis of Resource Consumption

Posted on 08/03/2021 by Marco Santambrogio

Docente

Marco Domenico Santambrogio (mail)

Area di ricerca

Architetture dei sistemi di elaborazione

Keyword (max 3 separate da virgola)

Sistemi distribuiti, consumo di risorse

Tecnologie da utilizzare

SCALA, docker, modelli ARX

Descrizione (max 500 caratteri)

MARC è una metodologia di machine learning che guida l’analisi di trend di consumo di risorse di vario tipo (ad esempio, carica della batteria in dispositivi mobili, quote in sistemi condivisi cloud, vita operativa di un macchinario industriale). Date le tracce del comportamento del sistema, MARC identifica differenti tipi di caratteristiche e costruisce modelli su come ciascuna di queste impatta sul consumo di risorse in esame; i modelli vengono quindi impiegati da un simulatore per predire il consumo in differenti condizioni operative. Questa piattaforma distribuita cloud-native è stata sviluppata nel 2016 per essere estendibile, personalizzabile e flessibile. Nonostante ciò, oggi richiede una ristrutturazione che possa portare i suoi componenti ad utilizzare le tecnologie più recenti nell’ambito dell’ingegneria del software e dei sistemi. L’obiettivo del progetto è di analizzare e aggiornare progressivamente il codice sorgente della piattaforma MARC sfruttando paradigmi allo stato dell’arte (programmazione funzionale), strumenti di virtualizzazione ed orchestrazione (containerizzazione) e soluzioni di distribuzione del calcolo (programmazione ad attori).

App4NECSTCamp

Posted on 08/03/2021 by Marco Santambrogio

Docente

Marco Domenico Santambrogio (mail)

Area di ricerca

Architetture dei sistemi di elaborazione

Keyword (max 3 separate da virgola)

Applicazione mobile, UX, Health

Tecnologie da utilizzare

Tecnologie Web, Flutter, Docker

Descrizione (max 500 caratteri)

Lo scopo del progetto è di sviluppare l’infrastruttura informatica per l’inserimento, l’estrazione e la visualizzazione dei dati raccolti nell’ambito delle attività del NECSTCamp, quali i dati sul monitoraggio del sonno, i diari di allenamento e nutrizione, e i segnali biomedicali.
Nell’ambito del progetto è quindi richiesto un primo studio dei requisiti, l’ideazione e la successiva implementazione delle API da esporre, e il contestuale sviluppo di backend e frontend.

Progetto di Ingegneria Informatica

GeoInformatic Project

Author Archives: Marco Santambrogio

GAGET: Genome Assembly Graph Evaluation Tool – GUI and Accuracy

Docente

Referente del progetto

Area di ricerca

Keyword (max 3 separate da virgola)

Descrizione (max 500 caratteri)

Implementazione di un algoritmo di allineamento di sequenze genomiche su FPGA

Docente

Area di ricerca

Keyword (max 3 separate da virgola)

Tecnologie da utilizzare

Descrizione (max 500 caratteri)

MARC – Model and Analysis of Resource Consumption

Docente

Area di ricerca

Keyword (max 3 separate da virgola)

Tecnologie da utilizzare

Descrizione (max 500 caratteri)

App4NECSTCamp

Docente

Area di ricerca

Keyword (max 3 separate da virgola)

Tecnologie da utilizzare

Descrizione (max 500 caratteri)