Vai al contenuto principale
Oggetto:
Oggetto:

Applied bioinformatics

Oggetto:

Applied bioinformatics

Oggetto:

Academic year 2025/2026

Course ID
NEU0293
Teachers
Ivan Molineris (Lecturer)
Davide Marnetto (Lecturer)
Degree course
[1301M22] Biotechnology for Neuroscience
Year
2nd year
Teaching period
Second semester
Type
Related or integrative
Credits/Recognition
4
Course disciplinary sector (SSD)
BIOS-08/A - Molecular Biology
SSD: BIO/11 - molecular biology
Delivery
Formal authority
Language
English
Attendance
Optional
Type of examination
Practice test
Prerequisites
Theoretical knowledge of molecular biology concepts and high-throughput analyses such as DNA and RNA sequencing. Basic knowledge of programming notions, such as: file system, commands, variables, control flow (if/else/loops), lists, functions.

It is necessary to master the concepts seen in the modules of Programming and Bioinformatic of the Data Science teacing.

Oggetto:

Sommario del corso

Oggetto:

Course objectives

The aim of the course is to provide the students with the tools necessary to autonomously run computational analyses, with a specific focus on methods for the analysis of Next-Generation Sequencing big data. It is designed therefore as a natural prosecution of the "Programming for Data Science" and “Bioinformatics” modules from the “Data Science” course. The first module will cover the bash textual interface, which is the most commonly used environment in bioinformatics, covering basic bash tools and using NGS bioinformatics tools as case-study. In the second module the students will learn how to integrate such tools in a computational pipeline, managed by Python Snakemake, completing the necessary competences to reach the course objectives.

L’obiettivo del corso è fornire agli studenti gli strumenti necessari per svolgere in autonomia analisi computazionali, con un’attenzione specifica ai metodi per l’analisi dei big data generati dal sequenziamento di nuova generazione (Next-Generation Sequencing, NGS). Il corso è quindi concepito come una naturale prosecuzione dei moduli “Programming for Data Science” e “Bioinformatics” del modulo integrato in Data Science.

Il primo modulo affronterà l’interfaccia testuale bash, l’ambiente più comunemente utilizzato in bioinformatica, introducendo i comandi di base e utilizzando strumenti bioinformatici per dati NGS come casi di studio. Nel secondo modulo gli studenti impareranno a integrare tali strumenti all’interno di una pipeline computazionale gestita tramite Python Snakemake, completando così le competenze necessarie per raggiungere gli obiettivi del corso.

Oggetto:

Results of learning outcomes

Knowledge of linux/unix bash textual interface, fundamental for most big data analyses especially but not exclusively in bioinformatics. Understanding of the principles behind the integration of modular steps in a computational analysis to build a complex pipeline. Knowledge of the Snakemake workflow management framework, basic concepts of Conda and Python. Knowledge of commonly used bioinformatics tools for the analysis of NGS data.

Ability to apply and integrate this knowledge to build bioinformatics pipelines to solve biological questions using NGS data, and to apply this knowledge to other problems. Ability to organize and develop independently computational pipelines for the analysis of bology-derived big data, making judgements about the available and necessary computational resources. Autonomy in the usage and integration of computational tools to analyze NGS data.

Knowledge of the vocabulary necessary to communicate with informatics professionals within the scope of the covered topics, ability to formulate biological problems within a computational perspective and to communicate algorithmic solutions.

Improved ability to learn new coding languages thanks to a basic knowledge of underlying principles and thanks to the analogy with known languages, frameworks and conditions.

Conoscenza dell’interfaccia testuale bash in ambiente Linux/Unix, fondamentale per la maggior parte delle analisi su big data, in particolare ma non esclusivamente in bioinformatica. Comprensione dei principi alla base dell’integrazione di passaggi modulari in un’analisi computazionale per costruire una pipeline complessa. Conoscenza del framework di gestione dei workflow Snakemake, dei concetti di base di Conda e di Python. Conoscenza degli strumenti bioinformatici più comunemente utilizzati per l’analisi di dati NGS.

Capacità di applicare e integrare tali conoscenze per costruire pipeline bioinformatiche finalizzate a rispondere a domande biologiche utilizzando dati NGS, e di trasferire queste competenze ad altri problemi. Capacità di organizzare e sviluppare in autonomia pipeline computazionali per l’analisi di big data di origine biologica, formulando giudizi sulle risorse computazionali disponibili e necessarie. Autonomia nell’uso e nell’integrazione di strumenti computazionali per l’analisi di dati NGS.

Conoscenza del vocabolario necessario per comunicare con professionisti dell’informatica nell’ambito dei temi trattati; capacità di formulare problemi biologici in una prospettiva computazionale e di comunicare soluzioni algoritmiche.

Maggiore capacità di apprendere nuovi linguaggi di programmazione grazie a una conoscenza di base dei principi sottostanti e all’analogia con linguaggi, framework e condizioni già noti.

Oggetto:

Program

Module 1

  1. Computer science concepts (reviewed from the Programming for Data Science module):
    1. Computer architecture
    2. Process
    3. The file system
    4. Structure of a linux/unix system
    5. Exchange of data and services, servers
    6. Encoding: everything in bioinformatics is text
  2. The shell and commands
    1. Navigate the filesystem
    2. Filesystem permission system
  3. Unix power tools and basic programming principles
    1. awk
  4. Next generation sequencing data analysis
    1. The fasta and fastq files
    2. Annotation of genomes and GTF
    3. Mapping with STAR or bowtie
    4. The bam format and its display
    5. Expression quantification or peack-calling
  5. Error controls and quality assessment

Module 2

  1. Pipeline organizing principles, introduction to Python Snakemake. Conda environments and portability. Installation of Conda and Snakemake.
  2. Introduction to rules (input, output, shell), rule dependency. First pipeline of 2 example rules.
  3. Snakemake options and wildcards. Testing and debugging the example pipeline.
  4. Pipeline automatization, wildcards, expand, “all” rules. Fastq quality control rules.
  5. Pipeline generalization, configuration files. Rules to map fastqs and obtain bam.
  6. Advanced pipelines with parameters, output attributes, rule priorities. Aligment quality control rules
  7. Exploiting computational resources: parallelization, Memory resources. expression quantification rules
  8. Snakemake is Python. Python basics, functions as input. Rules for the analysis of gene expression

Modulo 1

  1. Concetti di informatica (ripresi dal modulo Programming for Data Science):
    1. Architettura del computer
    2. Processo
    3. File system
    4. Struttura di un sistema Linux/Unix
    5. Scambio di dati e servizi, server
    6. Codifica: in bioinformatica tutto è testo
  2. La shell e i comandi
    1. Navigare nel filesystem
    2. Sistema dei permessi del filesystem
  3. Unix power tools e principi base di programmazione
    1. awk
  4. Analisi di dati da Next Generation Sequencing
    1. File fasta e fastq
    2. Annotazione dei genomi e file GTF
    3. Mapping con STAR o Bowtie
    4. Formato bam e sua visualizzazione
    5. Quantificazione dell’espressione o peak-calling
  5. Controlli di errore e valutazione della qualità

Modulo 2

  1. Principi di organizzazione delle pipeline, introduzione a Python Snakemake. Ambienti Conda e portabilità. Installazione di Conda e Snakemake.
  2. Introduzione alle rules (input, output, shell), dipendenze tra rules. Prima pipeline con 2 regole di esempio.
  3. Opzioni di Snakemake e wildcards. Test e debug della pipeline di esempio.
  4. Automazione della pipeline: wildcards, expand, regola “all”. Regole per il controllo di qualità dei fastq.
  5. Generalizzazione della pipeline, file di configurazione. Regole per mappare i fastq e ottenere i bam.
  6. Pipeline avanzate con parametri, attributi dell’output, priorità delle rules. Regole per il controllo di qualità dell’allineamento.
  7. Sfruttamento delle risorse computazionali: parallelizzazione, memoria. Regole per la quantificazione dell’espressione.
  8. Snakemake è Python: basi di Python, funzioni come input. Regole per l’analisi dell’espressione genica.
Oggetto:

Course delivery

The course will be entirely held in computer room, alternating short frontal lectures with long hands-on practical sessions to implement what explained.

Il corso si svolgerà interamente in aula informatica, alternando brevi lezioni frontali a lunghe sessioni pratiche hands‑on per mettere in pratica quanto spiegato

Oggetto:

Learning assessment methods

Practical test in class in which the students will analyze data using pipelines of bioinformatics and UNIX power tools, followed by oral discussion of the code.

test pratico in classe in cui gli studenti dovranno analizzare dati biologici con una pipeline che includera' tool di bioinformatica e UNIX, seguita da discussione orale del codice prodotto. 

Suggested readings and bibliography



Oggetto:

Teaching Modules

Oggetto:
Last update: 22/04/2026 10:17
Location: https://www.biotechnologyneuroscience.unito.it/robots.html
Non cliccare qui!