4. La riproducibilità della ricerca e l’analisi dei dati

Di che cosa si tratta?

Per riproducibilità della ricerca si intende la possibilità di mettere a disposizione i dati grezzi e il codice della ricerca in modo che altri possano conseguire gli stessi risultati così come sono stati presentati nelle conclusioni del lavoro di ricerca. Strettamente connesso è il concetto di replicabilità il quale consente di riprodurre una metodologia scientifica per raggiungere analoghe conclusioni. Entrambi i due concetti sono componenti cruciali della ricerca empirica.

Migliorare la riproducibilità comporta maggior rigore e qualità dei prodotti scientifici e di conseguenza un maggior grado di affidabilità della scienza. Sempre di più si percepiscono il bisogno e la volontà di esporre il flusso della ricerca, dal momento cioè in cui un progetto inizia, passando per la raccolta dei dati fino all’interpretazione e alla presentazione dei risultati. Tali sviluppi implicano naturalmente delle sfide inclusa la creazione di flussi di lavoro integrati della ricerca che possono essere adottati dai collaboratori mantenendo al tempo stesso standard di integrità molto elevati.

Il concetto di riproducibilità è direttamente applicabile al metodo scientifico, cardine della scienza, e in particolare attraverso le seguenti cinque fasi:

  1. Formulazione di un’ipotesi

  2. Pianificazione dello studio

  3. Conduzione dello studio e raccolta dei dati

  4. Analisi dei dati

  5. Presentazione dei risultati dello studio

Per ognuna di queste fasi si dovrebbe riuscire a produrre una documentazione chiara e aperta in modo da rendere lo studio trasparente e riproducibile.

Fondamenti

Alcuni fattori generali possono contribuire ulteriormente alla causa della non-riproducibilità ma possono anche condurre all’adozione di misure specifiche che rispondono direttamente a queste cause. La cultura e l’ambiente in cui la ricerca ha luogo è un importante fattore generale, dall’alto verso il basso. Da una prospettiva “dal basso verso l’alto”, l’educazione continua e la formazione per ricercatori può far accrescere la consapevolezza nonché la divulgazione di buone prassi.

Se da una parte è importante capire l’ampia gamma di fattori che contribuiscono alla riproducibilità, è però altrettanto difficile scomporre questi fattori in fasi che possono essere adottate immediatamente in un programma di ricerca esistente e migliorare immediatamente la sua riproducibilità. Uno dei primi passi è determinare lo stato dell’arte corrente e tenerne costantemente monitorato il miglioramento dato che per aumentare sempre di più la riproducibilità vengono prese in continuazione nuove misure. Alcune delle problematiche più comuni in merito alla riproducibilità della ricerca sono illustrate nella figura sottostante:

Fonte: Symposium report, October 2015. Reproducibility and reliability of biomedical research: improving research practice PDF.

Goodman, Fanelli, & Ioannidis (2016) evidenziano come in epidemiologia, biologia computazionale, economia e sperimentazione clinica, per riproducibilità si intende spesso

“l’abilità di un ricercatore di duplicare i risultati di uno studio precedente utilizzando gli stessi materiali utilizzati dal primo ricercatore. In questo modo, il secondo ricercatore può utilizzare gli stessi dati grezzi e ricostruire le stesse analisi e utilizzare la stessa analisi statistica nel tentativo di ottenere gli stessi risultati”.

Si tratta di qualcosa di diverso dalla replicabilità: “che si riferisce all’abilità di un ricercatore di duplicare i risultati di uno studio precedente se segue le stesse procedure ma raccoglie nuovi dati”. Per semplicità si può pensare che la riproducibilità è orientata al metodo mentre la replicabilità è orientata al risultato.

La riproducibilità può essere valutata su diversi livelli: a livello di progetto individuale (ad esempio di articolo, sperimentazione, metodo o set di dati), a livello di ricercatore individuale, laboratorio o gruppo di ricerca, istituzione o perfino ambito di ricerca. Per ciascuno di questi diversi livelli possono essere applicati criteri o punteggi di valutazione leggermente diversi. Ad esempio, un’istituzione sostiene le pratiche di riproducibilità se introduce delle politiche con le quali finanzia/premia il ricercatore che fa scienza riproducibile. D’altro canto, un ambito di ricerca può essere considerato avere un maggiore o minore livello di riproducibilità se sviluppa risorse -della cui manutenzione si occupa la comunità- che promuovono e facilitano delle pratiche di ricerca riproducibile, come archivi di dati o standard di condivisione dei dati comuni.

Finalità didattiche

Sono tre gli obiettivi principali che è necessario menzionare in questa sede:

  1. Comprendere quanto sia importante creare ricerca riproducibile.

  2. Comprendere in generale il sistema della ricerca riproducibile (compresa la progettazione del flusso di lavoro, la gestione dei dati e una reportistica dinamica).

  3. Conoscere i singoli passaggi che compongono il processo di riproducibilità nonchè le risorse corrispondenti che possono essere impiegate.

Componenti chiave

Conoscenza

L’elenco che segue contiene i punti che indicativamente si devono tenere presente quando si parla di riproducibilità:

  • Che cos’è la “crisi della riproducibilità” e la meta-analisi della riproducibilità

  • I principi della riproducibilità, dell’integrità e dell’etica nella ricerca

  • Quali sono le opzioni computazionali e i contesti che permettono un assetto collaborativo e riproducibile

  • I fattori che influenzano la riproducibilità della ricerca

  • Documentazione sull’analisi dei dati e dei flussi della ricerca aperta

  • Ambienti di analisi riproducibili (virtualizzazione)

  • Riferimento alla "Researcher Degrees of Freedom" (Wicherts et al., 2016).

Competenze

Ci sono alcuni consigli pratici in materia di riproducibilità a cui tutti dovrebbero fare riferimento nel momento in cui si definiscono le particolari competenze necessarie per poterla garantire. In generale, le prassi migliori in materia di riproducibilità possono essere prese in prestito dalle pratiche della Scienza Aperta ma la loro integrazione offre dei vantaggi agli stessi singoli ricercatori sia che scelgano di condividere la loro ricerca oppure no. La ragione per cui integrare le prassi migliori di riproducibilità sia un vantaggio per il singolo ricercatore è che queste migliorano la pianificazione, l’organizzazione e la documentazione della ricerca. Di seguito, ecco un esempio di come si possa tradurre in pratica il concetto di riproducibilità nel flusso della ricerca con rimandi alle pratiche contenute in questo manuale.

1. La riproducibilità si pianifica prima di iniziare
Create un piano o protocollo di studio

Iniziate a tenere la documentazione di ricerca fin dall’inizio del vostro studio predisponendo un piano o protocollo di studio che includa struttura e metodi dello studio proposto. Laddove opportuno, utilizzate le linee guida per la reportistica contenute in Equator Network. Tenete traccia di tutte le variazioni al piano o protocollo di lavoro utilizzando strumenti per il controllo versione (rif. controllo versione). Calcolate la potenza o le dimensioni del campione e riportate queste informazioni nel protocollo poiché gli studi sottodimensionati tendono alla non-riproducibilità.

Scegliete strumenti e materiali riproducibili

Selezionate degli anticorpi che funzionano utilizzando un motore di ricerca anticorpi come CiteAb. Per non cadere nella non-riproducibilità utilizzando delle linee cellulari vaghe, scegliete quelle autenticate da International Cell Line Authentication Committee. Laddove sia possibile, scegliete degli strumenti di hardware e di software di cui detenete i diritti e che vi permettano di migrare la vostra ricerca fuori dalla piattaforma per essere riutilizzata. (rif. Software di ricerca aperti e codice aperto).

Pianificate un progetto riproducibile

Accentrate e organizzate la gestione del progetto utilizzando una piattaforma elettronica, un archivio o cartelle centrali per tutti i documenti della ricerca. Potete utilizzare GitHub come luogo dove depositare tutti insieme i file o gestire il tutto utilizzando un notebook lab elettronico come Benchling, Labguru o SciNote. Nel merito del vostro progetto centralizzato, seguite le pratiche migliori separando i dati dal codice in diverse cartelle. Gestite i vostri dati grezzi in sola lettura e teneteli separati dai dati processati (rif. Gestione dei dati)

Quando salvate o eseguite il back up di un vostro file di ricerca, optate per dei nomi di formati o file informativi che ne permettano il ri-uso. I nomi dei file dovrebbero essere leggibili sia dalle macchine sia dalle persone (rif. Gestione dei dati). Nelle vostre analisi e codici software usate dei percorsi relativi. Evitate dei formati di file proprietari e utilizzate dei formati di file aperti (rif. Licenze aperte e formati di file).

2. Tenete traccia di tutto
Registrazione

Pre-registrate le informazioni importanti sulla pianificazione e l’analisi dello studio in modo da aumentare il livello di trasparenza e contrastare errori di pubblicazione dei risultati negativi. Alcuni strumenti aperti che vi possono aiutare in questa prima registrazione includono AsPredicted, Open Science Framework e Registered Reports. Per la sperimentazione clinica si dovrebbe usare Clinicaltrials.gov.

Controllo versioni

Tenete traccia delle modifiche apportate ai vostri file e in particolar modo al vostro codice analitico utilizzando strumenti di controllo versione (rif. Software di ricerca aperti e codice aperto).

Documentazione

Documentate tutto ciò che fate manualmente in un file README. Create un dizionario dati (o altrimenti detto codebook) per descrivere informazioni importanti sui vostri dati. Per un’introduzione facile usate Karl Broman’s Data Organization module e fate riferimento alla gestione dei dati.

Il paradigma della programmazione alfabetizzata

Valutate la possibilità di utilizzare Jupyter Notebooks, KnitR, Sweave o altri strumenti di programmazione “alfabetizzata” per integrare il vostro codice nella vostra narrativa e documentazione.

3. Condividete e applicate una licenza alla vostra ricerca
Dati

Evitate i file supplementari, optate per una licenza permissiva plausibile e condividete i vostri dati utilizzando un archivio. Seguite le buone prassi come descritto nel capitolo "Dati e materiali di ricerca aperti".

Materiali

Condividete il vostro materiale perchè possa essere ri-utilizzato. Depositate i reagenti in archivi come Addgene, The Bloomington Drosophila Stock Center e ATCC al fine di renderli facilmente accessibili agli altri ricercatori. Maggiori informazioni sono disponibili al paragrafo Dati e materiali di ricerca aperti.

Software, notebook e contenitori

Applicate una licenza al codice per fornire indicazioni su come può essere (ri)utilizzato. Condividete i notebook con servizi come mybinder che consentono la visibilità pubblica e l'esecuzione del notebook integrale su risorse condivise. Condividete contenitori o notebook con servizi come Rocker o Code Ocean. Seguite le buone prassi descritte in Software e codice della ricerca aperto.

4. Presentate i risultati della vostra ricerca in modo trasparente

Segnalate e pubblicate i vostri metodi e interventi in modo esplicito, trasparente e completo per consentirne la riproduzione. Le linee guida di Equator Network, strumenti come Protocols.io o processi come Registered Reports possono aiutarvi a documentare ai fini della riproducibilità. Ricordatevi di pubblicare i risultati sulla piattaforma di registrazione pubblica come ClinicalTrials.gov o SocialScienceRegistry entro un anno dalla conclusione dello studio, indipendentemente dalla natura o dal corso dei risultati.

Domande, intoppi e comuni equivoci

Domanda: “Tutto quello che serve è scritto nell’articolo; chiunque può riprodurre la ricerca. Basta che si leggano quello!”

Risposta: Questo è uno dei luoghi comuni più comuni. Perfino quando metodi e flussi di lavoro utilizzati per raggiungere il risultato finale sono stati descritti in maniera estremamente dettagliata non sempre questo è sufficiente -nella maggior parte dei casi- perché venga riprodotto. Ciò può essere dovuto a diversi aspetti incluso ambienti computazionali diversi, differenze nelle versioni del software, errori impliciti non chiaramente indicati, ecc.

Domanda: “Non ho il tempo per imparare e per stabilire un flusso di lavoro riproducibile”

Risposta: In aggiunta ad un numero significativo di servizi online liberamente disponibili che possono essere combinati e che facilitano l’impostazione di un intero flusso di lavoro, il dispendio di tempo e lavoro impiegati per metterli insieme contribuirà a migliorare sia la validità scientifica dei risultati finali sia a ridurre al minimo il tempo di ri-esecuzione o ad estenderlo negli studi successivi.

Domanda: “Le terminologie che descrivono la riproducibilità sono laboriose.

Risposta: Si veda Barba (2018) per una discussione sulla terminologia che descrive la riproducibilità e la replicabilità.

Risultati di apprendimento

  1. Comprendere la necessità della riproducibilità della ricerca e le sue argomentazioni.

  2. Essere in grado di stabilire un flusso di lavoro riproducibile all’interno di un contesto di un esercizio-modello.

  3. Conoscere gli strumenti che possono supportare la riproducibilità della ricerca.

Letture integrative

  • Button et al. (2013). Power failure: why small sample size undermines the reliability of neuroscience. doi.org/10.1038/nrn3475

  • Karl Broman (n.y.). Data Organization. Choose good names for things. kbroman.org

results matching ""

    No results matching ""