Piano di Gestione dei Dati (PGD)

Il Piano di Gestione dei Dati (PGD) dell’IATEXT descrive le linee guida generali per la gestione dei dati in tutti i suoi progetti e applicazioni. Questo piano contempla strategie e procedure per la gestione completa dei dati, principalmente testuali, in un progetto di digital humanities. Si concentra sulla raccolta, archiviazione, elaborazione, accesso e conservazione dei dati, lasciando spazio alle specificità di ciascun progetto o attività di ricerca. Per l’attuazione e lo sviluppo degli aspetti più tecnologici di questo PGD, l’IATEXT si avvale della propria Divisione di Linguistica Computazionale e Applicazioni Informatiche.

Identificazione dei dati

Ogni attività di ricerca deve definire la provenienza delle informazioni, i tipi e i formati dei documenti che le contengono e i processi necessari per la loro digitalizzazione, se necessario. In generale, i dati saranno di tipo testuale (parole, frasi, paragrafi, frammenti di testo o documenti completi, a seconda del caso), anche se, in funzione delle caratteristiche di ciascuna ricerca, potranno essere costituiti da immagini, geolocalizzazioni, suoni, ecc. In tutti i casi, viene progettato un database relazionale che risponde alle esigenze attuali e future di ciascun progetto, adattandosi, in funzione del volume dei dati, alla raccolta e alle competenze tecnologiche dei ricercatori. Se necessario, i dati archiviati in un database relazionale possono essere facilmente esportati in altri formati come XML, TEI, CSV, ecc., preferibilmente formati aperti, per facilitarne la diffusione e la conservazione rispetto ai futuri cambiamenti tecnologici. Eccezionalmente, i dati potranno essere archiviati in altri formati, purché consentano un trattamento computazionale e ciò sia giustificato da motivi tecnici, computazionali o di compatibilità con sistemi o organizzazioni esterne.

Organizzazione e gestione dei dati

I progetti sviluppati dall’IATEXT si compongono, come minimo, di due tipi di applicazioni create dallo stesso IATEXT per ciascun progetto. Entrambe utilizzano lo stesso database progettato e realizzato appositamente:

Un’applicazione web di annotazione (preparazione/curazione dei dati) in cui i ricercatori classificano e gestiscono i dati in modo controllato e sicuro. L’accesso avviene tramite nome utente e password (memorizzati in forma cifrata). Sono previsti due ruoli: revisore e ricercatore. I ricercatori inseriscono i dati e le loro relazioni, mentre i revisori, oltre ad avere gli stessi permessi, possono verificare il lavoro e contrassegnarlo come corretto e validato. È opzionale che ciascun ricercatore gestisca solo i propri dati oppure che tutti possano accedere a tutti i dati. In ogni caso, l’applicazione registra le attività degli utenti per rilevare eventuali irregolarità.
Un’applicazione web di consultazione, pubblica e aperta, che accede al database del progetto. Mostra solo i dati validati dai revisori, evitando la pubblicazione di dati non revisionati. Le ricerche permettono di filtrare i risultati secondo metadati specifici, offrendo diverse “visualizzazioni” dei dati. I risultati possono essere scaricati in formati aperti. Non è previsto un controllo delle versioni, poiché i dati vengono letti direttamente dal database principale. Man mano che i dati vengono aggiornati, diventano immediatamente disponibili. Tuttavia, il team può “congelare” versioni dei dati quando necessario.

Documentazione dei dati

I dati sono documentati, classificati e annotati attraverso l’applicazione di annotazione sviluppata ad hoc per ciascun progetto. L’applicazione di consultazione include una sezione descrittiva sul progetto e sui dati, oltre a una guida all’uso. I ricercatori interessati possono richiedere i dati al responsabile del progetto, specificando il formato desiderato, nel rispetto della politica sui dati, dell’etica e delle licenze applicabili.

Qualità dei dati

L’applicazione di annotazione gestisce l’intero insieme dei dati. È l’unico strumento utilizzato dai ricercatori per questa attività. Limita la scrittura manuale mediante selezione da liste per evitare errori e incoerenze. Garantisce la coerenza e l’integrità dei dati, richiedendo l’inserimento dei campi obbligatori. I revisori sono responsabili della validazione finale. Eventuali correzioni si riflettono immediatamente nella piattaforma di consultazione.

Strategia di archiviazione

I dati sono archiviati in database relazionali progettati per ciascun progetto. Applicazioni e database sono ospitati su server di proprietà dell’IATEXT, attivi 24/7, che garantiscono la conservazione durante e dopo il progetto. Vengono effettuati backup giornalieri su un server secondario e copie trimestrali complete su sistema NAS. Le applicazioni sono gestite tramite sistemi di versioning su repository cloud.

Politica dei dati, etica e licenze

Ogni progetto definisce la propria politica sui dati, comprese licenze e eventuali dati sensibili. La responsabilità ricade sul responsabile del progetto e il controllo avviene tramite l’applicazione di consultazione.

Diffusione dei dati

I dati sono resi disponibili automaticamente tramite l’applicazione di consultazione una volta validati. I risultati possono essere esportati in PDF o in altri formati utilizzati nelle Digital Humanities.

Ruoli e responsabilità

Il responsabile del progetto è garante dell’applicazione del piano di gestione dei dati, in coordinamento con il team di ricerca.

Budget

I costi di conservazione e preservazione dei dati sono gratuiti per i progetti interni dell’IATEXT.