Il corpus KIParla
Il corpus KIParla è una nuova risorsa per lo studio dell’italiano parlato ed è il frutto di una collaborazione tra le Università di Bologna e di Torino.
Il corpus è dotato di diverse caratteristiche innovative come:
- L’accesso ad un ampio numero di metadati relativi ai parlanti e al contesto in cui le interazioni registrate hanno avuto luogo;
- La possibilità di consultare il corpus on-line e avere accesso all’intera trascrizione di ogni conversazione;
- L’allineamento della trascrizione con la traccia audio.
Progettazione del corpus
La differenziazione geografica è preminente nel caratterizzare la variazione sociolinguistica dell’italiano; anche nelle produzioni più controllate di parlanti colti è infatti possibile riscontrare la presenza di tratti regionali.
Nel corpus KIParla, inizialmente, erano stati raccolti dati linguistici nelle città di Bologna e di Torino; la situazione sociolinguistica dei due punti di inchiesta è caratterizzata dalla compresenza di italiano e dialetto. Inoltre, sebbene con differenze di rilievo, entrambe le città sono state e sono meta di mobilità interna, così come di flussi migratori esterni; vi si possono dunque trovare diversi italiani regionali e dialetti italo-romanzi, oltre a lingue di recente immigrazione. Per questa ragione, oltre all’informazione relativa al luogo in cui è stata effettuata la registrazione, sono accessibili anche i dati relativi alla provenienza geografica dei singoli parlanti.
Con l’aggiunta del modulo KIPasti, sono state integrate registrazioni raccolte in tutte le aree geografiche di Italia.
I parlanti coinvolti nelle registrazioni sono differenziati primariamente per età, titolo di studio e occupazione, parametri particolarmente significativi nel determinare la collocazione sociale degli individui.
Nel corpus, sono presenti vari tipi di interazione (come ad esempio interviste semistrutturate, conversazioni a tavola e, in contesto universitario, lezioni ed esami), differenziati in base a parametri situazionali: relazione simmetrica/asimmetrica tra i partecipanti, presenza/assenza di un argomento predefinito, presenza/assenza di norme per la presa di turno, ecc.
La costruzione del corpus: raccolta dati, trascrizione e accessibilità
Tutti i dati sono stati registrati a microfono palese e tutti i parlanti hanno firmato un consenso informato (steso nel rispetto delle attuali norme europee in materia di protezione dati – v. G.D.P.R.) che autorizza:
- la raccolta dei dati;
- la conservazione dei dati su hardware situati in paesi europei e/o su servizi cloud forniti dalle università;
- la pubblicazione dei dati on-line per effettuare ricerche di carattere scientifico.
Prima di essere caricati on-line, i dati (sia i file audio, sia le trascrizioni) sono stati anonimizzati e l’unico dato sensibile, accessibile previa registrazione, è la voce stessa del parlante. Nelle trascrizioni i dati sensibili sono stati sostituiti, nei file audio sono stati coperti.
Le registrazioni sono state trascritte utilizzando il software ELAN, che permette l’allineamento della trascrizione con la traccia audio.
Per le trascrizioni, è stata adottata una versione semplificata del sistema Jefferson (v. tab. 1), frequentemente utilizzato nell’analisi della conversazione.
, | Intonazione ascendente |
. | Intonazione discendente |
: | Suono prolungato |
(.) | Pausa breve |
> ciao < | Pronuncia (più) veloce |
<ciao> | Pronuncia (più) lenta |
[ciao] | Sovrapposizioni tra parlanti |
(ciao) | Testo di difficile comprensione (ipotesi del trascrivente) |
xxx | Testo non comprensibile |
((ride)) | Comportamento non verbale |
= | Unità unite prosodicamente |
Tabella 1. Simboli per la trascrizione
Al fine di rendere l’intero corpus consultabile tramite NoSketch Engine, è stato elaborato uno script in python che consente di:
- utilizzare i metadati sia come filtri di ricerca sia come informazioni relative alle singole registrazioni;
- effettuare ricerche considerando la semplice trascrizione ortografica e la trascrizione Jefferson;
- collegare ogni occorrenza con l’unità intonativa in cui si trova;
- consultare separatamente ogni modulo.
Modularità incrementale
Una caratteristica fondamentale che rende il corpus KIParla particolarmente innovativo è la sua modulalità incrementale, ovvero la sua organizzazione interna in moduli indipendenti e la possibilità di aggiungere nuovi moduli nel tempo.
I moduli sono diversi corpora di Italiano parlato che condividono lo stesso design e un insieme comune di metadati, trascritti da ELAN e resi disponibili attraverso NoSketch Engine. I moduli possono concentrarsi su diverse dimensioni della variazione linguistica e possono raccogliere dati da diverse aree geografiche. Tuttavia, la procedura condivisa di raccolta e trattamento dei dati garantisce un elevato livello di reciproca comparabilità.
La piena accessibilità dei metadati rende il corpus facilmente espandibile, attraverso l’aggiunta di ulteriori moduli incentrati su diversi aspetti geografici, socio-culturali o comunicativi e aggiornabili, attraverso l’aggiunta di nuovi dati per i moduli esistenti. La natura stessa del corpus KIParla lo rende un potenziale monitor corpus, aperto a integrazioni e aggiornamenti nel tempo.
Ad oggi, il corpus KIParla è costituito da tre moduli:
Più sarà ampio lo spettro di interazioni raccolte e differenziato socio-geograficamente il campione di parlanti coinvolti, più il corpus sarà rappresentativo delle lingue e delle varietà di lingua parlate in Italia.
Immaginiamo che il corpus KIParla aumenti di volume nel corso del tempo seguendo due direzioni principali. Da un lato, miriamo a collaborare con progetti esistenti, al fine di verificare se i dati già pronti raccolti per scopi diversi possano essere adattati per costituire nuovi moduli del corpus KIParla. L’unico requisito in questi casi è la tracciabilità e l’accessibilità ad (almeno) un nucleo di metadati per i parlanti (genere, età, provenienza geografica, livello di istruzione e professione) e per l’interazione (intervista, conversazione libera, ecc.). Dall’altro, vorremmo avviare nuove raccolte dati nelle diverse regioni.
In futuro, inoltre, prevediamo due fasi di annotazione, ovvero la lemmatizzazione e il POS tagging.
English Version
You can find an extended English description here.
Reference:
Mauri, Caterina, Silvia Ballarè, Eugenio Goria, Massimo Cerruti & Francesco Suriano, (2019) “KIParla corpus: a new resource for spoken Italian”. In: Bernardi, Raffaella, Roberto Navigli & Giovanni Semeraro (eds.), Proceedings of the 6th Italian Conference on Computational Linguistics CLiC-it.