Progettazione e costruzione del corpus

Progettazione del corpus

La dimensione diatopica è tradizionalmente considerata la più significativa per descrivere la variazione sociolinguistica dell’italiano contemporaneo; infatti, si trova traccia di tratti linguistici regionali anche nelle produzioni più controllate dei parlanti colti.

Nel corpus KIParla, sino ad ora, sono stati raccolti dati linguistici nelle città di Bologna e di Torino; la situazione sociolinguistica dei due punti di inchiesta è caratterizzata dalla compresenza di italiano e dialetto, e dalla presenza di varietà intermedie. Inoltre, sebbene con differenze di rilievo, entrambe le città sono state e sono meta di mobilità interna e, per questa ragione, si possono trovare diversi italiani regionali e diversi dialetti italoromanzi. Per questa ragione, oltre all’informazione relativa al luogo in cui è stata effettuata la registrazione, sono accessibili anche i dati relativi alle origini dei singoli parlanti.

I parlanti coinvolti nelle registrazioni sono differenziati primariamente per età e titolo di studio; entrambi i parametri sono da considerarsi particolarmente significativi nell’ottica della descrizione della variazione sociolinguistica dell’italiano.

Nel corpus, sono presenti diversi tipi di interazioni caratterizzate da:

relazione simmetrica/asimmetrica tra i partecipanti;
presenza/assenza di un argomento predefinito;
presenza/assenza di norme per la regolazione della presa di turno

La costruzione del corpus: raccolta dati, trascrizione e accessibilità

Tutti i dati sono stati registrati a microfono palese e tutti i parlanti hanno firmato un consenso informato (steso nel rispetto delle attuali norme europee in materia di protezione dati – v. G.D.P.R.) che autorizza:

la raccolta dei dati;
la conservazione dei dati su hardware situati in paesi europei e/o su servizi cloud forniti dalle università;
la pubblicazione dei dati on-line per effettuare ricerche di carattere scientifico.

Prima di essere caricati on-line, i dati (sia i file audio, sia le trascrizioni) sono stati anonimizzati e l’unico dato sensibile direttamente accessibile è la voce stessa del parlante.

Le registrazioni sono state trascritte utilizzando il software ELAN, che permette l’allineamento della trascrizione con la traccia audio.

Per le trascrizioni, è stata adottata una versione semplificata del sistema Jefferson (v. tab. 1), frequentemente utilizzato nell’analisi della conversazione.

,	Intonazione ascendente
.	Intonazione discendente
:	Suono prolungato
(.)	Pausa breve
> ciao <	Pronuncia (più) veloce
<ciao>	Pronuncia (più) lenta
[ciao]	Sovrapposizioni tra parlanti
(ciao)	Testo di difficile comprensione (ipotesi del trascrivente)
xxx	Testo non comprensibile
((ride))	Comportamento non verbale
=	Unità unite prosodicamente

Tabella 1 – Simboli per la trascrizione

I dati trascritti, tuttavia, sono ricercabili anche solo in base alla semplice trascrizione ortografica.

Modularità incrementale

Bla

Il modulo KIP

Il modulo ParlaTO

Prospettive future

Bla

English Version

È possibile scaricare qui una versione (estesa) in inglese.