Progettazione del corpus
La dimensione diatopica è tradizionalmente considerata la più significativa per descrivere la variazione sociolinguistica dell’italiano contemporaneo; infatti, si trova traccia di tratti linguistici regionali anche nelle produzioni più controllate dei parlanti colti.
Nel corpus KIParla, sino ad ora, sono stati raccolti dati linguistici nelle città di Bologna e di Torino; la situazione sociolinguistica dei due punti di inchiesta è caratterizzata dalla compresenza di italiano e dialetto, e dalla presenza di varietà intermedie. Inoltre, sebbene con differenze di rilievo, entrambe le città sono state e sono meta di mobilità interna e, per questa ragione, si possono trovare diversi italiani regionali e diversi dialetti italoromanzi. Per questa ragione, oltre all’informazione relativa al luogo in cui è stata effettuata la registrazione, sono accessibili anche i dati relativi alle origini dei singoli parlanti.
I parlanti coinvolti nelle registrazioni sono differenziati primariamente per età e titolo di studio; entrambi i parametri sono da considerarsi particolarmente significativi nell’ottica della descrizione della variazione sociolinguistica dell’italiano.
Nel corpus, sono presenti diversi tipi di interazioni caratterizzate da:
- relazione simmetrica/asimmetrica tra i partecipanti;
- presenza/assenza di un argomento predefinito;
- presenza/assenza di norme per la regolazione della presa di turno
La costruzione del corpus: raccolta dati, trascrizione e accessibilità
Tutti i dati sono stati registrati a microfono palese e tutti i parlanti hanno firmato un consenso informato (steso nel rispetto delle attuali norme europee in materia di protezione dati – v. G.D.P.R.) che autorizza:
- la raccolta dei dati;
- la conservazione dei dati su hardware situati in paesi europei e/o su servizi cloud forniti dalle università;
- la pubblicazione dei dati on-line per effettuare ricerche di carattere scientifico.
Prima di essere caricati on-line, i dati (sia i file audio, sia le trascrizioni) sono stati anonimizzati e l’unico dato sensibile direttamente accessibile è la voce stessa del parlante.
Le registrazioni sono state trascritte utilizzando il software ELAN, che permette l’allineamento della trascrizione con la traccia audio.
Per le trascrizioni, è stata adottata una versione semplificata del sistema Jefferson (v. tab. 1), frequentemente utilizzato nell’analisi della conversazione.
, | Intonazione ascendente |
. | Intonazione discendente |
: | Suono prolungato |
(.) | Pausa breve |
> ciao < | Pronuncia (più) veloce |
<ciao> | Pronuncia (più) lenta |
[ciao] | Sovrapposizioni tra parlanti |
(ciao) | Testo di difficile comprensione (ipotesi del trascrivente) |
xxx | Testo non comprensibile |
((ride)) | Comportamento non verbale |
= | Unità unite prosodicamente |
Tabella 1 – Simboli per la trascrizione
I dati trascritti, tuttavia, sono ricercabili anche solo in base alla semplice trascrizione ortografica.
Modularità incrementale
Bla
Il modulo KIP
Il modulo ParlaTO
Prospettive future
Bla
English Version
È possibile scaricare qui una versione (estesa) in inglese.