Le ricerche all’interno del corpus vengono effettuate attraverso l’interfaccia NoSketch Engine, che permette di interrogare i due moduli del corpus separatamente.

Interrogando il corpus KIParla, l’utente dichiara e accetta che:

  • la consultazione è effettuata esclusivamente per scopi di ricerca scientifica e senza fini di lucro;
  • in caso di utilizzo e/o riproduzione dei dati linguistici contenuti nella risorsa, sarà riconosciuta la paternità della risorsa stessa citandola opportunamente (v. sotto);
  • i dati ricavati dalla consultazione non saranno modificati (salvo esplicita dichiarazione dell’utente);
  • i dati inclusi nel corpus KIParla non saranno inclusi in alcuna altra risorsa (salvo accordi con i responsabili).

Per accedere al corpus, cliccare sul pulsante rosso:

Come citare il corpus

Per citare il corpus KIParla, utilizzare il seguente riferimento:

Mauri, Caterina, Silvia Ballarè, Eugenio Goria, Massimo Cerruti & Francesco Suriano, (2019) “KIParla corpus: a new resource for spoken Italian”. In: Bernardi, Raffaella, Roberto Navigli & Giovanni Semeraro (eds.), Proceedings of the 6th Italian Conference on Computational Linguistics CLiC-it.


Informazioni utili per effettuare una ricerca

Come faccio a cercare una parola accentata?

Per cercare una parola che contiene un carattere accentato, è necessario indicare il carattere senza accento seguito dall’apostrofo. Per esempio, per cercare però occorre digitare pero’

Come faccio a cercare due parole separate solo da apostrofo?

Per cercare due parole separate solo da un apostrofo (come ad es. l’altro), è necessario inserire uno spazio tra la prima parola seguita da apostrofo (ovvero l’) e la seconda (ovvero altro) e sarà dunque necessario digitare l’ altro.

KWIC view: cosa viene mostrato nel contesto a sinistra e a destra, intorno alla keyword?

Il testo circostante mostra l’unità intonativa, e più in generale il contesto, in cui compare l’elemento cercato; o, più precisamente, in cui compare l’occorrenza dell’elemento cercato. Il contesto può comprendere enunciati prodotti dallo stesso parlante o da altri parlanti coinvolti nella stessa registrazione. Le unità intonative sono separate dal simbolo //. Per sapere chi sia l’autore di ognuna delle unità intonative visualizzate, è necessario consultare la trascrizione dell’intera interazione. Per visualizzare l’intera trascrizione, occorre selezionare il codice della conversazione (ad es. BOA3013) che compare a sinistra dell’occorrenza, dove c’è il link alla trascrizione della conversazione completa.

Cosa visualizzo se clicco sull’occorrenza?

Cliccando sull’occorrenza, è possibile visualizzare il contesto più ampio in cui essa occorre.

Cosa si visualizza cliccando sulla prima occorrenza di ‘casa’
Che informazioni ottengo se clicco sul codice a sinistra dell’occorrenza?
  • codice della conversazione
  • link a trascrizione ortografica dell’intera conversazione, dove posso recuperare l’occorrenza tramite la funzione Ctrl+F. Ogni parlante è individuato dallo stesso colore.
  • link a trascrizione conversazionale semplificata dell’intera conversazione, dove posso recuperare l’occorrenza tramite la funzione Ctrl+F. Ogni parlante è individuato dallo stesso colore.
  • link a audio della porzione di conversazione individuata dall’occorrenza.
  • metadati relativi al parlante (sesso [f=femmina, m=maschio], fascia di età, regione dove ha frequentato la scuola superiore, occupazione [s=studente, p=professore], altre conversazioni alle quali partecipa il parlante).
  • metadati relativi alla conversazione (tipo di conversazione [lezioni, esami, conversazioni libere, ricevimento studenti, interviste semi-strutturate], punto di raccolta [bo, to], rapporto tra parlanti [simmetrico vs. asimmetrico], numero partecipanti, anno della registrazione)
Cosa si visualizza cliccando su ‘TOD2012’
Quali informazioni posso ricavare dal codice della conversazione?

Il codice della conversazione visualizzato in blu sulla destra (ad es. TOD2012) identifica un’unica conversazione.

Il codice è divisibile in 3 parti:

  • Le prime due lettere si riferiscono al punto di raccolta e possono essere BO (Bologna) o TO (Torino).
  • La lettera e il numero che seguono identificano il tipo di interazione; Le lettere, scelte seguendo il modello del LIP, indicano il tipo di interazione: A = interazione dialogica con presa di turno libera; C = interazione dialogica con presa di turno non libera; D= scambio comunicativo unidirezionale. I numeri, differenziano i diversi tipi di interazione in relazione a quelle registrate per il KIP. Dunque abbiamo: A1 = ricevimento studenti, A3 = conversazione libera; C1 = esami; D1 = lezioni; D2 = interviste.
  • Le ultime tre cifre rappresentano un valore crescente utile solamente a classificare le singole registrazioni con caratteristiche comuni.

Dunque, ad esempio, una conversazione con codice BOA3001 (BO-A3-001) è stata registrata a Bologna (BO) ed è una conversazione libera (A3).

Attenzione: nelle impostazioni di default, i risultati sono presentati con il codice della conversazione a sinistra dell’occorrenza. In caso di modifiche, a cadenza regolare, saranno sempre ristabilite le impostazioni di default.

Nei risultati della ricerca, a volte compare la scritta </doc><doc>. Che cosa vuol dire?

La scritta </doc><doc> indica il confine tra una conversazione e l’altra. Dunque ciò che compare a sinistra di essa appartiene a una certa conversazione e ciò che compare a destra di essa appartiene ad un’altra conversazione.

Ho provato ad ascoltare la porzione audio di una conversazione ma non trovo l’occorrenza che avevo cercato. Perchè? Cosa posso fare?

Una volta aperto il player, la traccia inizia da 3 secondi prima dell’unità intonativa in cui si trova la forma ricercata. E’ comunque possibile muoversi nel player usando il cursore oppure shift + frecce direzionali (per un controllo più preciso); inoltre, puoi aiutarti leggendo l’intera conversazione (v. sopra).

Quali filtri di ricerca posso usare?
  • Query types: ‘simple’, ‘phrase’, ‘word’, ‘character’, CQL’
  • Context: è possibile filtrare i risultati in base alla co-occorrenza di una parola con altre parole nei contesti destro e/o sinistro.
  • Text types: è possibile filtrare i risultati in base ai metadati del parlante (sesso [m=maschio, f=femmina], età, regione dove ha frequentato la scuola superiore, occupazione [s=studente, p=professore]), al punto di raccolta (Bologna o Torino), ai metadati relativi alla conversazione (tipo di conversazione [lezioni, esami, conversazioni libere, ricevimento studenti, interviste semi-strutturate], punto di raccolta [bo, to], rapporto tra parlanti [simmetrico vs. asimmetrico], numero partecipanti, anno della registrazione), al codice della conversazione. Compaiono anche altri valori prodotti dall’interfaccia No Sketch Engine, che non sono necessari ai fini delle ricerche.
Posso creare un subcorpus? Come?

Sì, è possibile! Puoi seguire questi passaggi:

1. Nella schermata di ricerca, sotto a ‘text types’ seleziona ‘create new’

2. Dai un nome al tuo subcorpus e seleziona i parametri utili alla tua indagine. In questo caso, abbiamo chiamato il subcorpus ‘prova’ e abbiamo selezionato le sole conversazioni libere.

3. A questo punto, nella tua prossima ricerca accanto a ‘subcorpus’ comparirà un menu a tendina. Qui potrai selezionare il sottocorpus appena creato.

Attenzione: Se vuoi fare una ricerca nel sottocorpus che hai creato, salva i tuoi risultati! A cadenza regolare, i sottocorpora creati dagli utenti saranno eliminati dagli admin.

Che cos’è una word list e come funziona?

Nel menu di sinistra, è possibile cliccare su ‘word list’ per scoprire quali sono le parole più frequenti all’interno del corpus (o di un sottocorpus). Ad esempio, andando nella sezione ‘word list’ e selezionando il sottocorpus ‘prova’ (v. sopra), si otterrà questo risultato:

Nella tabella sono riportate le forme più frequenti nel sottocorpus ‘prova’ (ovvero nella conversazione libera) e il numero totale delle occorrenze. Cliccando sul numero, si ha accesso all’elenco di tutte le occorrenze.

Che cosa sono le collocations e come funzionano?

Le collocazioni servono a mostrare quali parole compaiono con maggiore frequenza prima o dopo una certa parola. Per ottenere questo dato devi cercare la parola che ti interessa nella simple query e, dopo aver visualizzato i risultati, cliccare su ‘collocations’ nella colonna di sinistra. A questo punto, devi selezionare il “range” entro cui considerare le parole più frequenti.

Ad esempio, per visualizzare, delle due parole che in contesti diversi compaiono prima di chi, quali sono le più frequenti dovrai impostare la ricerca come nella figura.

Se vuoi considerare più di 2 parole prima della forma cercata, puoi aumentare il numero negativo (nello spazio a sinistra).

Se vuoi considerare la frequenza delle parole che compaiono dopo la forma cercata, devi invece inserire un numero positivo (nello spazio a destra).

Puoi ordinare i risultati ottenuti in relazione al numero di occorrenze, cliccando su ‘cooccurrence count’.

Ad esempio, cercando il singolo elemento che occorre con ma prima di ma (v. figura a sinistra) e ordinando gli elementi in base alla loro frequenza assoluta, si ottiene questo risultato (v. figura a destra):

Ricorda che // indica il confine dell’unità intonativa. La tabella dunque ci dice che in 2082 casi, ma occorre all’inizio di una unità intonativa.

Come posso salvare i risultati di una ricerca?

Una volta effettuata la ricerca, dalla colonna di sinistra clicca su ‘save’. A questo punto, seleziona il formato in cui vuoi salvare i dati (txt o html) e poi clicca su ‘save concordance’.

Ci sono dei “caratteri jolly” (o “wild cards”) che posso usare per la ricerca?

Sì, riportiamo di seguito un breve elenco:

? = Sta per “qualunque carattere” e si usa a inizio e fine di parola.

Quindi ad esempio, se vuoi cercare tutte le forme flesse del participio passato del verbo essere, nel campo di ricerca dovrai scrivere “stat?” (attenzione! Tra i risultati compariranno ovviamente ad es. stato/i quando usati come sostantivi!)

. (nel tipo di query ‘word form’) = Sta per “qualunque carattere” e si usa anche all’interno di parola.

Quindi ad esempio, cercando “c.sa” troverò le occorrenze di casa e cosa. Inoltre, si possono mettere più punti vicini. Quindi ad esempio, cercando “ca…a” troverò parole formate da 6 lettere che iniziano con “ca” e finiscono con “a” come carina, camera, cabina, …

* = Sta per un numero indeterminato di caratteri.

Quindi ad esempio, cercando “ca*a” troverò parole che iniziano con “ca” e finiscono con “a” formate da un numero di lettere variabile come carina, camera ma anche casa e camminava.

^ (nel tipo di query ‘word form’) = Sta per “qualunque carattere tranne quello specificato”.

Quindi ad esempio, cercando “[^c]ase” troverò fase e base ma non case. All’interno della parentesi quadra, si possono inserire più caratteri.

[] (nel tipo di query ‘word form’) = Sta per “uno di questi caratteri”.

Quindi ad esempio, cercando “[cb]ase” troverò case e base, ma non fase.

Per una guida più dettagliata alle espressioni regolari che puoi utilizzare, puoi leggere la guida di Sketch Engine cliccando qui

Come sono state trascritte le interiezioni?

Di seguito forniamo un breve elenco del modo in cui sono state trascritte alcune interiezioni e alcuni segnali discorsivi nel tentativo di uniformare le occorrenze:

  • vabbe’ (e non vabbe, va beh, va be, va be’, …);
  • cioe’ (e non );
  • mah (e non mha);
  • ehm (e non emh, hem);
  • eh (e non he);
  • mh (e non m, hm);
  • hi (e non ih).