L’accesso ai dati del corpus KIParla è concesso in licenza con una Open Database License. Tutti i diritti sui singoli contenuti dei database e dei corpora sono regolati dalla Database Contents License.

Le ricerche all’interno del corpus vengono effettuate attraverso l’interfaccia NoSketch Engine, che permette di interrogare i due moduli del corpus separatamente.

Per accedere al corpus, cliccare sul pulsante rosso:


Informazioni utili per effettuare una ricerca

Come faccio a cercare una parola accentata?

Per cercare una parola che contiene un carattere accentato, è necessario indicare il carattere senza accento seguito dall’apostrofo. Per esempio, per cercare però occorre digitare pero’

KWIC view: cosa viene mostrato nel contesto a sinistra e a destra, intorno alla keyword?

Il testo circostante mostra l’unità intonativa, e più in generale il contesto, in cui compare l’elemento cercato; o, più precisamente, in cui compare l’occorrenza dell’elemento cercato. Le unità intonative sono separate dal simbolo // . Se il contesto mostra unità intonative ulteriori a quella in cui compare l’occorrenza, si tratta di unità intonative enunciate dal medesimo parlante. Per visualizzare le unità intonative di parlanti diversi, per esempio all’interno di una conversazione con turni brevi, occorre selezionare il codice della conversazione (ad es. BOA3013) che compare a sinistra dell’occorrenza, dove c’è il link alla trascrizione della conversazione completa.

Cosa visualizzo se clicco sull’occorrenza?

Si espande il contesto, sempre in riferimento alle parole pronunciate dallo stesso parlante. Le unità intonative sono separate dal simbolo // . Se il contesto mostra unità intonative ulteriori a quella in cui compare l’occorrenza, si tratta di unità intonative enunciate dal medesimo parlante. Per visualizzare l’occorrenza all’interno della conversazione, quindi visualizzando anche parlanti diversi, occorre cliccare sul codice della conversazione a sinistra dell’occorrenza (vd. sotto).

Cosa si visualizza cliccando sulla prima occorrenza di ‘casa’
Che informazioni ottengo se clicco sul codice a sinistra dell’occorrenza?
  • codice della conversazione
  • link a trascrizione ortografica dell’intera conversazione, dove posso recuperare l’occorrenza tramite la funzione Ctrl+F. Ogni parlante è individuato dallo stesso colore.
  • link a trascrizione conversazionale semplificata dell’intera conversazione, dove posso recuperare l’occorrenza tramite la funzione Ctrl+F. Ogni parlante è individuato dallo stesso colore.
  • link a audio della porzione di conversazione individuata dall’occorrenza.
  • metadati relativi al parlante (sesso [f=femmina, m=maschio], fascia di età, regione dove ha frequentato la scuola superiore, occupazione [s=studente, p=professore], altre conversazioni alle quali partecipa il parlante).
  • metadati relativi alla conversazione (tipo di conversazione [lezioni, esami, conversazioni libere, ricevimento studenti, interviste semi-strutturate], punto di raccolta [bo, to], rapporto tra parlanti [simmetrico vs. asimmetrico], numero partecipanti, anno della registrazione)
Cosa si visualizza cliccando su ‘TOD2012’
Quali informazioni posso ricavare dal codice della conversazione?

Il codice della conversazione visualizzato in blu sulla destra (ad es. TOD2012) identifica un’unica conversazione.

Il codice è divisibile in 3 parti:

  • Le prime due lettere si riferiscono al punto di raccolta e possono essere BO (Bologna) o TO (Torino).
  • La lettera e il numero che seguono identificano il tipo di interazione; Le lettere, scelte seguendo il modello del LIP, indicano il tipo di interazione: A = interazione dialogica con presa di turno libera; C = interazione dialogica con presa di turno non libera; D= scambio comunicativo unidirezionale. I numeri, differenziano i diversi tipi di interazione in relazione a quelle registrate per il KIP. Dunque abbiamo: A1 = ricevimento studenti, A3 = conversazione libera; C1 = esami; D1 = lezioni; D2 = interviste.
  • Le ultime tre cifre rappresentano un valore crescente utile solamente a classificare le singole registrazioni con caratteristiche comuni.

Dunque, ad esempio, una conversazione con codice BOA3001 (BO-A3-001) è stata registrata a Bologna (BO) ed è una conversazione libera (A3).

Nei risultati della ricerca, a volte compare la scritta </doc><doc>. Che cosa vuol dire?

La scritta </doc><doc> indica il confine tra una conversazione e l’altra. Dunque ciò che compare a sinistra di essa appartiene a una certa conversazione e ciò che compare a destra di essa appartiene ad un’altra conversazione.

Ho provato ad ascoltare la porzione audio di una conversazione ma non trovo l’occorrenza che avevo cercato. Perchè? Cosa posso fare?

Una volta aperto il player, la traccia inizia da 3 secondi prima dell’unità intonativa in cui si trova la forma ricercata. E’ comunque possibile muoversi nel player usando il cursore oppure shift + frecce direzionali (per un controllo più preciso); inoltre, puoi aiutarti leggendo l’intera conversazione (v. sopra).

Quali filtri di ricerca posso usare?
  • Query types: ‘simple’, ‘phrase’, ‘word’, ‘character’, CQL’
  • Context: è possibile filtrare i risultati in base alla co-occorrenza di una parola con altre parole nei contesti destro e/o sinistro.
  • Text types: è possibile filtrare i risultati in base ai metadati del parlante (sesso [m=maschio, f=femmina], età, regione dove ha frequentato la scuola superiore, occupazione [s=studente, p=professore]), al punto di raccolta (Bologna o Torino), ai metadati relativi alla conversazione (tipo di conversazione [lezioni, esami, conversazioni libere, ricevimento studenti, interviste semi-strutturate], punto di raccolta [bo, to], rapporto tra parlanti [simmetrico vs. asimmetrico], numero partecipanti, anno della registrazione), al codice della conversazione. Compaiono anche altri valori prodotti dall’interfaccia No Sketch Engine, che non sono necessari ai fini delle ricerche.
Posso creare un subcorpus? Come?

Sì, è possibile! Puoi seguire questi passaggi:

1. Nella schermata di ricerca, sotto a ‘text types’ seleziona ‘create new’

2. Dai un nome al tuo subcorpus e seleziona i parametri utili alla tua indagine. In questo caso, abbiamo chiamato il subcorpus ‘prova’ e abbiamo selezionato le sole conversazioni libere.

3. A questo punto, nella tua prossima ricerca accanto a ‘subcorpus’ comparirà un menu a tendina. Qui potrai selezionare il sottocorpus appena creato.

Che cos’è una word list e come funziona?

Nel menu di sinistra, è possibile cliccare su ‘word list’ per scoprire quali sono le parole più frequenti all’interno del corpus (o di un sottocorpus). Ad esempio, andando nella sezione ‘word list’ e selezionando il sottocorpus ‘prova’ (v. sopra), si otterrà questo risultato:

Nella tabella sono riportate le forme più frequenti nel sottocorpus ‘prova’ (ovvero nella conversazione libera) e il numero totale delle occorrenze. Cliccando sul numero, si ha accesso all’elenco di tutte le occorrenze.

Che cosa sono le collocations e come funzionano?

Le collocazioni servono a mostrare quali parole compaiono con maggiore frequenza prima o dopo una certa parola. Per ottenere questo dato devi cercare la parola che ti interessa nella simple query e, dopo aver visualizzato i risultati, cliccare su ‘collocations’ nella colonna di sinistra. A questo punto, devi selezionare il “range” entro cui considerare le parole più frequenti.

Ad esempio, per visualizzare, delle due parole che in contesti diversi compaiono prima di chi, quali sono le più frequenti dovrai impostare la ricerca come nella figura.

Se vuoi considerare più di 2 parole prima della forma cercata, puoi aumentare il numero negativo (nello spazio a sinistra).

Se vuoi considerare la frequenza delle parole che compaiono dopo la forma cercata, devi invece inserire un numero positivo (nello spazio a destra).

Puoi ordinare i risultati ottenuti in relazione al numero di occorrenze, cliccando su ‘cooccurrence count’.

Ad esempio, cercando il singolo elemento che occorre con ma prima di ma (v. figura a sinistra) e ordinando gli elementi in base alla loro frequenza assoluta, si ottiene questo risultato (v. figura a destra):

Ricorda che // indica il confine dell’unità intonativa. La tabella dunque ci dice che in 2082 casi, ma occorre all’inizio di una unità intonativa.

Come posso salvare i risultati di una ricerca?

Una volta effettuata la ricerca, dalla colonna di sinistra clicca su ‘save’. A questo punto, seleziona il formato in cui vuoi salvare i dati (txt o html) e poi clicca su ‘save concordance’.

Ci sono dei “caratteri jolly” (o “wild cards”) che posso usare per la ricerca?

Sì, riportiamo di seguito un breve elenco:

? = Sta per “qualunque carattere” e si usa a inizio e fine di parola.

Quindi ad esempio, se vuoi cercare tutte le forme flesse del participio passato del verbo essere, nel campo di ricerca dovrai scrivere “stat?” (attenzione! Tra i risultati compariranno ovviamente ad es. stato/i quando usati come sostantivi!)

. (nel tipo di query ‘word form’) = Sta per “qualunque carattere” e si usa anche all’interno di parola.

Quindi ad esempio, cercando “c.sa” troverò le occorrenze di casa e cosa. Inoltre, si possono mettere più punti vicini. Quindi ad esempio, cercando “ca…a” troverò parole formate da 6 lettere che iniziano con “ca” e finiscono con “a” come carina, camera, cabina, …

* = Sta per un numero indeterminato di caratteri.

Quindi ad esempio, cercando “ca*a” troverò parole che iniziano con “ca” e finiscono con “a” formate da un numero di lettere variabile come carina, camera ma anche casa e camminava.

^ (nel tipo di query ‘word form’) = Sta per “qualunque carattere tranne quello specificato”.

Quindi ad esempio, cercando “[^c]ase” troverò fase e base ma non case. All’interno della parentesi quadra, si possono inserire più caratteri.

[] (nel tipo di query ‘word form’) = Sta per “uno di questi caratteri”.

Quindi ad esempio, cercando “[cb]ase” troverò case e base, ma non fase.

Per una guida più dettagliata alle espressioni regolari che puoi utilizzare, puoi leggere la guida di Sketch Engine cliccando qui. C

Come sono state trascritte le interiezioni?

Di seguito forniamo un breve elenco del modo in cui sono state trascritte alcune interiezioni e alcuni segnali discorsivi nel tentativo di uniformare le occorrenze:

  • vabbe’ (e non vabbe, va beh, va be, va be’, …);
  • cioe’ (e non );
  • mah (e non mha);
  • ehm (e non emh, hem);
  • eh (e non he);
  • mh (e non m, hm);
  • hi (e non ih).

Al momento, nelle trascrizioni ci sono alcuni refusi per cui, almeno in alcuni casi, è consigliabile cercare le varianti che abbiamo riportato tra parentesi. A breve le trascrizioni saranno uniformate.