Cerca nel corpus – Corpus KIParla

Interrogando il corpus KIParla, l’utente dichiara e accetta che:

la consultazione è effettuata esclusivamente per scopi di ricerca scientifica e senza fini di lucro;
in caso di utilizzo e/o riproduzione dei dati linguistici contenuti nella risorsa, sarà riconosciuta la paternità della risorsa stessa citandola opportunamente (v. sotto);
i dati ricavati dalla consultazione non saranno modificati (salvo esplicita dichiarazione dell’utente);
i dati inclusi nel corpus KIParla non saranno inclusi in alcuna altra risorsa (salvo accordi con i responsabili).

I dati del corpus KIParla scaricati tramite la piattaforma NoSketch Engine sono condivisibili secondo la licenza Creative Commons BY-NC-SA 4.0.

ATTENZIONE!
Chi desidera avere accesso ai file audio per motivi di ricerca deve contattare i responsabili della risorsa attraverso i loro indirizzi istituzionali.
Non è possibile scaricare i file audio del corpus e/o registrarli con mezzi propri, per ragioni relative alla liberatoria utilizzata in fase di raccolta dati e al regolamento europeo in materia di protezione di dati personali (GDPR).
Ogni raccolta dati prevede l’istituzione di un rapporto di fiducia tra ricercatori e parlanti, senza il quale la risorsa stessa non esisterebbe e, soprattutto, non potrebbe essere resa accessibile alla comunità scientifica.
Per ragioni etiche e legali, pertanto, chiunque consulti il corpus è tenuto a rispettare le modalità di accesso indicate dai responsabili della risorsa.

Le ricerche all’interno del corpus vengono effettuate attraverso l’interfaccia NoSketch Engine. È possibile interrogare i tre moduli del corpus separatamente (KIP, ParlaTO, KIPasti o ParlaBO) o congiuntamente (KIParla), selezionando l’opzione preferita dal menu a tendina in alto.

Per accedere al corpus, cliccare sul pulsante rosso:

Per accedere agli audio, compila il form e registrati.

Riceverai una email per confermare la tua registrazione (controlla lo SPAM!) e poi una seconda email con username e password per ascoltare da browser le voci del KIParla.

Registrandoti, sarai automaticamente inserito anche nella newsletter del corpus KIParla.

Come citare il corpus

Per citare il corpus KIParla, utilizzare il seguente riferimento:

Mauri, Caterina, Silvia Ballarè, Eugenio Goria, Massimo Cerruti & Francesco Suriano, (2019) “KIParla corpus: a new resource for spoken Italian”. In: Bernardi, Raffaella, Roberto Navigli & Giovanni Semeraro (eds.), Proceedings of the 6th Italian Conference on Computational Linguistics CLiC-it.

Informazioni utili per effettuare una ricerca

KWIC view: cosa viene mostrato nel contesto a sinistra e a destra, intorno alla keyword?

Il testo circostante mostra l’unità intonativa, e più in generale il contesto, in cui compare l’elemento cercato; o, più precisamente, in cui compare l’occorrenza dell’elemento cercato. Il contesto può comprendere enunciati prodotti dallo stesso parlante o da altri parlanti coinvolti nella stessa registrazione. Le unità intonative sono separate dal simbolo //. Per sapere chi sia l’autore di ognuna delle unità intonative visualizzate, è necessario consultare la trascrizione dell’intera interazione. Per visualizzare l’intera trascrizione, occorre selezionare il codice della conversazione (ad es. TOD2015) che compare a sinistra dell’occorrenza, dove c’è il link alla trascrizione della conversazione completa.

Cosa visualizzo se clicco sull’occorrenza?

Cliccando sull’occorrenza, è possibile visualizzare il contesto più ampio in cui essa occorre.

Cosa si visualizza cliccando sulla prima occorrenza di ‘casa’

Che informazioni ottengo se clicco sul codice a sinistra dell’occorrenza?

codice della conversazione
link a trascrizione ortografica dell’intera conversazione, dove posso recuperare l’occorrenza tramite la funzione Ctrl+F. Ogni parlante è individuato dallo stesso colore.
link a trascrizione conversazionale semplificata dell’intera conversazione, dove posso recuperare l’occorrenza tramite la funzione Ctrl+F. Ogni parlante è individuato dallo stesso colore.
link a audio della porzione di conversazione individuata dall’occorrenza.
metadati relativi al parlante (sesso [f=femmina, m=maschio], fascia di età, regione dove ha frequentato la scuola superiore, occupazione [s=studente, p=professore], altre conversazioni alle quali partecipa il parlante).
metadati relativi alla conversazione (tipo di conversazione [lezioni, esami, conversazioni libere, ricevimento studenti, interviste semi-strutturate], punto di raccolta [bo, to], rapporto tra parlanti [simmetrico vs. asimmetrico], numero partecipanti, anno della registrazione)

Cosa si visualizza cliccando sul codice della conversazione

Ho provato ad ascoltare la porzione audio di una conversazione ma non trovo l’occorrenza che avevo cercato. Perchè? Cosa posso fare?

Una volta aperto il player, la traccia inizia da 3 secondi prima dell’unità intonativa in cui si trova la forma ricercata. È comunque possibile muoversi nel player usando il cursore oppure shift + frecce direzionali (per un controllo più preciso); inoltre, puoi aiutarti leggendo l’intera conversazione (v. sopra).

Quali filtri di ricerca posso usare?

Query types: ‘simple’, ‘phrase’, ‘word’, ‘character’, CQL’
Context: è possibile filtrare i risultati in base alla co-occorrenza di una parola con altre parole nei contesti destro e/o sinistro.
Text types: è possibile ricercare un’occorrenza utilizzando come filtri diversi metadati, relativi ai parlanti (ad es. fascia d’età, professione, etc.) e/o alla conversazione (ad es. rapporto tra i partecipanti, anno di raccolta, etc.).

Come posso salvare i risultati di una ricerca?

Una volta effettuata la ricerca, cliccare sul pulsante di download (ovvero, la freccia rivolta verso il basso). A questo punto, seleziona il formato in cui vuoi salvare i dati.

Ci sono dei “caratteri jolly” (o “wild cards”) che posso usare per la ricerca?

Sì, riportiamo di seguito un breve elenco:

? = Sta per “qualunque carattere” e si usa a inizio e fine di parola.

Quindi ad esempio, se vuoi cercare tutte le forme flesse del participio passato del verbo essere, nel campo di ricerca dovrai scrivere “stat?” (attenzione! Tra i risultati compariranno ovviamente ad es. stato/i quando usati come sostantivi!)

* = Sta per un numero indeterminato di caratteri.

Quindi ad esempio, cercando “ca*a” troverò parole che iniziano con “ca” e finiscono con “a” formate da un numero di lettere variabile come carla e candidatura.

^ (nel tipo di query ‘word form’) = Sta per “qualunque carattere tranne quello specificato”.

Per una guida più dettagliata alle espressioni regolari che puoi utilizzare, puoi leggere la guida di Sketch Engine cliccando qui.

Come sono state trascritte le interiezioni?

Di seguito forniamo un breve elenco del modo in cui sono state trascritte alcune interiezioni e alcuni segnali discorsivi nel tentativo di uniformare le occorrenze:

vabbè (e non vabbe, va beh, va be, va be’, …);
cioè (e non cè);
mah (e non mha);
ehm (e non emh, hem);
eh (e non he);
mh (e non m, hm);
hi (e non ih).