Informazioni generali

Il corpus KIParla è attualmente costituito da 4 moduli, ovvero:

  • KIP: 668.581 tokens
  • ParlaTO: 561.388 tokens
  • KIPasti: 482.887 tokens
  • ParlaBO: 701.354 tokens
  • TOTALE: 2.326.171 tokens*

*NB: il totale non corrisponde alla somma dei tre diversi moduli poiché KIP e ParlaTO condividono 7:45

È possibile consultare i moduli indipendentemente oppure attraverso la modalità di consultazione congiunta. In questo secondo caso, si ha accesso all’intero corpus KIParla.

Complessivamente, il corpus KIParla attualmente presenta la struttura rappresentata nella figura riportata di seguito.

Metadati

La modalità di consultazione congiunta permette l’accesso a una serie di metadati. Rispetto a quanto avviene per la consultazione dei singoli moduli, in questo caso, i valori dei diversi parametri possono comparire in modalità aggregata.

Conversazioni:

Tipo di interazione:

  • Pasto
  • Conversazione libera
  • Esame
  • Intervista semistrutturata
  • Lezione
  • Ricevimento studenti

Numero di partecipanti:

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

Rapporto tra i partecipanti:

  • Simmetrico
  • Asimmetrico

Presenza di moderatore:

  • No

Anno di raccolta:

  • 2017/2018
  • 2019
  • 2020
  • 2021
  • 2022
  • 2023
  • 2024

Luogo di raccolta:

  • AN
  • AR
  • BO
  • BR
  • BZ
  • CA
  • CE
  • CZ
  • FC
  • FG
  • LE
  • LU
  • MI
  • MT
  • PE
  • PG
  • RE
  • RM
  • RN
  • TO
  • TV
  • VE

Parlanti:

Occupazione:

  • N/A (ovvero non siamo in possesso del dato)
  • Artig
  • Comm
  • Disocc
  • Impr
  • Intell
  • Non-qualif
  • Oper
  • Pens
  • Stud
  • Tec
  • Uff

Genere:

  • F
  • M

Regione di provenienza:

  • Abruzzo
  • Basilicata
  • Calabria
  • Campania
  • Emilia Romagna
  • Friuli Venezia Giulia
  • Lazio
  • Liguria
  • Lombardia
  • Marche
  • Molise
  • Piemonte
  • Puglia
  • Sardegna
  • Sicilia
  • Toscana
  • Trentino Alto Adige
  • Umbria
  • Valle d’Aosta
  • Veneto
  • Estero

Età:

  • 16-20
  • 21-25
  • 26-30
  • 31-35
  • 26-40
  • 41-45
  • 46-50
  • 51-55
  • 56-60
  • 61-65
  • 66-70
  • 71-75
  • 76-80
  • 81-85
  • Over85

Titolo di studio:

  • N/A (ovvero non siamo in possesso del dato)
  • Dip_lic (diploma di liceo)
  • Dip_tec_prof (diploma di istituto tecnico o professionale)
  • Elem
  • Laurea
  • Laurea in corso
  • Med
  • Phd
Come citare il corpus

Mauri, Caterina, Silvia Ballarè, Eugenio Goria, Massimo Cerruti & Francesco Suriano, 2019, “KIParla corpus: a new resource for spoken Italian”. In: Bernardi, Raffaella, Roberto Navigli & Giovanni Semeraro (eds.), Proceedings of the 6th Italian Conference on Computational Linguistics CLiC-it.

Silvia Ballarè, Eugenio Goria e Caterina Mauri, 2022, Italiano parlato e variazione linguistica. Teoria e prassi nella costruzione del corpus KIParla, Bologna, Pàtron

Responsabili

Caterina Mauri, Silvia Ballarè, Eugenio Goria e Massimo Cerruti

Ultimo aggiornamento

2024