Corpus lip
l Corpus LIP è stato raccolto nei primi anni ’90 per la creazione di un lessico di frequenza dell'italiano parlato (T. De Mauro, F. Mancini, M., Vedovelli, M. Voghera, Lessico di frequenza dell’italiano parlato, Milano, Etaslibri, 1993) con il patrocinio dell'IBM. La sua dimensione è stata progettata per produrre un lessico di frequenza attendibile per i primi 3000 lemmi. È composto, dunque, da circa 500.000 occorrenze di parole per circa 60 ore di registrazione.
Il corpus presenta varietà diafasiche, diatopiche e diamesiche.
Per quanto riguarda la variazione diafasica e diamesica, i testi sono suddivisi in 5 gruppi: A) conversazioni faccia a faccia; B) conversazioni telefoniche; C) scambi comunicativi bidirezionali con alternanza di turno predefinita, come interviste, dibattiti, interazioni in aule scolastiche, esami orali, ecc.; D) monologhi, come letture, sermoni, discorsi, ecc.; E) programmi radiofonici e televisivi. I testi contenuti nei gruppi A e B appartengono a registri sia formali sia informali, mentre i testi dei gruppi C, D ed E sono registrati prevalentemente in contesti pubblici, in cui si adottano registri formali.
Per quanto riguarda la variazione diatopica, i testi sono stati raccolti a Milano, Roma, Napoli e Firenze. Le prime tre città sono state scelte per la loro posizione geografica e per il numero di abitanti, perché Milano, Roma e Napoli sono le città più popolate d’Italia. Firenze è stata scelta per la sua grande importanza nella storia della lingua italiana.
Mentre il numero di campioni è variabile, il corpus presenta un numero totale di parole bilanciato per città e per situazione diafasica, come riportato nella tabella 1.
Conversazioni faccia a faccia | Conversazioni telefoniche | Interviste e dibattiti | Monologhi | Radio/TV | Totale | |
Milano | ~25.000 | ~25.000 | ~25.000 | ~25.000 | ~25.000 | ~125.000 |
Firenze | ~25.000 | ~25.000 | ~25.000 | ~25.000 | ~25.000 | ~125.000 |
Roma | ~25.000 | ~25.000 | ~25.000 | ~25.000 | ~25.000 | ~125.000 |
Napoli | ~25.000 | ~25.000 | ~25.000 | ~25.000 | ~25.000 | ~125.000 |
Totale | ~100.000 | ~100.000 | ~100.000 | ~100.000 | ~100.000 | ~500.000 |
Oggi è disponibile nella versione VoLIP, nel portale www.parlaritaliano.it, che associa i file dei segnali audio alle trascrizioni ortografiche dei campioni del Corpus LIP e permette la ricerca nel corpus sia secondo criteri sociolinguistici sia secondo criteri lessicali e morfo-sintattici.
Il VoLIP permette di interrogare il corpus LIP e di ottenere come risultato la porzione di audio desiderata associata alla sua trascrizione ortografica.
Il VoLIP fornisce tutti i campioni del corpus LIP in files wav (Windows PCM, 22050 Hz 16 bit) correlati con:
- i metadati in formato IMDI;
- la trascrizione ortografica originale e la sua revisione.
Le interrogazioni
Sono possibili due tipi di interrogazioni: a) per metadati e b) per criteri lessicali e morfosintattici. I due tipi di interrogazione possono essere incrociati.
Sono possibili due tipi di interrogazione del corpus: A) per variabili di testo e di registro, in base all’annotazione dei metadati; B) per, in base al lessico di frequenza e all’analisi in parti del discorso.
La ricerca per metadati dà come risultato la trascrizione ortografica associata ai file audio di tutti i testi che presentano le caratteristiche richieste. La ricerca per criteri lessicali e morfosintattici dà come risultato tutti i testi che presentano la voce ricercata (lessema o forma) che sarà evidenziata nella trascrizione ortografica e potrà essere ascoltata. Ogni lessema, forma o parte del discorso cercata è fornita con la frequenza di occorrenza per città e per genere di discorso
Collegamenti esterni
[modifica | modifica wikitesto]- http://languageserver.uni-graz.at/badip/badip/20[collegamento interrotto], contenente il corpus LIP, dal sito della Karl-Franzens-Universität Graz
- www.parlaritaliano.it