Corpus

Un corpus è una collezione di testi selezionati e organizzati per facilitare le analisi linguistiche.

L'idea di selezione può anche mancare: per corpus può intendersi anche una raccolta completa di testimonianze linguistiche riguardanti una certa materia^[1], ad esempio: "corpus della lingua sannita". Infine, un corpus può essere inteso come una raccolta completa costituita secondo un particolare criterio^[2].

Il termine è noto fin dai tempi più antichi; a tal proposito può essere utile pensare al Corpus Iuris Civilis^[3], al Corpus Inscriptionum Latinarum^[4] e a molti altri che sono andati sviluppandosi nel tempo.

I corpora possono essere creati su carta oppure oralmente; oggi, tuttavia, il ruolo del computer nell'uso dei corpora è diventato così preponderante che ormai il termine stesso di corpus non di rado è sinonimo di corpus elettronico (un esempio del quale – consultabile via web – è quello riferito al quotidiano "La Repubblica").

Il settore della linguistica in cui vengono usati i corpora è noto pure come Linguistica dei corpora. Altri rami degni di menzione, in cui i corpora sono utilizzati, sono i seguenti: la Linguistica storico-comparativa in Italia, la Comparative grammar negli Stati Uniti, e la Comparative philology nel Regno Unito.

Linguistica dei Corpora

La linguistica dei corpora rappresenta una disciplina scientifica ormai giunta alla sua compiutezza; in cinquant'anni di attività, grazie alla moltitudine dei gruppi di ricerca in essa operanti, è riuscita a conquistarsi una posizione di centralità indiscussa nel panorama scientifico nazionale e internazionale.

Servendosi di strumenti di analisi quantitativa e statistica, esplora le regolarità linguistiche che emergono dai testi e che costituiscono la base per la descrizione della struttura del linguaggio.

L'obiettivo principale è quello di sviluppare modelli del funzionamento del linguaggio umano traducibili in programmi che possano essere eseguiti da calcolatore elettronico; in tal modo, esso può acquisire le competenze necessarie per comunicare direttamente nella nostra lingua.

Si tratta di un àmbito di ricerca e di lavoro tipicamente interdisciplinare. Infatti, da un lato, per qualificare le attività rivolte allo sviluppo di applicativi basati sulle tecnologie del linguaggio, essa si intreccia con l'informatica e l'ingegneria; dall'altro lato, invece, dialoga con la linguistica, le scienze cognitive, la psicologia, la filosofia e le scienze umane in generale, con le quali condivide appunto l'obiettivo di indagare la struttura, il funzionamento e l'uso del linguaggio, nonché il suo rapporto con le altre facoltà cognitive dell'uomo.

La storia

La linguistica dei corpora nasce nella seconda metà del Novecento come disciplina di frontiera rispetto sia al mondo umanistico che alle applicazioni più centrali delle scienze dell'informazione.

Tra i primi risultati della disciplina troviamo lo sviluppo di programmi per lo spoglio elettronico dei testi, il calcolo della frequenza delle parole, la compilazione di indici e concordanze^[5], come pure la creazione di ripetitori lessicali elettronici, conosciuti anche come dizionari elettronici.

Negli anni Cinquanta e Sessanta, Roberto Busa S. J. realizza il primo corpus elettronico delle opere di Tommaso d'Aquino presso il Centro per l'Automazione dell'Analisi Linguistica di Gallarate: si tratta di un corpus di circa 10 milioni di parole, una cifra enorme per le capacità dei computer del tempo.

Nel 1957, parallelamente al diffondersi della grammatica generativa, in area anglosassone continua a svilupparsi una tradizione di ricerca linguistica ancorata a una metodologia di derivazione empirista, la quale fonda l'indagine linguistica sulla raccolta e analisi di corpora.

Successivamente, nel 1964, alla Brown University negli Stati Uniti, Henry Kucera e W. Nelson Francis realizzano il Brown Corpus: lungo circa un milione di parole, è il primo corpus elettronico progettato e costruito per lo studio di una particolare varietà linguistica contemporanea (nel caso specifico, l'inglese americano degli anni Sessanta).

In seguito, la dimensione dei corpora è andata sempre più crescendo, e la loro disponibilità è diventata una variabile fondamentale in ogni fase di sviluppo e di valutazione degli strumenti per il TAL^[6]. Al tempo stesso, la crescita del web – con la sua grande quantità di materiale testuale multiforme, e in continua evoluzione – ha reso necessario lo sviluppo di tecnologie linguistiche in grado di confrontarsi con testi reali e non più con testi da laboratorio.

La crescente disponibilità di corpora testuali ha facilitato l'innovazione metodologica in linguistica dei corpora, fornendo i dati linguistici^[7] necessari per un uso intensivo dei metodi statistici. Inoltre, i primi linguaggi standard di marcatura del testo (come l'XML) hanno migliorato il processo di creazione, uso e interscambio dei corpora: di fatto, oggi il computer permette di immagazzinare quantità di dati testuali prima inimmaginabili, e di interrogare in maniera avanzata il contenuto del corpus. Al contempo, tali linguaggi hanno reso possibile l'annotazione linguistica^[8] del testo su ampia scala, la quale consente di rappresentare in maniera esplicita e dettagliata la struttura e l'organizzazione linguistica del testo stesso, offrendo l'occasione per una riflessione rigorosa sulla natura dei dati annotati e sui modelli interpretativi più adatti per darne conto.

Classificazione

La scelta dei testi può essere fatta su criteri diversi.

Generalità

Il grado di generalità di un corpus dipende dalla misura in cui i suoi testi sono stati selezionati rispetto a varietà diverse di una lingua. I corpora specialistici sono orientati alla descrizione di una particolare varietà linguistica (sublanguage) o ad un ristretto dominio applicativo (si pensi al linguaggio giornalistico, infantile, giuridico, medico, ecc.); per questo motivo hanno il grado minimo di generalità. Al contrario, i testi dei corpora generali appartengono a diverse varietà linguistiche e sono selezionati per comporre il quadro descrittivo della lingua nel suo complesso. Si tratta, quindi, di corpora plurifunzionali che sono spesso progettati come risorse trasversali di riferimento per lo studio di una lingua, ad esempio come fonte di dati per sviluppare un dizionario. Spesso i corpora generali sono articolati in vari sottocorpora, ovvero in sottoinsiemi di testi che appartengono ad una particolare varietà.

Modalità

La grande diversità che caratterizza a tutti i livelli la lingua scritta e quella parlata rende la modalità (scritta e orale) di produzione dei testi un parametro estremamente rilevante per definire la fisionomia del corpus e anche deciderne gli usi più opportuni. Rispetto a questa dimensione possiamo suddividere i corpora in:

corpora di lingua scritta;
corpora di lingua parlata;
corpora misti.

I corpora di lingua scritta contengono solo testi prodotti originariamente in forma scritta, come libri o articoli di giornale, ecc. (si pensi, ad esempio, al Brown Corpus). I corpora di lingua parlata contengono solo testi originariamente prodotti in modalità orale e successivamente trascritti, come conversazioni spontanee, trasmissioni radiofoniche, ecc. (ad esempio il corpus CHILDES).

Da questi ultimi si distinguono i corpora audio, ovvero i campioni di linguaggio parlato in forma di segnale acustico, eventualmente accompagnati dalla loro trascrizione. Questi stanno acquistando sempre più importanza come strumenti per lo sviluppo di applicazioni per il riconoscimento o la sintesi automatica del parlato, in cui è necessario accedere a dati acustici. Un tipo di corpus ancora più di frontiera, ma in rapida diffusione, è il corpus multimediale (o corpus audio-visivo), che contiene le registrazioni audio-video di scambi comunicativi. Queste consentono di acquisire dati importanti non solo sulla struttura linguistica, ma anche sugli aspetti gestuali, facciali, emozionali e ambientali della comunicazione. I corpora misti contengono in proporzioni variabili sia testi prodotti in modalità scritta sia trascrizioni di lingua parlata (ad esempio è composto in questo modo il British National Corpus).

Cronologia

I corpora differiscono anche per il modo in cui i testi sono selezionati rispetto all'asse temporale. In base alla cronologia è possibile distinguere corpora sincronici e corpora diacronici. I corpora sincronici includono testi che appartengono a una stessa finestra temporale, selezionata per lo studio di una particolare fase della lingua. I corpora diacronici comprendono, invece, testi appartenenti a periodi diversi, con lo scopo di descrivere il mutamento linguistico.

Lingua

In base alla lingua esistono corpora monolingui e corpora bilingui (o multilingui), che possono essere ulteriormente distinti in corpora paralleli e corpora comparabili. I corpora monolingui contengono testi di una sola lingua. I corpora bilingui (o multilingui) contengono testi di due (o più) lingue. I corpora paralleli comprendono testi sia nella loro lingua originaria sia in traduzione in un'altra lingua. Se le unità linguistiche dei testi nella loro lingua originaria sono esplicitamente collegate alle unità linguistiche nei testi in traduzione in un'altra lingua che ne costituiscono le traduzioni, si parla di corpora paralleli allineati: l'unità tipica di allineamento è la frase. I corpora comparabili non contengono, invece, testi in traduzione, ma testi originali in lingue diverse. Questi corpora permettono di confrontare due o più lingue rispetto allo stesso genere testuale o dominio tematico; dal momento che i testi sono tutti originali, i dati raccolti possiedono un maggiore grado di naturalezza, evitando le artificiosità che talvolta conseguono dall'opera di traduzione.

Integrità

I corpora possono contenere testi interi oppure porzioni di testi di lunghezza prefissata. Ad esempio, il Brown Corpus include campioni di 2000 parole, mentre i testi in "Parole" e in "Coris" sono integrali.

Codifica digitale dei testi

Un ulteriore elemento di differenziazione tra corpora è il modo in cui sono rappresentati i testi digitali. Nei corpora codificati ad alto livello i testi sono arricchiti con etichette (codici) che rendono espliciti vari tipi di informazione, come ad esempio la struttura testuale e la composizione. Tipi particolari di corpora codificati sono i corpora annotati, nei quali le informazioni codificate riguardano la struttura linguistica del testo a livelli diversi di rappresentazione.

Bilanciamento

Nella linguistica dei corpora il bilanciamento è assunto come condizione essenziale per garantire la rappresentatività di un corpus che voglia essere plurifunzionale e trasversale rispetto alle diverse varietà di una lingua. Il bilanciamento presuppone la creazione di una descrizione accurata della popolazione linguistica di riferimento: è necessario dunque definire una mappa della lingua tracciando i confini spaziali e temporali (quali testi sono inclusi o esclusi dalla popolazione) e la tipologia dei testi (l'articolazione in strati della popolazione). Un bilanciamento corretto richiede una quantità consistente di testi selezionati per le diverse tipologie individuate nella popolazione. Se la selezione dei testi di un corpus è fatta bene, esso è ben bilanciato e quindi può essere rappresentativo.

Rappresentatività

È rappresentativo un corpus che tiene traccia dell'intero ambito di variabilità dei tratti e delle proprietà di una lingua. Ciò significa che un corpus deve fornire un modello delle proprietà linguistiche del linguaggio analizzato, ovvero deve essere in grado di restituire un quadro delle varietà e delle tendenze linguistiche nel modo più accurato possibile, rispettandone le proporzioni e permettendo, in questo modo, di generalizzare le proprietà linguistiche del corpus all'intera popolazione^[9]. Tuttavia non si può dimostrare che un corpus sia veramente rappresentativo di una determinata sezione del linguaggio e di conseguenza le informazioni ricavate dall'analisi di un corpus devono essere considerate al massimo delle ragionevoli assunzioni.

Dimensione

La dimensione del corpus è determinata dal numero di parole contenute nel corpus stesso, per quanto riguarda i corpora di lingua scritta, e dal numero di ore di registrazione, per quanto riguarda i corpora di lingua parlata. È possibile distinguere corpus chiusi e corpus aperti. Il primo rappresenta il corpus standard tradizionale, in cui la quantità dei testi e delle parole è prefissata all'inizio del progetto. I corpora chiusi ci restituiscono una sorta di “fotografia” di una lingua attraverso i testi selezionati, ma non sono adatti a seguire i mutamenti e le evoluzioni che in una lingua avvengono come conseguenza della sua natura intrinsecamente dinamica. Per superare questo limite, John McHardy Sinclair ha proposto di estendere la nozione tradizionale di corpus in uno strumento di monitoraggio linguistico. Un corpus di monitoraggio (monitor corpus) è una collezione “aperta” di testi che muta nel tempo, introducendo nuovi testi selezionati secondo gli stessi criteri usati per determinare la collezione iniziale. Questo tipo di corpus permette per esempio di monitorare le dinamiche del lessico della lingua e dunque può essere usato in contesti lessicografici come fonte di dati per mantenere aggiornati i dizionari.

Evoluzione

I corpora di prima generazione, negli anni sessanta e settanta contenevano milioni di parole. Negli anni ottanta e novanta, nei corpora di seconda generazione, troviamo decine di milioni di parole; dopo il 2000 si contano centinaia di milioni di parole. Nei corpora di ultima generazione, oggi si contano miliardi di parole.

“I linguisti da sempre hanno utilizzato la parola corpus per descrivere una raccolta di esempi di uso naturale di una lingua, costituita a partire da poche frasi fino ad una serie di testi scritti o registrazioni, raccolti per condurre studi linguistici.” (Hunston, 2002: 2)
“Una raccolta di testi scritti e/o parlati archiviati su un computer e adoperati per la ricerca linguistica e per scrivere dizionari.” (Macmillan English Dictionary, Second Edition, 2008)
“Insieme di testi parlati o scritti utilizzati per compiere ricerche finalizzate a stabilire determinate caratteristiche del codice linguistico in esame e del suo uso.” (Corda, Marello 2004: 220)

Tipologia

I corpora possono derivare dalla lingua scritta o dalla lingua parlata. Esempi di corpora di lingua scritta sono i libri, i giornali, le riviste e le pagine web. Le conversazioni telefoniche o faccia a faccia, invece, rappresentano corpus di lingua parlata.

Corpora di lingua italiana

Corpora di lingua italiana scritta

Parole

Corpus di riferimento bilanciato sincronico, dell'italiano scritto contemporaneo. Il corpus è stato sviluppato nel progetto europeo “Parole” ed è comparabile con altri corpora per lingue europee.

CORIS/CODIS

Il Corpus di Italiano Scritto contemporaneo (CORIS/CODIS) è un corpus di riferimento bilanciato sincronico dell'italiano scritto contemporaneo. Si tratta di un progetto iniziato nel 1998 dall'Università di Bologna, ideato e coordinato da R. Rossini Favretti e Fabio Tamburini. CORIS/CODIS contiene 130 milioni di parole, e viene aggiornato con cadenza triennale tramite un corpus di monitoraggio. È costituito da una raccolta di testi autentici e ricorrenti nell'uso, selezionati come rappresentativi dell'italiano attuale. Il corpus generale è strutturato in sottocorpora, che rappresentano le diverse varietà dell'italiano scritto. Accanto al CORIS si aggiunge il Corpus Dinamico dell'Italiano Scritto (CODIS). Quest'ultimo permette la selezione di sottocorpora e contiene gli stessi materiali del Coris, ma l'interfaccia di ricerca consente di selezionarli per gruppi e con dimensioni variabili dei gruppi.

LIF

Il Lessico italiano di frequenza (LIF), elaborato al Centro Nazionale Universitario di Calcolo elettronico di Pisa nel 1971, rappresenta il primo grande progetto di costruzione di un lessico di frequenza per la lingua italiana. Esso è il risultato dello spoglio di un corpus di 500.000 occorrenze della lingua italiana contemporanea, dal quale sono stati ricavati dati statistici di diverso tipo su circa 5.000 lemmi. Il LIF è stato la base per la compilazione del Vocabolario di Base (VDB) della lingua italiana di Tullio De Mauro, che è composto, nella versione attuale, da 7.950 lemmi classificati in tre livelli.

LIZ

Letteratura Italiana Zanichelli (LIZ) è una banca dati testuale che comprende integralmente 1000 testi letterari italiani, dalle Laudes creaturarum di Francesco d'Assisi alle opere di Pirandello e D'Annunzio. Gli autori maggiori sono presenti con le opere complete, i minori con i testi più significativi. LIZ consente di fare un elevato numero di ricerche, producendo concordanze, co-occorrenze, ricerche sequenziali, liste di frequenza, indices locorum, rimari, indici inversi ecc.

TLIO

Il Tesoro della lingua italiana delle origini (TLIO) è un database testuale composto da circa 1.780 testi per circa 20 milioni di parole, tratte da scritti in lingua italiana prima del 1375, in prosa e in poesia. Basato sul corpus testuale dell'italiano antico dell'OVI (Opera del Vocabolario Italiano), il TLIO è nato nel 1995 ed è stato inaugurato nel 1998. Rappresenta, inoltre, la prima sezione cronologica del vocabolario storico italiano.

VELI

Il Vocabolario elettronico della lingua italiana (VELI) è un progetto nato nel 1989 e guidato da Tullio De Mauro. È costituito da circa 10.000 lessemi ordinati per frequenza nella lingua italiana, di cui sono possibili le consultazioni con analisi grammaticale, forme flesse, sinonimi e sillabazione.

CoLFIS

Il Corpus e Lessico di Frequenza dell'Italiano Scritto (CoLFIS) è stato costruito da Bertinetto, Burani, Laudanna, Marconi, Ratti, Rolando e Thornthon. È costituito da 3.150.075 occorrenze lessicali tratte da quotidiani del periodo 1992 - 1994 ('La Repubblica', 'La Stampa', Corriere della Sera), periodici e libri di varia natura. Nel campionare i testi, gli autori hanno ponderato i dati dell'ISTAT relativi alle letture preferite dagli italiani, per ottenere un corpus che fosse il più possibile rappresentativo di ciò che gli italiani effettivamente leggono. Il lessico di frequenza tratto dal corpus include due sottoparti: il formario e il lemmario. Il formario contiene la frequenza di ciascuna forma presente nel corpus, senza distinguere fra i vari lemmi a cui la forma si può ricondurre. Il lemmario contiene invece le frequenze delle forme lemmatizzate, cioè ricondotte al lemma di provenienza e indica, inoltre, la frequenza delle parole “sintagmatiche”. COLFIS si distingue dai precedenti lessici di frequenza per il bilanciamento delle fonti, che conferisce un carattere di non casualità alle rilevazioni numeriche estraibili dall'archivio lessicale, e per la sua ampiezza, nel senso che non esistono molti altri esempi di corpora di queste dimensioni interamente lemmatizzati.

La Repubblica

Questo corpus include le annate del quotidiano “La Repubblica” dal 1985 al 2000. Si tratta di un ampio corpus di italiano giornalistico composto da circa 380 milioni di tokens. Dalle macchine del LARL (Laboratorio di Analisi di Risorse Linguistiche) è possibile accedervi con username e password.

ItalNet

Si tratta di un corpus generale diacronico della lingua italiana scritta. ItalNet è un consorzio internazionale, fondato nel 1995, che organizza e distribuisce database ed altri materiali di ricerca pertinenti agli studi italianistici, rendendoli accessibili via Internet agli studiosi di tutto il mondo.

DiaCORIS

DiaCORIS è un corpus diacronico che comprende testi prodotti tra il 1861 e il 2001, suddivisi in periodi storici omogenei, rappresentativi della lingua italiana scritta. Può essere considerato come un'estensione della struttura e delle possibilità di ricerca del corpus sincronico dell'italiano scritto CORIS/CODIS.

SCRIPTA

Corpus non annotato, prodotto e mantenuto da un soggetto privato. Consente di eseguire ricerche lessicali ed elaborazioni statistiche su testi italiani di vario genere prodotti dal XIII secolo fino al presente. Attualmente è costituito da oltre 7000 testi di 1250 autori, per un totale di 240 milioni di parole.

Corpora di lingua italiana parlata

AVI/API/IPar

API/AVIP/IPar sono progetti di raccolta di materiale fonico spontaneo di lingua italiana, cui hanno partecipato variamente il laboratorio di linguistica della Scuola Normale Superiore di Pisa, il CIRASS e l'Istituto Orientale di Napoli, il Politecnico di Bari e l'Università del Piemonte Orientale.

CIT

Il Corpus di Italiano Televisivo (CIT) è una raccolta di testi trascritti in formato elettronico da trasmissioni televisive selezionate (sono state escluse le fiction, i film, i telefilm, gli sceneggiati, le telenovelas, ecc.), mirata all'analisi delle caratteristiche lessicali e grammaticali dell'italiano trasmesso in televisione. Composto da 250.000 parole e successivamente programmato un ampliamento del corpus a 500.000 parole, il progetto ha avuto inizio nell'agosto 1998 e si propone di affiancare gli altri corpora elettronici dell'italiano che sono stati creati, specialmente in questi ultimi anni, per permettere di effettuare analisi linguistiche dell'italiano contemporaneo fondate su dati quantitativi strutturati e affidabili.

CLIPS

Corpora Linguistici per l'Italiano Parlato e Scritto (CLIPS) rappresenta il corpus audio dell'italiano parlato di varie tipologie (dialogico, letto, parlato televisivo, conversazioni telefoniche e corpora speciali), bilanciato dal punto di vista diafasico e diatopico. È il secondo degli otto progetti del Cluster C18 "LINGUISTICA COMPUTAZIONALE: RICERCHE MONOLINGUI E MULTILINGUI", finanziato dal Ministero dell'Istruzione, dell'Università e della Ricerca (MIUR). È costituito da circa 100 ore di parlato, equamente ripartito tra voci maschili e voci femminili, in parte trascritto ortograficamente ed etichettato foneticamente. Le registrazioni sono state effettuate in quindici località italiane scelte in base a criteri di rappresentatività linguistica e socioeconomica: Bari, Bergamo, Bologna, Cagliari, Catanzaro, Firenze, Genova, Lecce, Milano, Napoli, Palermo, Parma, Perugia, Roma, Venezia. Per ogni località è stato raccolto il parlato radiotelevisivo, quello dialogico, quello letto da parlanti non professionisti, quello telefonico e quello letto da 20 parlanti professionisti e registrato in camera anecoica.

LABLITA

Il Laboratorio Linguistico del Dipartimento di Italianistica (LABLITA) è nato nel 1973 e si occupa della raccolta e gestione di corpora con lo standard di trascrizione chat. Il fine è quello di studiare la lingua italiana orale sulla base di corpora di parlato spontaneo e conduce ricerche teoriche e sperimentali sull'intonazione dell'italiano. In questo corpus i testi sono trascritti, ma l'audio è disponibile in formato digitalizzato (wav).

LIP

Il Lessico di frequenza dell'italiano parlato (LIP) costituisce la raccolta di testi dell'italiano parlato più importante e più utilizzata nella ricerca linguistica ed è la controparte del LIF per l'italiano parlato. Il corpus, costituito come il primo lessico di frequenza dell'italiano parlato nel 1990-1992, da un gruppo di linguisti diretto da Tullio De Mauro, è composto da circa 500.000 parole grafiche, trascrizioni di registrazioni effettuate a Milano, Firenze, Roma e Napoli, pari a quasi 57 ore di parlato. I lemmi dei suoi 469 testi furono raccolti in quattro città (Milano, Firenze, Roma e Napoli) e sono consultabili secondo frequenza e secondo ordine alfabetico.

Corpora di lingua italiana trasmessa

LIR

Il Lessico di frequenza dell'italiano radiofonico (LIR) è un corpus di circa 60 ore, trascritto ortograficamente e allineato all'audio mediante un apposito software, nato nel 1998. Gestito da LABLITA, LIR rappresenta un progetto di analisi del lessico e del corpus del parlato radiofonico.

Corpora di lingua inglese

Corpora di lingua inglese scritta

ANC

American National Corpus (ANC) è un progetto americano tarato con gli stessi criteri del British National Corpus (BNC). Il corpus contiene 100 milioni di parole divise per vari generi secondo le percentuali del BNC e tratte da testi scritti e da trascrizioni di parlato.

Brown Corpus

Il Brown Corpus of Standard American English (Brown Corpus) è un corpus di riferimento bilanciato sincronico della lingua inglese americana scritta, creato da W. N. Francis e H. Kucera nel 1961 e reso pubblico nel 1964 alla Brown University (Stati Uniti). Il corpus è costituito da 500 testi, presi da 15 categorie diverse, per un totale di un milione di parole. Dal momento che è stato il primo corpus linguistico elettronico dell'inglese americano, è stato probabilmente quello più usato nella ricerca. Oggi il Brown Corpus è accorpato all'insieme dell'ICAME.

LOB

Il Lancaster-Oslo/Bergen Corpus (LOB) contiene circa un milione di parole in inglese britannico, in testi che partono dal 1961. Il corpus è stato tarato per essere il corrispondente britannico del Brown Corpus e contiene 500 testi di circa 2.000 parole divisi in 15 categorie diverse. È disponibile sia annotato (per parti del discorso) sia non annotato ed è distribuito nell'insieme di corpora ICAME.

OTA

The Oxford Text Archive (OTA) è un database di testi elettronici letterari e scientifici e fornisce gratuitamente alcuni corpora di media grandezza.

Corpora di lingua inglese parlata

CIC

Il Cambridge International Corpus (CIC) è un database molto ampio, predisposto dalla Cambridge University Press. Comprende al suo interno il corpus di parlato inglese Cancode, composto di 5 milioni di parole; inoltre è costituito da circa 600 milioni di parole di inglese britannico e statunitense scritto e parlato, tratto da giornali, romanzi, saggi, trasmissioni tv e radio.

Corpora di lingua inglese scritta e parlata

ICAME

L'International Computer Archive of Modern and Medieval English (ICAME) è un corpus della lingua inglese, specificamente approntato per la ricerca linguistica, dal Norwegian Computing Centre for the Humanities (NCCH) di Bergen in Norvegia. Si tratta di un insieme di diversi corpora di inglese scritto e parlato.

BoE

Il Bank of English (BoE) è un corpus in continua espansione (monitor corpus) di testi scritti e parlati in inglese britannico. Il progetto procede insieme al lavoro lessicografico del Collins COBUILD English Dictionary for Advanced Learners (2001) e dell'Università di Birmingham.

BNC

Il British National Corpus (BNC) è un corpus misto, di riferimento bilanciato, sincronico, della lingua inglese britannica. È stato sviluppato tra il 1991 e il 1994 dalla Oxford University Press nel 1991. È composto da più di 100 milioni di parole, di cui il 90% deriva da testi in inglese contemporaneo scritti e il 10% da trascrizioni di parlato. Tutti i testi del corpus sono etichettati per parti del discorso (65 categorie classificate mediante il programma automatico "Claws" dell'Università di Lancaster).

Corpora di lingua francese

Corpora di lingua francese scritta

BDLEX

BDLEX (Lexical Data and Knowledge Base of Spoken and Written French) è una banca dati costituita da circa 440.000 parole (per 50.000 lemmi).

Corpora di lingua francese parlata

BREF

BREF è un corpus di parlato continuo, ma non spontaneo, composto da testi tratti dal quotidiano francese Le Monde, letti ad alta voce da 120 diversi speaker.

Corpora di lingua spagnola

Corpora di lingua spagnola scritta e parlata

Corpus del español

Il Corpus del español è stato ideato e gestito da Mark Davies e mette insieme una serie di corpora di origine diversa preparati negli anni. Contiene 100 milioni di parole di lingua spagnola scritta e orale dal 1200 ad oggi.

CREA

Il Corpus de Referencia de la Lengua Española Contemporánea (CREA) della Real Academia Española è costituito da 100 milioni di parole tratte da testi] scritti e parlati (trascritti) dal 1975 ad oggi.

Corpora di lingua tedesca

Corpora di lingua tedesca scritta

COSMAS

COSMAS I e II (Corpus Storage, Maintenance and Access System) è un corpus in sviluppo dal 1992, all'IDS (Institut für Deutsche Sprache) di Mannheim, che oggi conta circa 1.080 milioni di parole.

Negra Corpus

Negra Corpus è un progetto dell'Università della Saarland, relativo a testi degli anni novanta.

Corpora multilingui e paralleli

BAF

French - English Parallel Corpus (BAF) è un corpus di testi istituzionali paralleli (mutue traduzioni) di inglese e francese.

BoLC

Il Bononia Legal Corpus (BoLC) è un corpus di testi giuridici in lingua italiana e inglese. È il risultato di un progetto di ricerca finalizzato alla costruzione ed all'analisi di corpora giuridici paralleli e comparabili. Il progetto è stato ideato nel 1997, sviluppato all'Università di Bologna e coordinato da R. Rossini Favretti e Fabio Tamburini.

CALLHOME

CALLHOME è un corpus multilingue di parlato conversazionale, che copre spagnolo, cinese, giapponese, inglese americano, tedesco ed arabo.

CHILDES

Child Language Data Exchage System (CHILDES) è un progetto finalizzato alla composizione di un corpus del parlato dei bambini, delle conversazioni con bambini e di alcune patologie del linguaggio.

C-Oral-Rom

C-Oral-Rom è un corpus audio della lingua parlata spontanea. Il corpus è stato realizzato nel progetto europeo C-Oral-Rom ed è comparabile con altri corpora di spagnolo, francese e portoghese.

Crater

Crater è un corpus trilingue di inglese, francese e spagnolo.

ECI/MCI

European Corpus Initiative Multilingual Corpus (ECI/MCI) è nato nel 1994 con l'obiettivo di creare e diffondere il corpus multilingue.

INTERSECT

INTERSECT (International Sample of English Contrastive Texts) è un progetto dell'Università di Brighton per la costruzione e l'analisi di testi scritti paralleli Inglese-Francese.

MULTEX

MULTEXT (Multilingual Text Tools and Corpora) è un corpus specialistico multilingue (inglese, francese, tedesco, spagnolo, italiano) parallelo. I testi sono tratti dall'“Official Journal of the European Community”. L'obiettivo è quello di definire standard per la codifica dei corpora, per lo sviluppo di strumenti applicativi e risorse multilingui.

Real Parallel Corpus

Real Parallel Corpus (German-English Translation Corpus) raccoglie testi paralleli in inglese (americano e britannico) e tedesco.

TRIPTIC

TRIPTIC (TRIlingual Parallel Text Information Corpus) è un corpus di inglese, francese e olandese composto da circa 2 milioni di parole, in testi paralleli allineati.

TRACTOR

TRACTOR (TELRI Research Archive of Computational Tools and Resources) è un progetto mantenuto dal Centre for Corpus linguistics dell'Università di Birmingham. Si tratta di un archivio di materiali e software per l'analisi di corpora. Tra le lingue trattate ci sono le principali lingue europee e anche il bulgaro, il ceco, le lingue baltiche, il rumeno, il russo e altre.

Tatoeba

Tatoeba è un corpus parallelo open source che raccoglie frasi in 90 differenti lingue, di cui le prime dieci per importanza sono costituite da inglese, giapponese, esperanto, francese, tedesco, spagnolo, polacco, cinese mandarino, russo e italiano

Altri corpora internazionali usati

CHC

Il Canadian Hansards Corpus (CHC) è un corpus specialistico bilingue (inglese e francese canadese) parallelo, i cui testi sono tratti dagli atti del Parlamento canadese.

Switchboard Corpus

Lo Switchboard Corpus è un corpus specialistico dell'inglese americano. Basato sulle conversazioni telefoniche, è usato per addestrare i programmi per il riconoscimento automatico del parlato.

HCRC Map Task Corpus

L'HCRC Map Task Corpus è un corpus audio di dialoghi semi-spontanei raccolti col metodo “map task” da parlanti adulti di inglese britannico.

Note

^ Dizionario De Mauro, voce Corpus
^ Dizionario Sabatini-Coletti, voce [Raccolta completa di testi e di opere costituita secondo un particolare criterio Corpus].
^ È un'opera monumentale realizzata da una commissione di giuristi diretta da Triboniano, voluta dall'imperatore Giustiniano (527-565) per riordinare il sistema giuridico dell'imperatore. La raccolta è divisa in tre parti: le Istituzioni, che espongono i principi generali del diritto; il Digesto, che contiene gli scritti dei giuristi classici; il Codice, che raccoglie le leggi promulgate dagli imperatori romani, a partire da Adriano.
^ È una raccolta di iscrizioni latine sino alla caduta dell'impero di Roma, di qualsiasi natura (pubblica, sacra, sepolcrale, onoraria, rupestre, graffiti etc.), e su ogni supporto epigrafico (per lo più pietra e bronzo) tranne che su papiro.
^ Le concordanze rappresentano una lista delle occorrenze di una parola presenti in un contesto linguistico.
^ Trattamento Automatico del Linguaggio Naturale.
^ Rappresentano i prodotti del linguaggio che sono oggetto di un processo di analisi, e che formano l'evidenza empirica su cui fondare lo sviluppo di modelli e teorie linguistiche. Fra le fonti dei dati linguistici, troviamo dati linguistici controllati (raccolti in contesti sperimentali e in situazioni idealizzate), i quali si basano sulle intuizioni linguistiche dei parlanti; dati linguistici ecologici, nati da osservazioni degli usi linguistici in contesti e situazioni reali, fondati appunto su testi prodotti dai parlanti; testi, ovvero qualsiasi prodotto dell'attività linguistica dei parlanti, elaborato o trascritto come sequenza di caratteri.
^ Annotare un corpus significa aggiungere a un corpus codici che rendono esplicita e machine readable l'informazione relativa alla struttura linguistica del testo. È possibile individuare diversi livelli di annotazione linguistica: oltre alla lemmatizzazione, quella sintattica, morfosintatica, semantica, fonetica (per quanto riguarda i corpora di parlato) e così via.
^ Popolazione linguistica: linguaggio oggetto di studio.

Bibliografia

Alessandro Lenci, Simonetta Montemagni, Vito Pirrelli. Testo e computer. ISBN 88-430-3425-1. Carocci Editore, Roma, 2005
Cresti Emanuela, Panunzi Alessandro. Introduzione ai corpora dell'italiano, Il Mulino, Bologna, 2013.
Stefania Spina. Fare i conti con le parole. Introduzione alla linguistica dei corpora. Perugia, Guerra, 2001

Altri progetti

Wikimedia Commons contiene immagini o altri file su corpus

Collegamenti esterni

CORIS/CODIS, su corpora.ficlit.unibo.it.
DiaCORIS, su corpora.ficlit.unibo.it.
LIZ, su zanichelli.it. URL consultato il 22 gennaio 2009 (archiviato dall'url originale il 31 dicembre 2008).
TLIO, su tlio.ovi.cnr.it.
CoLFIS, su linguistica.sns.it.
La Repubblica, su dev.sslmit.unibo.it. URL consultato il 6 febbraio 2009 (archiviato dall'url originale l'8 maggio 2009).
ItalNet, su italnet.nd.edu. URL consultato il 4 febbraio 2009 (archiviato dall'url originale l'11 maggio 2009).
API, su parlaritaliano.it. URL consultato il 7 febbraio 2009 (archiviato dall'url originale il 3 maggio 2008).
CIT - non più disponibile
CLIPS, su clips.unina.it.
LABLITA, su lablita.dit.unifi.it. URL consultato il 19 gennaio 2009 (archiviato dall'url originale il 6 ottobre 2008).
LIP, su languageserver.uni-graz.at. URL consultato il 22 gennaio 2009 (archiviato dall'url originale il 13 dicembre 2008).
SCRIPTA, su parolescritte.it.
LIR ^{[collegamento interrotto]}, su bebina.net.
BoLC, su corpora.ficlit.unibo.it.
ANC, su americannationalcorpus.org. URL consultato il 22 gennaio 2009 (archiviato dall'url originale il 1º febbraio 2009).
BoE, su www2.lingsoft.fi. URL consultato il 22 gennaio 2009 (archiviato dall'url originale il 17 aprile 2018).
BNC, su corpus.byu.edu.
Brown Corpus, su khnt.hit.uib.no. URL consultato il 4 febbraio 2009 (archiviato dall'url originale il 30 gennaio 2009).
ICAME, su icame.uib.no.
CIC, su cambridge.org.
LOB, su khnt.hit.uib.no. URL consultato il 4 febbraio 2009 (archiviato dall'url originale il 21 giugno 2008).
OTA, su ota.ox.ac.uk. URL consultato il 22 gennaio 2009 (archiviato dall'url originale il 16 gennaio 2009).
BDLEX, su elda.fr. URL consultato il 22 gennaio 2009 (archiviato dall'url originale il 10 febbraio 2009).
BREF, su elda.fr. URL consultato il 22 gennaio 2009 (archiviato dall'url originale il 3 febbraio 2009).
CORPUS DE L'ESPANOL, su corpusdelespanol.org.
CREA, su corpus.rae.es.
Tatoeba, su tatoeba.org.
COSMAS, su ids-mannheim.de. URL consultato il 22 gennaio 2009 (archiviato dall'url originale il 10 febbraio 2009).
Negra Corpus, su coli.uni-saarland.de. URL consultato il 22 gennaio 2009 (archiviato dall'url originale il 23 luglio 2007).
BAF, su rali.iro.umontreal.ca. URL consultato il 22 gennaio 2009 (archiviato dall'url originale il 29 ottobre 2009).
BoLC, su corpora.dslo.unibo.it.
CHILDES, su childes.psy.cmu.edu. URL consultato il 22 gennaio 2009 (archiviato dall'url originale l'11 dicembre 2012).
C-Oral-Rom, su lablita.dit.unifi.it. URL consultato il 22 gennaio 2009 (archiviato dall'url originale il 1º febbraio 2009).
CRATER, su comp.lancs.ac.uk. URL consultato il 22 gennaio 2009 (archiviato dall'url originale il 15 febbraio 2009).
ECI/MCI, su elsnet.org.
MULTEXT, su aune.lpl.univ-aix.fr. URL consultato il 22 gennaio 2009 (archiviato dall'url originale il 17 marzo 2009).
Real Parallel Corpus, su athel.com.
TRIPTIC, su engl.polyu.edu.hk. URL consultato il 7 febbraio 2009 (archiviato dall'url originale l'11 febbraio 2005).
TRACTOR, su tractor.bham.ac.uk. URL consultato il 7 febbraio 2009 (archiviato dall'url originale il 30 gennaio 2009).
CHC, su isi.edu.
Switchboard Corpus, su isip.piconepress.com.
HCRC Map Task Corpus, su hcrc.ed.ac.uk.

Controllo di autorità	Thesaurus BNCF 37532 · LCCN (EN) sh2006006393 · GND (DE) 4165338-5 · BNF (FR) cb15997252r (data) · J9U (EN, HE) 987007532708705171

Portale Neuroscienze: accedi alle voci di Wikipedia che trattano di neuroscienze

[1] Dizionario De Mauro, voce Corpus

[2] Dizionario Sabatini-Coletti, voce [Raccolta completa di testi e di opere costituita secondo un particolare criterio Corpus].

[3] È un'opera monumentale realizzata da una commissione di giuristi diretta da Triboniano, voluta dall'imperatore Giustiniano (527-565) per riordinare il sistema giuridico dell'imperatore. La raccolta è divisa in tre parti: le Istituzioni, che espongono i principi generali del diritto; il Digesto, che contiene gli scritti dei giuristi classici; il Codice, che raccoglie le leggi promulgate dagli imperatori romani, a partire da Adriano.

[4] È una raccolta di iscrizioni latine sino alla caduta dell'impero di Roma, di qualsiasi natura (pubblica, sacra, sepolcrale, onoraria, rupestre, graffiti etc.), e su ogni supporto epigrafico (per lo più pietra e bronzo) tranne che su papiro.

[5] Le concordanze rappresentano una lista delle occorrenze di una parola presenti in un contesto linguistico.

[6] Trattamento Automatico del Linguaggio Naturale.

[7] Rappresentano i prodotti del linguaggio che sono oggetto di un processo di analisi, e che formano l'evidenza empirica su cui fondare lo sviluppo di modelli e teorie linguistiche. Fra le fonti dei dati linguistici, troviamo dati linguistici controllati (raccolti in contesti sperimentali e in situazioni idealizzate), i quali si basano sulle intuizioni linguistiche dei parlanti; dati linguistici ecologici, nati da osservazioni degli usi linguistici in contesti e situazioni reali, fondati appunto su testi prodotti dai parlanti; testi, ovvero qualsiasi prodotto dell'attività linguistica dei parlanti, elaborato o trascritto come sequenza di caratteri.

[8] Annotare un corpus significa aggiungere a un corpus codici che rendono esplicita e machine readable l'informazione relativa alla struttura linguistica del testo. È possibile individuare diversi livelli di annotazione linguistica: oltre alla lemmatizzazione, quella sintattica, morfosintatica, semantica, fonetica (per quanto riguarda i corpora di parlato) e così via.

[9] Popolazione linguistica: linguaggio oggetto di studio.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]