My account

login

registration

   Advertizing E▼


 » 
Arabic Bulgarian Chinese Croatian Czech Danish Dutch English Estonian Finnish French German Greek Hebrew Hindi Hungarian Icelandic Indonesian Italian Japanese Korean Latvian Lithuanian Malagasy Norwegian Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swedish Thai Turkish Vietnamese
Arabic Bulgarian Chinese Croatian Czech Danish Dutch English Estonian Finnish French German Greek Hebrew Hindi Hungarian Icelandic Indonesian Italian Japanese Korean Latvian Lithuanian Malagasy Norwegian Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swedish Thai Turkish Vietnamese

Definition and meaning of Corpus

Definition

definition of Wikipedia

   Advertizing ▼

Phrases

Ave Verum Corpus • Ave Verum Corpus (Mozart) • Ave Verum Corpus (testo) • Basilica del Corpus Domini • Chiesa del Corpus Christi • Chiesa del Corpus Domini (Firenze) • Chiesa del Corpus Domini (Montalcino) • Chiesa del Corpus Domini (Rapolano Terme) • Chiesa del Corpus Domini (Roma) • Chiesa del Corpus Domini (Siena) • Chiesa del Corpus Domini (Venezia) • Chiesa del Corpus Domini (disambigua) • Chiesa della Compagnia del Corpus Domini • Chiesa della Compagnia del Corpus Domini (Castiglione della Pescaia) • Chiesa della Compagnia del Corpus Domini (Seggiano) • Corpus Christi • Corpus Christi College • Corpus Christi College (Cambridge) • Corpus Christianorum • Corpus Dionysianum • Corpus Domini • Corpus Hippocraticum • Corpus Hypercubus • Corpus Inscriptionum Etruscarum • Corpus Inscriptionum Latinarum • Corpus Inscriptionum Semiticarum • Corpus Iuris Canonici • Corpus Nummorum Italicorum • Corpus Tibullianum • Corpus hermeticum • Corpus iuris civilis • Corpus separatum • Diocesi di Corpus Christi • El Corpus • Habeas Corpus (gruppo musicale) • Habeas corpus • Monastero del Corpus Domini

Wikipedia

Partecipa all'assemblea di Wikimedia Italia il 20 marzo a Pistoia

Corpus

Da Wikipedia, l'enciclopedia libera.

Un corpus è una collezione di testi selezionati e organizzati per facilitare le analisi linguistiche.Il termine è noto fin dai tempi più antichi; a tal proposito può essere utile pensare al Corpus Iuris Civilis[1], al Corpus Inscriptionum Latinarum[2] e a molti altri che sono andati sviluppandosi nel tempo. I corpora possono essere creati su carta oppure oralmente, ma oggi il ruolo del computer nell'uso dei corpora è diventato così cruciale che ormai il termine stesso di “corpus” è spesso sinonimo di “corpus elettronico”. Un esempio di corpus elettronico consultabile via web è quello riferito al quotidiano “La Repubblica”.Il settore della linguistica in cui vengono usati i corpora è anche noto come Linguistica dei corpora. Altre aree menzionabili in cui i corpora sono utilizzati: Linguistica storica e comparativa in Italia, Comparative grammar negli Stati Uniti, Comparative philology nel Regno Unito.

Indice

Linguistica dei Corpora

La linguistica dei corpora rappresenta una disciplina scientifica matura, che in cinquant'anni è riuscita a conquistare una posizione di indiscussa centralità nel panorama scientifico nazionale e internazionale, e in cui sono attivi ormai innumerevoli gruppi di ricerca.Servendosi di strumenti di analisi quantitativa e statistica, esplora le regolarità linguistiche che emergono dai testi e che costituiscono la base per la descrizione della struttura del linguaggio.L'obiettivo principale è quello di sviluppare modelli del funzionamento del linguaggio umano che possono essere tradotti in programmi eseguibili dal calcolatore e che gli consentono di acquisire le competenze necessarie per comunicare direttamente nella nostra lingua.Si tratta di un ambito di ricerca e di lavoro tipicamente interdisciplinare. Infatti, da un lato si intreccia con l'informatica e con l'ingegneria, per qualificare le attività rivolte allo sviluppo di applicazioni informatiche basate sulle tecnologie del linguaggio, mentre dall'altro lato essa dialoga, appunto, con la linguistica, le scienze cognitive, la psicologia, la filosofia e le scienze umane in generale, con le quali condivide l'obiettivo di indagare la struttura, il funzionamento e l'uso del linguaggio e il suo rapporto con le altre facoltà cognitive dell'uomo.

La storia

La linguistica dei corpora nasce nella seconda metà del Novecento, come disciplina di frontiera sia rispetto al mondo umanistico che rispetto alle applicazioni più centrali delle scienze dell'informazione.Tra i primi risultati della disciplina troviamo lo sviluppo di programmi per lo spoglio elettronico dei testi, il calcolo della frequenza delle parole, la compilazione di indici e concordanze[3] e la creazione di ripetitori lessicali elettronici, conosciuti anche come dizionari elettronici.Negli anni cinquanta e sessanta Roberto Busa S. J. realizza il primo corpus elettronico delle opere di Tommaso D'Aquino presso il Centro per l'Automazione dell'Analisi Linguistica di Gallarate: si tratta di un corpus di circa 10 milioni di parole, una cifra enorme per le capacità dei computer del tempo.Nel 1957, parallelamente al diffondersi della grammatica generativa, in area anglosassone ha continuato a svilupparsi una tradizione di ricerca linguistica ancorata ad una metodologia di derivazione empirista, che fonda l'indagine linguistica sulla raccolta e l'analisi di corpora.Successivamente, nel 1964, alla Brown University negli Stati Uniti, Henry Kucera e W. Nelson Francis realizzano il primo corpus elettronico progettato e costruito per lo studio di una particolare varietà linguistica contemporanea, nel caso specifico l'inglese americano degli anni sessanta: il Brown Corpus, lungo circa 1 milione di parole.La dimensione dei corpora è andata sempre più crescendo e la loro disponibilità è diventata una variabile fondamentale in ogni fase di sviluppo e di valutazione degli strumenti per il TAL[4]. Al tempo stesso, la crescita del web, con la sua grande quantità di materiale testuale multiforme e in continua evoluzione, ha reso necessario lo sviluppo di tecnologie linguistiche in grado di confrontarsi con testi reali e non più con testi da laboratorio.La crescente disponibilità di corpora testuali ha facilitato l'innovazione metodologica in linguistica dei corpora, fornendo i dati linguistici[5] necessari per un uso intensivo dei metodi statistici. Inoltre, l'emergere dei linguaggi standard di marcatura del testo come XML, ha migliorato il processo di creazione, uso e interscambio dei corpora: oggi, infatti, il computer permette di immagazzinare quantità di dati testuali prima inimmaginabili e di interrogare in maniera avanzata il contenuto del corpus. Al tempo stesso, ha reso possibile l'annotazione linguistica[6] del testo su ampia scala, che consente di rappresentare in maniera esplicita e dettagliata la struttura e l'organizzazione linguistica del testo stesso, offrendo l'occasione per una riflessione rigorosa sulla natura dei dati annotati e sui modelli interpretativi più adatti per darne conto.

Classificazione

La scelta dei testi può essere fatta su criteri diversi.

Generalità

Il grado di generalità di un corpus dipende dalla misura in cui i suoi testi sono stati selezionati rispetto a varietà diverse di una lingua.I corpora specialistici sono orientati alla descrizione di una particolare varietà linguistica (sublanguage) o ad un ristretto dominio applicativo (si pensi al linguaggio giornalistico, infantile, giuridico, medico, ecc.); per questo motivo hanno il grado minimo di generalità.Al contrario, i testi dei corpora generali appartengono a diverse varietà linguistiche e sono selezionati per comporre il quadro descrittivo della lingua nel suo complesso. Si tratta, quindi, di corpora plurifunzionali che sono spesso progettati come risorse traversali di riferimento per lo studio di una lingua, ad esempio come fonte di dati per sviluppare un dizionario. Spesso i corpora generali sono articolati in vari sottocorpora, ovvero in sottoinsiemi di testi che appartengono ad una particolare varietà.

Modalità

La grande diversità che caratterizza a tutti i livelli la lingua scritta e quella parlata rende la modalità (scritta e orale) di produzione dei testi un parametro estremamente rilevante per definire la fisionomia del corpus e anche deciderne gli usi più opportuni. Rispetto a questa dimensione possiamo suddividere i corpora in:

  • corpora di lingua scritta;
  • corpora di lingua parlata;
  • corpora misti.

I corpora di lingua scritta contengono solo testi prodotti originariamente in forma scritta, come libri o articoli di giornale, ecc. (si pensi, ad esempio, al Brown Corpus).I corpora di lingua parlata contengono solo testi originariamente prodotti in modalità orale e successivamente trascritti, come conversazioni spontanee, trasmissioni radiofoniche, ecc. (ad esempio il corpus CHILDES).

Da questi ultimi si distinguono i corpora audio, ovvero i campioni di linguaggio parlato in forma di segnale acustico, eventualmente accompagnati dalla loro trascrizione. Questi stanno acquistando sempre più importanza come strumenti per lo sviluppo di applicazioni per il riconoscimento o la sintesi automatica del parlato, in cui è necessario accedere a dati acustici.Un tipo di corpus ancora più di frontiera, ma in rapida diffusione, è il corpus multimediale (o corpus audio-visivo), che contiene le registrazioni audio-video di scambi comunicativi. Queste consentono di acquisire dati importanti non solo sulla struttura linguistica, ma anche sugli aspetti gestuali, facciali, emozionali e ambientali della comunicazione.I corpora misti contengono in proporzioni variabili sia testi prodotti in modalità scritta sia trascrizioni di lingua parlata (ad esempio è composto in questo modo il British National Corpus).

Cronologia

I corpora differiscono anche per il modo in cui i testi sono selezionati rispetto all'asse temporale.In base alla cronologia è possibile distinguere corpora sincronici e corpora diacronici.I corpora sincronici includono testi che appartengono a una stessa finestra temporale, selezionata per lo studio di una particolare fase della lingua.I corpora diacronici comprendono, invece, testi appartenenti a periodi diversi, con lo scopo di descrivere il mutamento linguistico.

Lingua

In base alla lingua esistono corpora monolingui e corpora bilingui (o multilingui), che possono essere ulteriormente distinti in corpora paralleli e corpora comparabili. I corpora monolingui contengono testi di una sola lingua.I corpora bilingui (o multilingui) contengono testi di due (o più) lingue.I corpora paralleli comprendono testi sia nella loro lingua originaria sia in traduzione in un'altra lingua. Se le unità linguistiche dei testi nella loro lingua originaria sono esplicitamente collegate alle unità linguistiche nei testi in traduzione in un'altra lingua che ne costituiscono le traduzioni, si parla di corpora paralleli allineati: l'unità tipica di allineamento è la frase.I corpora comparabili non contengono, invece, testi in traduzione, ma testi originali in lingue diverse. Questi corpora permettono di confrontare due o più lingue rispetto allo stesso genere testuale o dominio tematico; dal momento che i testi sono tutti originali, i dati raccolti possiedono un maggiore grado di naturalezza, evitando le artificiosità che talvolta conseguono dall'opera di traduzione.

Integrità

I corpora possono contenere testi interi oppure porzioni di testi di lunghezza prefissata. Ad esempio, il Brown Corpus include campioni di 2000 parole, mentre i testi in "Parole" e in "Coris" sono integrali.

Codifica digitale dei testi

Un ulteriore elemento di differenziazione tra corpora è il modo in cui sono rappresentati i testi digitali.Nei corpora codificati ad alto livello i testi sono arricchiti con etichette (codici) che rendono espliciti vari tipi di informazione, come ad esempio la struttura testuale e la composizione. Tipi particolari di corpora codificati sono i corpora annotati, nei quali le informazioni codificate riguardano la struttura linguistica del testo a livelli diversi di rappresentazione.

Bilanciamento

Nella linguistica dei corpora il bilanciamento è assunto come condizione essenziale per garantire la rappresentatività di un corpus che voglia essere plurifunzionale e traversale rispetto alle diverse varietà di una lingua.Il bilanciamento presuppone la creazione di una descrizione accurata della popolazione linguistica di riferimento: è necessario dunque definire una mappa della lingua tracciando i confini spaziali e temporali (quali testi sono inclusi o esclusi dalla popolazione) e la tipologia dei testi (l'articolazione in strati della popolazione).Un bilanciamento corretto richiede una quantità consistente di testi selezionati per le diverse tipologie individuate nella popolazione.Se la selezione dei testi di un corpus è fatta bene, esso è ben bilanciato e quindi può essere rappresentativo.

Rappresentatività

È rappresentativo un corpus che tiene traccia dell'intero ambito di variabilità dei tratti e delle proprietà di una lingua. Ciò significa che un corpus deve fornire un modello delle proprietà linguistiche del linguaggio analizzato, ovvero deve essere in grado di restituire un quadro delle varietà e delle tendenze linguistiche nel modo più accurato possibile, rispettandone le proporzioni e permettendo, in questo modo, di generalizzare le proprietà linguistiche del corpus all'intera popolazione[7].Tuttavia non si può dimostrare che un corpus sia veramente rappresentativo di una determinata sezione del linguaggio e di conseguenza le informazioni ricavate dall'analisi di un corpus devono essere considerate al massimo delle ragionevoli assunzioni.

Dimensione

La dimensione del corpus è determinata dal numero di parole contenute nel corpus stesso, per quanto riguarda i corpora di lingua scritta, e dal numero di ore di registrazione, per quanto riguarda i corpora di lingua parlata.È possibile distinguere corpus chiusi e corpus aperti.Il primo rappresenta il corpus standard tradizionale, in cui la quantità dei testi e delle parole è prefissata all'inizio del progetto. I corpora chiusi ci restituiscono una sorta di “fotografia” di una lingua attraverso i testi selezionati, ma non sono adatti a seguire i mutamenti e le evoluzioni che in una lingua avvengono come conseguenza della sua natura intrinsecamente dinamica. Per superare questo limite, John Sinclair ha proposto di estendere la nozione tradizionale di corpus in uno strumento di monitoraggio linguistico. Un corpus di monitoraggio (monitor corpus) è una collezione “aperta” di testi che muta nel tempo, introducendo nuovi testi selezionati secondo gli stessi criteri usati per determinare la collezione iniziale. Questo tipo di corpus permette per esempio di monitorare le dinamiche del lessico della lingua e dunque può essere usato in contesti lessicografici come fonte di dati per mantenere aggiornati i dizionari.

Evoluzione

I corpora di prima generazione, negli anni sessanta e Settanta contenevano milioni di parole.Negli anni ottanta e Novanta, nei corpora di seconda generazione, troviamo decine di milioni di parole; dopo il 2000 si contano centinaia di milioni di parole.Nei corpora di ultima generazione, oggi si contano miliardi di parole.

Tipologia

I corpora possono derivare dalla lingua scritta o dalla lingua parlata.Esempi di corpora di lingua scritta sono i libri, i giornali, le riviste e le pagine web.Le conversazioni telefoniche o faccia a faccia, invece, rappresentano corpus di lingua parlata.

Corpora di lingua italiana

Corpora di lingua italiana scritta

Parole

Corpus di riferimento bilanciato sincronico, dell'italiano scritto contemporaneo. Il corpus è stato sviluppato nel progetto europeo “Parole” ed è comparabile con altri corpora per lingue europee.

CORIS/CODIS

Il Corpus di Italiano Scritto contemporaneo (CORIS/CODIS) è un corpus di riferimento bilanciato sincronico dell'italiano scritto contemporaneo.Si tratta di un progetto iniziato nel 1998 dall'Università di Bologna, elaborato e coordinato da R. Rossini Favretti, con l'obiettivo di costruire un corpus generale dell'italiano scritto.Questo contiene 100 milioni di parole, tratte da una raccolta di testi contenenti prevalentemente narrativa prodotta negli anni ottanta e Novanta, in formato elettronico, selezionati come rappresentativi dell'italiano attuale; inoltre sarà aggiornato tramite un corpus di monitoraggio inglobato con cadenza biennale.Dal corpus generale si distinguono alcuni sottocorpora, rappresentanti delle diverse varietà dell'italiano scritto. Accanto al Coris si aggiunge il Corpus Dinamico dell'Italiano Scritto (Codis). Quest'ultimo permette la selezione di sottocorpora e contiene gli stessi materiali del Coris, ma l'interfaccia di ricerca consente di selezionarli per gruppi e con dimensioni variabili dei gruppi.

LIF

Il Lessico italiano di frequenza (LIF), elaborato al Centro Nazionale Universitario di Calcolo elettronico di Pisa nel 1971, rappresenta il primo grande progetto di costruzione di un lessico di frequenza per la lingua italiana. Esso è il risultato dello spoglio di un corpus di 500.000 occorrenze della lingua italiana contemporanea, dal quale sono stati ricavati dati statistici di diverso tipo su circa 5.000 lemmi.Il LIF è stato la base per la compilazione del Vocabolario di Base (VDB) della lingua italiana di Tullio De Mauro, che è composto, nella versione attuale, da 7.950 lemmi classificati in tre livelli.

LIZ

Letteratura Italiana Zanichelli (LIZ) è una banca dati testuale che comprende integralmente 1000 testi letterari italiani, dalle Laudes creaturarum di Francesco d'Assisi alle opere di Pirandello e D'Annunzio. Gli autori maggiori sono presenti con le opere complete, i minori con i testi più significativi.LIZ consente di fare un elevato numero di ricerche, producendo concordanze, co-occorrenze, ricerche sequenziali, liste di frequenza, indices locorum, rimari, indici inversi ecc.

TLIO

Il Tesoro della lingua italiana delle origini (TLIO) è un database testuale composto da circa 1.780 testi per circa 20 milioni di parole, tratte da scritti in lingua italiana prima del 1375, in prosa e in poesia. Basato sul corpus testuale dell'italiano antico dell'OVI (Opera del Vocabolario Italiano), il TLIO è nato nel 1995 ed è stato inaugurato nel 1998. Rappresenta, inoltre, la prima sezione cronologica del vocabolario storico italiano.

VELI

Il Vocabolario elettronico della lingua italiana (VELI) è un progetto nato nel 1989 e guidato da Tullio De Mauro. È costituito da circa 10.000 lessemi ordinati per frequenza nella lingua italiana, di cui sono possibili le consultazioni con analisi grammaticale, forme flesse, sinonimi e sillabazione.

CoLFIS

Il Corpus e Lessico di Frequenza dell'Italiano Scritto (CoLFIS) è stato costruito da costruito da Bertinetto, Burani, Laudanna, Marconi, Ratti, Rolando e Thornthon. È costituito da 3.150.075 occorrenze lessicali tratte da quotidiani del periodo 1992 - 1994 ('La Repubblica', 'La Stampa', 'Il Corriere della Sera'), periodici e libri di varia natura. Nel campionare i testi, gli autori hanno ponderato i dati dell'ISTAT relativi alle letture preferite dagli italiani, per ottenere un corpus che fosse il più possibile rappresentativo di ciò che gli italiani effettivamente leggono.Il lessico di frequenza tratto dal corpus include due sottoparti: il formario e il lemmario.Il formario contiene la frequenza di ciascuna forma presente nel corpus, senza distinguere fra i vari lemmi a cui la forma si può ricondurre.Il lemmario contiene invece le frequenze delle forme lemmatizzate, cioè ricondotte al lemma di provenienza e indica, inoltre, la frequenza delle parole “sintagmatiche”.COLFIS si distingue dai precedenti lessici di frequenza per il bilanciamento delle fonti, che conferisce un carattere di non casualità alle rilevazioni numeriche estraibili dall'archivio lessicale, e per la sua ampiezza, nel senso che non esistono molti altri esempi di corpora di queste dimensioni interamente lemmatizzati.

La Repubblica

Questo corpus include le annate del quotidianoLa Repubblica” dal 1985 al 2000.Si tratta di un ampio corpus di italiano giornalistico composto da circa 380 mila tokens. Dalle macchine del LARL (Laboratorio di Analisi di Risorse Linguistiche) è possibile accedervi con username e password.

ItalNet

Si tratta di un corpus generale diacronico della lingua italiana scritta.ItalNet è un consorzio internazionale, fondato nel 1995, che organizza e distribuisce database ed altri materiali di ricerca pertinenti agli studi italianistici, rendendoli accessibili via Internet agli studiosi di tutto il mondo.

Corpora di lingua italiana parlata

AVI/API/IPar

API/AVIP/IPar sono progetti di raccolta di materiale fonico spontaneo di lingua italiana, cui hanno partecipato variamente il laboratorio di linguistica della Scuola Normale Superiore di Pisa, il CIRASS e l'Orientale di Napoli, il Politecnico di Bari e l'Università del Piemonte Orientale.

CIT

Il Corpus di Italiano Televisivo (CIT) è una raccolta di testi trascritti in formato elettronico da trasmissioni televisive selezionate (sono state escluse le fiction, i film, i telefilm, gli sceneggiati, le telenovelas, ecc.), mirata all'analisi delle caratteristiche lessicali e grammaticali dell'italiano trasmesso in televisione. Composto da 250.000 parole e successivamente programmato un ampliamento del corpus a 500.000 parole, il progetto ha avuto inizio nell'agosto 1998 e si propone di affiancare gli altri corpora elettronici dell'italiano che sono stati creati, specialmente in questi ultimi anni, per permettere di effettuare analisi linguistiche dell'italiano contemporaneo fondate su dati quantitativi strutturati e affidabili.

CLIPS

Corpora Linguistici per l'Italiano Parlato e Scritto (CLIPS) rappresenta il corpus audio dell'italiano parlato di varie tipologie (dialogico, letto, parlato televisivo, conversazioni telefoniche e corpora speciali), bilanciato dal punto di vista diafasico e diatopico.È il secondo degli otto progetti del Cluster C18 "LINGUISTICA COMPUTAZIONALE: RICERCHE MONOLINGUI E MULTILINGUI", finanziato dal Ministero dell'Istruzione, dell'Università e della Ricerca (MIUR). È costituito da circa 100 ore di parlato, equamente ripartito tra voci maschili e voci femminili, in parte trascritto ortograficamente ed etichettato foneticamente. Le registrazioni sono state effettuate in quindici località italiane scelte in base a criteri di rappresentatività linguistica e socioeconomica: Bari, Bergamo, Bologna, Cagliari, Catanzaro, Firenze, Genova, Lecce, Milano, Napoli, Palermo, Parma, Perugia, Roma, Venezia. Per ogni località è stato raccolto il parlato radiotelevisivo, quello dialogico, quello letto da parlanti non professionisti, quello telefonico e quello letto da 20 parlanti professionisti e registrato in camera anecoica.

LABLITA

Il Laboratorio Linguistico del Dipartimento di Italianistica (LABLITA) è nato nel 1973 e si occupa della raccolta e gestione di corpora con lo standard di trascrizione chat.Il fine è quello di studiare la lingua italiana orale sulla base di corpora di parlato spontaneo e conduce ricerche teoriche e sperimentali sull'intonazione dell'italiano.In questo corpus i testi sono trascritti, ma l'audio è disponibile in formato digitalizzato (wav).

LIP

Il Lessico di frequenza dell'italiano parlato (LIP) costituisce la raccolta di testi dell'italiano parlato più importante e più utilizzata nella ricerca linguistica ed è la controparte del LIF per l'italiano parlato. Il corpus, costituito come il primo lessico di frequenza dell'italiano parlato nel 1990-1992, da un gruppo di linguisti diretto da Tullio De Mauro, è composto da circa 500.000 parole grafiche, trascrizioni di registrazioni effettuate a Milano, Firenze, Roma e Napoli, pari a quasi 57 ore di parlato. I lemmi dei suoi 469 testi furono raccolti in quattro città (Milano, Firenze, Roma e Napoli) e sono consultabili secondo frequenza e secondo ordine alfabetico.

Corpora di lingua italiana trasmessa

LIR

Il Lessico di frequenza dell'italiano radiofonico (LIR) è un corpus di circa 60 ore, trascritto ortograficamente e allineato all'audio mediante un apposito software, nato nel 1998.Gestito da LABLITA, LIR rappresenta un progetto di analisi del lessico e del corpus del parlato radiofonico.

Corpora di lingua inglese

Corpora di lingua inglese scritta

ANC

American National Corpus (ANC) è un progetto americano tarato con gli stessi criteri del British National Corpus (BNC). Il corpus contiene 100 milioni di parole divise per vari generi secondo le percentuali del BNC e tratte da testi scritti e da trascrizioni di parlato.

Brown Corpus

Il Brown Corpus of Standard American English (Brown Corpus) è un corpus di riferimento bilanciato sincronico della lingua inglese americana scritta, creato da W. N. Francis e H. Kucera nel 1961 e reso pubblico nel 1964 alla Brown University (Stati Uniti).Il corpus è costituito da 500 testi, presi da 15 categorie diverse, per un totale di un milione di parole.Dal momento che è stato il primo corpus linguistico elettronico dell'inglese americano, è stato probabilmente quello più usato nella ricerca.Oggi il Brown Corpus è accorpato all'insieme dell'ICAME.

LOB

Il Lancaster-Oslo/Bergen Corpus (LOB) contiene circa un milione di parole in inglese britannico, in testi che partono dal 1961. Il corpus è stato tarato per essere il corrispondente britannico del Brown Corpus e contiene 500 testi di circa 2.000 parole divisi in 15 categorie diverse. È disponibile sia annotato (per parti del discorso) sia non annotato ed è distribuito nell'insieme di corpora ICAME.

OTA

The Oxford Text Archive (OTA) è un database di testi elettronici letterari e scientifici e fornisce gratuitamente alcuni corpora di media grandezza.

Corpora di lingua inglese parlata

CIC

Il Cambridge International Corpus (CIC) è un database molto ampio, predisposto dalla Cambridge University Press. Comprende al suo interno il corpus di parlato inglese Cancode, composto di 5 milioni di parole; inoltre è costituito da circa 600 milioni di parole di inglese britannico e statunitense scritto e parlato, tratto da giornali, romanzi, saggi, trasmissioni tv e radio.

Corpora di lingua inglese scritta e parlata

ICAME

L'International Computer Archive of Modern and Medieval English (ICAME) è un corpus della lingua inglese, specificamente approntato per la ricerca linguistica, dal Norwegian Computing Centre for the Humanities (NCCH) di Bergen in Norvegia.Si tratta di un insieme di diversi corpora di inglese scritto e parlato.

BoE

Il Bank of English (BoE) è un corpus in continua espansione (monitor corpus) di testi scritti e parlati in inglese britannico. Il progetto procede insieme al lavoro lessicografico del Collins COBUILD English Dictionary for Advanced Learners (2001) e dell'Università di Birmingham .

BNC

Il British National Corpus (BNC) è un corpus misto, di riferimento bilanciato, sincronico, della lingua inglese britannica. È stato sviluppato tra il 1991 e il 1994 dalla Oxford University Press nel 1991.È composto da più di 100 milioni di parole, di cui il 90% deriva da testi in inglese contemporaneo scritti e il 10% da trascrizioni di parlato.Tutti i testi del corpus sono etichettati per parti del discorso (65 categorie classificate mediante il programma automatico "Claws" dell'Università di Lancaster).

Corpora di lingua francese

Corpora di lingua francese scritta

BDLEX

BDLEX (Lexical Data and Knowledge Base of Spoken and Written French) è una banca dati costituita da circa 440.000 parole (per 50.000 lemmi).

Corpora di lingua francese parlata

BREF

BREF è un corpus di parlato continuo, ma non spontaneo, composto da testi tratti dal quotidiano francese “Le Monde”, letti ad alta voce da 120 diversi speakers.

Corpora di lingua spagnola

Corpora di lingua spagnola scritta e parlata

Corpus del español

Il corpus del español è stato ideato e gestito da Mark Davies e mette insieme una serie di corpora di origine diversa preparati negli anni.Contiene 100 milioni di parole di lingua spagnola scritta e orale dal 1200 ad oggi.

CREA

Il Corpus de Referencia de la Lengua Española Contemporánea (CREA) della Real Academia Española è costituito da 100 milioni di parole tratte da testi] scritti e parlati (trascritti) dal 1975 ad oggi.

Corpora di lingua tedesca

Corpora di lingua tedesca scritta

COSMAS

COSMAS I e II (Corpus Storage, Maintenance and Access System) è un corpus in sviluppo dal 1992, all'IDS (Institut für Deutsche Sprache) di Mannheim, che oggi conta circa 1.080 milioni di parole.

Negra Corpus

Negra Corpus è un progetto dell'Università di Saarland, relativo a testi degli anni novanta.

Corpora multilingui e paralleli

BAF

French - English Parallel Corpus (BAF) è un corpus di testi istituzionali paralleli (mutue traduzioni) di inglese e francese.

BoLC

Il Bononia Legal Corpus (BoLC) è un corpus multilingue di testi giuridici di lingua italiana e inglese. Il progetto prevede l'estensione ad altre lingue ed è nato nel 1997, sviluppato al Centro Interfacoltà di Linguistica Teorica e Applicata “L. Heilmann” con la consulenza scientifica di John Sinclair e coordinato da R. Rossini Favretti; i supporti informatici, invece, sono stati sviluppati da Fabio Tamburini.

CALLHOME

CALLHOME è un corpus multilingue di parlato conversazionale, che copre spagnolo, cinese, giapponese, inglese americano, tedesco ed arabo.

CHILDES

Child Language Data Exchage System (CHILDES) è un progetto finalizzato alla composizione di un corpus del parlato dei bambini, delle conversazioni con bambini e di alcune patologie del linguaggio.

C-Oral-Rom

C-Oral-Rom è un corpus audio della lingua parlata spontanea. Il corpus è stato realizzato nel progetto europeo C-Oral-Rom ed è comparabile con altri corpora di spagnolo, francese e portoghese.

Crater

Crater è un corpus trilingue di inglese, francese e spagnolo.

ECI/MCI

European Corpus Initiative Multilingual Corpus (ECI/MCI) è nato nel 1994 con l'obiettivo di creare e diffondere il corpus multilingue.

INTERSECT

INTERSECT (International Sample of English Contrastive Texts) è un progetto dell'Università di Brighton per la costruzione e l'analisi di testi scritti paralleli Inglese-Francese.

MULTEX

MULTEXT (Multilingual Text Tools and Corpora) è un corpus specialistico multilingue (inglese, francese, tedesco, spagnolo, italiano) parallelo. I testi sono tratti dall'“Official Journal of the European Community”. L'obiettivo è quello di definire standard per la codifica dei corpora, per lo sviluppo di strumenti applicativi e risorse multilingui.

Real Parallel Corpus

Real Parallel Corpus (German-English Translation Corpus) raccoglie testi paralleli in inglese (americano e britannico) e tedesco.

TRIPTIC

TRIPTIC (TRIlingual Parallel Text Information Corpus) è un corpus di inglese, francese e olandese composto da circa 2 milioni di parole, in testi paralleli allineati.

TRACTOR

TRACTOR (TELRI Research Archive of Computational Tools and Resources) è un progetto mantenuto dal Centre for Corpus linguistics dell'Università di Birmingham. Si tratta di un archivio di materiali e software per l'analisi di corpora. Tra le lingue trattate ci sono le principali lingue europee e anche il bulgaro, il ceco, le lingue baltiche, il rumeno, il russo e altre.

Altri corpora internazionali usati

CHC

Il Canadian Hansards Corpus (CHC) è un corpus specialistico bilingue (inglese e francese canadese) parallelo, i cui testi sono tratti dagli atti del Parlamento canadese.

Switchboard Corpus

Lo Switchboard Corpus è un corpus specialistico dell'inglese americano. Basato sulle conversazioni telefoniche, è usato per addestrare i programmi per il riconoscimento automatico del parlato.

HCRC Map Task Corpus

l'HCRC Map Task Corpus è un corpus audio di dialoghi semi-spontanei raccolti col metodo “map task” da parlanti adulti di inglese britannico.

Bibliografia

  • Alessandro Lenci, Simonetta Montemagni, Vito Pirrelli. Testo e computer. ISBN 88-430-3425-1. Carrocci Editore, Roma, 2005
  • Stefania Spina. Fare i conti con le parole. Introduzione alla linguistica dei corpora. Perugia, Guerra, 2001

Note

  1. ^ È un'opera monumentale realizzata da una commissione di giuristi diretta da Triboniano, voluta dall'imperatore Giustiniano (527-565) per riordinare il sistema giuridico dell'imperatore. La raccolta è divisa in tre parti: le Istituzioni, che espongono i principi generali del diritto; il Digesto, che contiene gli scritti dei giuristi classici; il Codice, che raccoglie le leggi promulgate dagli imperatori romani, a partire da Adriano.
  2. ^ È una raccolta di iscrizioni latine sino alla caduta dell'impero di Roma, di qualsiasi natura (pubblica, sacra, sepolcrale, onoraria, rupestre, graffiti etc.), e su ogni supporto epigrafico (per lo più pietra e bronzo) tranne che su papiro.
  3. ^ Le concordanze rappresentano una lista delle occorrenze di una parola presente in un contesto linguistico.
  4. ^ Trattamento Automatico del Linguaggio Naturale.
  5. ^ Rappresentano i prodotti del linguaggio che sono oggetto di un processo di analisi e che formano l'evidenza empirica su cui fondare lo sviluppo di modelli e teorie linguistiche. Fra le fonti dei dati linguistici troviamo: dati linguistici controllati, raccolti in contesti sperimentali e in situazioni idealizzate, che si basano sulle intuizioni linguistiche dei parlanti; dati linguistici ecologici, nati da osservazioni degli usi linguistici in contesti e situazioni reali, basati, appunto, su testi prodotti dai parlanti; testo, ovvero qualsiasi prodotto dell'attività linguistica dei parlanti elaborato o trascritto come sequenza dei caratteri.
  6. ^ Annotare un corpus significa aggiungere ad un corpus codici che rendono esplicita e machine readable l'informazione relativa alla struttura linguistica del testo.È possibile individuare diversi livelli di annotazione linguistica: sintattica, morfosintatica, lemmatizzazione, semantica, fonetica (per quanto riguarda i corpora di parlato), e così via.
  7. ^ Popolazione linguistica: linguaggio oggetto di studio.

Collegamenti esterni

   Advertizing ▼

 

All translations of Corpus


sensagent's content

  • definitions
  • synonyms
  • antonyms
  • encyclopedia

Webmaster Solution

Alexandria

A windows (pop-into) of information (full-content of Sensagent) triggered by double-clicking any word on your webpage. Give contextual explanation and translation from your sites !

Try here  or   get the code

SensagentBox

With a SensagentBox, visitors to your site can access reliable information on over 5 million pages provided by Sensagent.com. Choose the design that fits your site.

Business solution

Improve your site content

Add new content to your site from Sensagent by XML.

Crawl products or adds

Get XML access to reach the best products.

Index images and define metadata

Get XML access to fix the meaning of your metadata.


Please, email us to describe your idea.

WordGame

The English word games are:
○   Anagrams
○   Wildcard, crossword
○   Lettris
○   Boggle.

Lettris

Lettris is a curious tetris-clone game where all the bricks have the same square shape but different content. Each square carries a letter. To make squares disappear and save space for other squares you have to assemble English words (left, right, up, down) from the falling squares.

boggle

Boggle gives you 3 minutes to find as many words (3 letters or more) as you can in a grid of 16 letters. You can also try the grid of 16 letters. Letters must be adjacent and longer words score better. See if you can get into the grid Hall of Fame !

English dictionary
Main references

Most English definitions are provided by WordNet .
English thesaurus is mainly derived from The Integral Dictionary (TID).
English Encyclopedia is licensed by Wikipedia (GNU).

Copyrights

The wordgames anagrams, crossword, Lettris and Boggle are provided by Memodata.
The web service Alexandria is granted from Memodata for the Ebay search.
The SensagentBox are offered by sensAgent.

Translation

Change the target language to find translations.
Tips: browse the semantic fields (see From ideas to words) in two languages to learn more.

 

4707 online visitors

computed in 0.031s

I would like to report:
section :
a spelling or a grammatical mistake
an offensive content(racist, pornographic, injurious, etc.)
a copyright violation
an error
a missing statement
other
please precise: