Banche dati, corpora e archivi testuali
Per visualizzare i link di condivisione occorre accettare i cookie
Italiano scritto e parlato
AN.ANA.S_MT (ANnotazione e ANAlisi Sintattica MulTilingue) |
---|
Miriam Voghera, Università degli Studi di Salerno (coordinatore) |
Corpus di italiano, inglese e spagnolo parlato, trascritto e annotato sintatticamente tramite la DTD (Document Type Definition) AN.ANA.S 4. Consta di circa 21.300 parole tratte da conversazioni spontanee e dialoghi elicitati. Alcuni materiali possono essere scaricati e consultati. |
API (Archivio del Parlato Italiano) |
---|
Federico Albano Leoni, Università degli Studi di Napoli Federico II (coordinatore) |
Corpus di italiano parlato; contiene alcune tipologie di testi orali raccolti a Napoli, Bari, Firenze e Pisa, in formato audio e in trascrizione ortografica. I testi trascritti sono stati in parte annotati e analizzati. I materiali possono essere scaricati e consultati gratuitamente. |
BADIP (BAnca Dati dell'Italiano Parlato) |
---|
Daniele Bellini e Stefan Schneider, Karl-Franzens-Universität Graz |
Contiene la versione online del corpus su cui è basato il Lessico di frequenza dell'italiano parlato (LIP), opera diretta da Tullio De Mauro e realizzata in collaborazione con la Fondazione IBM Italia nel 1990-1993. È una raccolta annotata di testi di italiano parlato; si compone di quasi 490.000 parole e 469 testi, appartenenti a varie tipologie di parlato, raccolti in quattro città (Milano, Firenze, Roma, Napoli). |
CLIPS (Corpora e Lessici dell'Italiano Parlato e Scritto) |
---|
Federico Albano Leoni, Università degli Studi di Napoli Federico II |
Corpus di italiano parlato, basato su una raccolta di testi di parlato radiotelevisivo, dialogico, letto, telefonico; il corpus è stratificato anche dal punto di vista regionale, sociale, stilistico. È liberamente consultabile online previa registrazione gratuita. |
CODIS (COrpus Dinamico dell'Italiano Scritto) |
---|
Rema Rossini Favretti, Alma Mater Studiorum - Università di Bologna |
Corpus adattivo di italiano scritto; contiene 130 milioni di parole da testi di narrativa, prosa accademica, prosa giuridica, stampa. È liberamente consultabile online. |
CoLFIS (Corpus e Lessico di Frequenza dell'Italiano Scritto) |
---|
Pier Marco Bertinetto, Scuola Normale Superiore di Pisa (coordinatore) |
Banca dati lessicale di italiano scritto; consta di oltre tre milioni di parole ordinate sia per lemmi sia per forme. È liberamente consultabile online. |
CONTRAST-IT |
---|
Anna Maria De Cesare, Università di Basilea |
Corpus comparabile multilingue di circa 1,5 milioni di parole; comprende articoli pubblicati tra il 2011 e 2015 in quotidiani online redatti in cinque lingue (italiano, spagnolo, francese, tedesco, inglese). Il corpus è liberamente accessibile in rete. |
COMPARE-IT |
---|
Anna Maria De Cesare, Università di Basilea |
Corpus comparabile monolingue di circa 550.000 parole; comprende articoli pubblicati tra il 2011 e 2013 nei principali quotidiani online redatti in lingua italiana in tre paesi diversi (Italia, Svizzera e Canada). Il corpus è liberamente accessibile in rete. |
CorDIC (Corpora Didattici Italiani di Confronto) |
---|
LABLITA (Laboratorio Linguistico Italiano dell'Università di Firenze) |
Corpora di italiano scritto e parlato da confrontare a scopo didattico; contiene circa un milione di parole divise tra testi e parlato spontaneo. È liberamente consultabile online. |
CORIS (COrpus di Riferimento dell'Italiano Scritto) |
---|
Rema Rossini Favretti, Alma Mater Studiorum - Università di Bologna |
Corpus di italiano scritto; contiene 130 milioni di parole da testi di narrativa, prosa accademica, prosa giuridica, stampa. È liberamente consultabile online. |
DiaCORIS (COrpus Diacronico di Riferimento dell'Italiano Scritto) |
---|
Rema Rossini Favretti, Alma Mater Studiorum - Università di Bologna |
Corpus diacronico dell'italiano scritto, comprendente testi prodotti tra il 1861 e il 1945. È liberamente consultabile online. |
Gra.fo (Grammo-foni. Le soffitte della voce) |
---|
Pier Marco Bertinetto, Scuola Normale Superiore di Pisa (coordinatore); Silvia Calamai, Università degli Studi di Siena (coordinatore) |
Banca dati di materiale sonoro raccolto dagli anni '60 a oggi; comprende oltre 2800 ore di parlato, catalogate per argomento e varietà linguistica. È liberamente consultabile online. |
IPIC (Information Structure Database) |
---|
Emanuela Cresti, LABLITA (Laboratorio Linguistico Italiano dell'Università di Firenze) |
Corpus testuale di italiano parlato; contiene trascrizioni e registrazioni ed è annotato su più livelli. È liberamente consultabile online. |
LIS (Lessico dell'Italiano Scritto) |
---|
Accademia della Crusca |
Banca dati interrogabile che raccoglie 25 milioni di occorrenze distribuite tra 1861 e 2001. Rappresenta un adattamento del DiaCORIS funzionale all'inserimento nel portale VIVIT. È liberamente consultabile online. |
Metamotore - Lessico dell'Italiano Scritto, Televisivo, Radiofonico |
---|
Accademia della Crusca |
Motore di ricerca che consente di interrogare contemporaneamente le tre banche dati (LIS, LIR, LIT) dell'Accademia della Crusca, per ottenere risultati di spettro più ampio e completo sulla lingua italiana contemporanea. |
MIDIA (Morfologia dell'Italiano in DIAcronia) |
---|
Paolo D'Achille, Università degli Studi Roma Tre (coordinatore) |
Corpus di testi scritti italiani che spazia dal XIII al XX secolo e comprende circa 7,5 milioni di occorrenze. È liberamente consultabile online. |
ONLI (Osservatorio Neologico della Lingua Italiana) |
---|
Giovanni Adamo, Istituto per il Lessico Intellettuale Europeo e Storia delle Idee; Valeria della Valle, Sapienza - Università di Roma |
Banca dati di neologismi basata sullo spoglio dei principali quotidiani nazionali e locali, attiva dal 2012. È liberamente consultabile online. |
Parlaritaliano.it (Corpora) |
---|
Autori vari |
Raccolta di corpora di italiano parlato curati e messi a disposizione dagli studiosi che hanno aderito al progetto Parlare italiano. Tutti sono liberamente consultabili online e/o disponibili per il download. |
PEC (PErugia Corpus) |
---|
Stefania Spina, Università per Stranieri di Perugia |
Corpus di riferimento interrogabile, composto da circa 26 milioni di parole in italiano contemporaneo scritto e parlato, diviso in dieci sezioni. È liberamente consultabile online. |
QALL-ME (Question Answering Learning technologies in a multiLingual and Multimodal Environment) |
---|
Fondazione Bruno Kessler |
Raccolta di trascrizioni (e registrazioni) di italiano parlato (oltre a inglese, spagnolo e tedesco); consta di più di 15000 parole relative al turismo. È disponibile per il download. |
Italiano antico
Archivio Datini |
---|
Opera del Vocabolario Italiano |
Corpus lemmatizzato del carteggio di Francesco Datini (1335-1410). Si compone di quasi 150.000 lettere ed è liberamente consultabile online. |
ArTeSiA (Archivio Testuale del Siciliano Antico) |
---|
Mario Pagano, Università degli Studi di Catania (coordinatore); Opera del Vocabolario Italiano |
Archivio testuale costituito da circa 300 testi in siciliano di epoca medievale, per un totale di più di un milione di occorrenze. È liberamente consultabile online. |
CEOD (Corpus Epistolare Ottocentesco Digitale) |
---|
Massimo Palermo, Università per Stranieri di Siena (coordinatore) |
Corpus epistolare costituito da circa 1350 lettere di 75 scriventi diversi, di varia estrazione sociale. È liberamente consultabile online. |
CLaVo (Corpus dei Classici Latini Volgarizzati) |
---|
Scuola Normale Superiore di Pisa; Opera del Vocabolario Italiano |
Banca dati interrogabile contenente 89 testi, per complessive circa 2,2 milioni di occorrenze, di latino tradotto. È liberamente consultabile online. |
Corpus OVI dell'Italiano antico |
---|
Opera del Vocabolario Italiano |
Raccolta completa dei testi italiani antichi resi accessibili dall'Opera del Vocabolario Italiano, ricca di 23 milioni di occorrenze per più di 450.000 forme grafiche distinte. È liberamente consultabile online. |
CT (Corpus Taurinense) |
---|
Manuel Barbera, Università degli Studi di Torino; Carla Marello, Università degli Studi di Torino |
Corpus di testi fiorentini del XIII secolo, dotato di più di 250.000 occorrenze; è ordinato per lemmi, parti del discorso, genere letterario e non solo. È liberamente consultabile online. |
DiVo (Corpus del Dizionario dei Volgarizzamenti) |
---|
Opera del Vocabolario Italiano |
Corpus comprendente 168 testi in volgare variamente indicizzati, per un totale che supera i sei milioni di occorrenze. È liberamente consultabile online. |
ReMediA (Repertorio di Medicina Antica) |
---|
Opera del Vocabolario Italiano |
Corpus in allestimento di testi medico- scientifici antichi, nelle diverse lingue romanze o in volgarizzamenti dal latino. È liberamente consultabile online. |
TLIO (Corpus del Tesoro della Lingua Italiana delle Origini) |
---|
Opera del Vocabolario Italiano |
Corpus testuale assai ricco, con più di 2000 testi contenuti, la cui opera di lemmatizzazione procede tuttora. È liberamente consultabile online. |
Italiano di apprendenti
DILS (Dialoghi in Italiano Lingua Straniera) |
---|
Renata Savy, Università degli Studi di Salerno (coordinatore) |
Corpus costituito da nove dialoghi tra parlanti stranieri in italiano, etichettanti secondo lo schema di annotazione PraTiD. È disponibile per il download. |
LIPS (Lessico Italiano Parlato da Stranieri) |
---|
Massimo Vedovelli, Università per Stranieri di Siena (coordinatore) |
Raccolta di testi dalle prove d'esame "Certificazione di Italiano come Lingua Straniera"; consta di 2198 prove, divise secondo il genere testuale a cui appartengono. È disponibile per il download. |
VALICO (Varietà Apprendimento Lingua Italiana Corpus Online) |
---|
Manuel Barbera, Università degli Studi di Torino; Carla Marello, Università degli Studi di Torino |
Banca dati interrogabile per parte del discorso e tipo testuale; mostra come studenti di varie età e lingue madri scrivono in italiano. È liberamente consultabile online. |
VINCA (Varietà di Italiano di Nativi Corpus Appaiato) |
---|
Manuel Barbera, Università degli Studi di Torino; Carla Marello, Università degli Studi di Torino |
Corpus di testi, didattici e non, di italiani nativi; nato come corpus monitor di VALICO, ha assunto poi vita autonoma. È liberamente consultabile online. |
Italiano giornalistico
Archivio storico de «La Repubblica» |
---|
Raccolta non indicizzata di articoli dal 1984 a oggi. È liberamente consultabile online. |
Archivio storico de «La Stampa» |
---|
Archivio del materiale completo diviso in due parti: 1867-2005 e 2005-oggi. È interrogabile per edizione, data, argomento, autore. È liberamente consultabile online. |
Archivio storico del «Corriere della Sera» |
---|
Raccolta dell'intero materiale del quotidiano, dal 1876 a oggi; interrogabile per parole chiave, autore, argomento e non solo. È consultabile previa sottoscrizione a pagamento. |
Corpus «La Repubblica» |
---|
Scuola Superiore di Lingue Moderne per Interpreti e Traduttori di Bologna |
Corpus di testi dal quotidiano omonimo pubblicati tra il 1985 e il 2000; lemmatizzato, categorizzato e indicizzato per parti del discorso. È liberamente consultabile online previa registrazione gratuita. |
I-CAB (Italian Content Annotation Bank) |
---|
Fondazione Bruno Kessler |
Corpus annotato di 525 articoli dal quotidiano locale "L'Adige", per un totale di circa 180.000 parole. È disponibile per il download dietro richiesta scritta. |
Italiano di Internet
Corpus di conversazioni da chat-line in lingua italiana |
---|
Èulogos, Intratext |
Corpus testuale che ammonta a circa 850.000 occorrenze; contiene comunicazioni in chat tra utenti Internet di età inferiore a 30 anni. È liberamente consultabile online. |
NUNC (Newsgroups UseNet Corpora) |
---|
Manuel Barbera, Università degli Studi di Torino; Carla Marello, Università degli Studi di Torino |
Banca dati lessicale basata sulle conversazioni ospitate dai forum telematici detti "newsgroups"; è divisa per argomenti di conversazione e si estende su cinque lingue. È liberamente consultabile online. |
PAISÀ (Piattaforma per l'Apprendimento dell'Italiano Su corpora Annotati) |
---|
Sergio Scalise, Alma Mater Studiorum - Università di Bologna (coordinatore); Vito Pirrelli, Istituto di Linguistica Computazionale «Antonio Zampolli» di Pisa (coordinatore) |
Corpus testuale composto da una collezione di circa 380.000 documenti italiani tratti da Internet. È liberamente consultabile online e disponibile per il download. |
RIDIRE (RIsorsa Dinamica Italiana di REte) |
---|
Emanuela Cresti, SILFI (Società Internazionale di Linguistica e Filologia Italiana) (coordinatore) |
Corpus lessicale dinamico pensato per riflettere l'utilizzo della lingua italiana nel web in vari contesti, annotato e indicizzato. È liberamente consultabile online. |
WaCky (Web-as-Corpus kool yinitiative) |
---|
Scuola Superiore di Lingue Moderne per Interpreti e Traduttori di Bologna (coordinatore) |
Corpora testuali in quattro lingue di circa due miliardi di parole ciascuno, lemmatizzati e indicizzati. Sono disponibili per il download dietro richiesta o liberalmente consultabili online a questo indirizzo. |
Italiano tecnico
- Italiano accademico
Athenaeum |
---|
Manuel Barbera, Università degli Studi di Torino; Carla Marello, Università degli Studi di Torino |
Corpus testuale che riflette la produzione scritta di un'Università italiana; contiene principalmente materiale tratto dal periodico universitario, da mail e circolari accademiche. È liberamente consultabile online. |
- Italiano istituzionale, giuridico e amministrativo
bistro (Sistema informativo per la terminologia giuridica) |
---|
Accademia Europea di Bolzano |
Banca dati terminologica contenente circa 50.000 termini del linguaggio giuridico-amministrativo italiano (con i rispettivi corrispondenti in tedesco e ladino), austriaco, tedesco e svizzero. È liberamente consultabile online. |
BoLC (Bononia Legal Corpus) |
---|
Rema Rossini Favretti, Alma Mater Studiorum - Università di Bologna |
Corpus testuale volto all'analisi delle forme linguistiche utilizzate in ambito legislativo, giuridico e amministrativo; formato da subcorpora paralleli in lingua italiana e inglese. È liberamente consultabile online. |
CATEx (Computer Assisted Terminology Extraction) |
---|
Accademia Europea di Bolzano |
Corpus linguistico e terminologico che consta di circa cinque milioni di parole; comprende testi di legge italiani con le relative traduzioni in tedesco. È liberamente consultabile online. |
EuroParl (European Parliament Proceedings Parallel Corpus) |
---|
Philipp Koehn, University of Edinburgh |
Corpus testuale che raccoglie gli atti del Parlamento Europeo tra il 1996 e il 2011 tradotti in 21 lingue. È disponibile per il download. |
EUSLEX («European Union Secondary Legislation» Corpora Collection) |
---|
Maurizio Gotti, Università degli Studi di Bergamo (coordinatore); Scuola Superiore di Lingue Moderne per Interpreti e Traduttori |
Corpus testuale bilingue italiano-inglese basato sull'archivio EUR-Lex dei testi di legge prodotti dall'Unione Europea, limitatamente al periodo 1999-2002. È liberamente consultabile online. |
IATE (InterActive Terminology for Europe) |
---|
TermCoord (Terminology Coordination Unit of the European Parliament) |
Banca dati terminologica multilingue dell'Unione Europea. Contiene più di 8,5 milioni di entrate terminologiche relative a diversi ambiti e argomenti, nelle 25 lingue ufficiali dell'UE. È liberamente consultabile online. |
IS-LeGI (Indice Semantico del Lessico Giuridico Italiano) |
---|
Francesco Romano, Istituto di Teoria e Tecniche dell'Informazione Giuridica |
Banca dati semantico-lessicale attiva dal 2008, divisa in legislazione, prassi giuridica, dottrina giuridica. È liberamente consultabile online. |
Corpus Senato della Repubblica (Leggibilità del linguaggio politico parlamentare) |
---|
Maria Emanuela Piemontese, Sapienza - Università di Roma |
Corpus di testi tratti dagli atti del Senato della Repubblica durante la XIV e XV legislatura; i testi sono analizzati solo quantitativamente (misurazione delle variabili lessicali e sintattiche), non secondo la comprensibilità. È disponibile per il download. |
Risorse terminologiche per l'italiano istituzionale |
---|
REI (Rete per l'eccellenza dell'italiano istituzionale) |
Raccolta di glossari, schede terminologiche. I materiali sono disponibili per il download e liberamente consultabili online. |
- Italiano medico
MeSH (Medical Subject Headings); versione italiana |
---|
U.S. National Library of Medicine; versione italiana a cura dell'Istituto Superiore di Sanità |
Thesaurus dei termini del linguaggio medico inglese e banca dati parallela tradotta in italiano. Entrambi sono liberamente consultabili online. |
UMLS (Unified Medical Language System) |
---|
U.S. National Library of Medicine |
Software per l'analisi del linguaggio medico composto da un metathesaurus, una banca dati semantica e un lessico in lingua inglese. È disponibile per il download dietro richiesta scritta. |
Italiano trasmesso
CPT (Corpus di Parlato Telegiornalistico. Anni Sessanta vs. 2005) |
---|
Corpus di trascrizioni annotate tratte dal TG2, accompagnate dalle rispettive registrazioni audio, per un confronto diacronico. È disponibile per il download. |
DIA-LIT (Lessico Italiano Televisivo in DIAcronia) |
---|
Accademia della Crusca |
Banca dati audiovisiva basata sulla struttura del LIT; consta di 40 ore di trasmissioni mandate in onda tra il 1954 e oggi. È liberamente consultabile online. |
LIR (Lessico dell'Italiano Radiofonico) |
---|
Accademia della Crusca |
Corpus di 90 ore di parlato trasmesso (quasi un milione di occorrenze), trascritto e diviso per genere radiofonico e tipologica comunicativa. È liberamente consultabile online. |
LIT (Lessico dell'Italiano Televisivo) |
---|
Accademia della Crusca |
Banca dati audiovisiva interrogabile, che raccoglie 168 ore di trasmissioni prelevate nel corso del 2006; dotato di trascrizioni annotate per parlante, genere, tipologia comunicativa. È liberamente consultabile online. |