UN CORPUS DELLA STAMPA ITALIANA LOCALE

Simone Torsani

doi:10.13135/2384-8987/3382

UN CORPUS DELLA STAMPA ITALIANA LOCALE

Autori

Simone Torsani Dipartimento di Lingue e Culture Moderne, Università di Genova

DOI:

https://doi.org/10.13135/2384-8987/3382

Parole chiave:

Corpus design, Italian, local press

Abstract

A corpus of the Italian local press. This paper introduces CoSIL, a corpus of articles from Italian local newspapers containing about 180,000 texts and 66,000,000 words. The corpus was built to provide researchers with a freely downloadable balanced corpus of journalistic texts and a material for linguistic research on online local press, a nowadays-pervasive source of information. Besides the objectives behind the construction of the corpus, the paper describes its design and development, focusing on its representativeness and balance.

Riferimenti bibliografici

Aliprandi, S. (2013). Creative Commons: manuale operativo. Ledizioni.

Baroni, M., & Bernardini, S. (2004, May). BootCaT: Bootstrapping Corpora and Terms from the Web. In LREC

Baroni, M., Bernardini, S., Comastri, F., Piccioni, L., Volpi, A., Aston, G., & Mazzoleni, M. (2004). Introducing the La Repubblica Corpus: A Large, Annotated, TEI (XML)-compliant Corpus of Newspaper Italian. In Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC'04).

Baroni, M., Bernardini, S., Ferraresi, A., & Zanchetta, E. (2009). The WaCky wide web: a collection of very large linguistically processed web-crawled corpora. Language resources and evaluation, 43(3), 209-226.

Baroni, M., & Ueyama, M. (2006). Building general-and special-purpose corpora by web crawling. In Proceedings of the 13th NIJL international symposium, language corpora: Their compilation and application (pp. 31-40).

Kamocki, P.; Ketzan, E. (2014): Creative Commons and Language Resources: General Issues and what's new in CC 4.0. In: CLARIN Legal Issues Committee (CLIC)-White Paper Series. In rete, all’indirizzo https://www.clarin-d.de/images/legal/CLIC_white_paper_1.pdf.

Lyding, V., Stemle, E., Borghetti, C., Brunello, M., Castagnoli, S., Dell'Orletta, F., Pirrelli, V. (2014). The PAISA'Corpus of Italian Web Texts. In 9th Web as Corpus Workshop (WaC-9)@ EACL 2014 (pp. 36-43). EACL (European chapter of the Association for Computational Linguistics).

Magnini B., Pianta E., Girardi C., Negri M., Romano L., Speranza M., Bartalesi Lenzi V., Sprugnoli R., (2006). I-CAB: the Italian Content Annotation Bank. In Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC’06), Genoa, Italy, May. European Language Resources Association (ELRA).

McEnery, T., & Hardie, A. (2011). Corpus linguistics: Method, theory and practice. Cambridge University Press.

Spina, S. (2014). Il Perugia Corpus: una risorsa di riferimento per l’italiano. Composizione, annotazione e valutazione. In First Italian Conference on Computational Linguistics CLiC-it 2014 (Vol. 1, pp. 354-359). Pisa University Press.

##submission.downloads##

Pubblicato

2019-12-30

Come citare

Torsani, S. (2019). UN CORPUS DELLA STAMPA ITALIANA LOCALE. RiCOGNIZIONI. Rivista Di Lingue E Letterature Straniere E Culture Moderne, 6(12), 197–204. https://doi.org/10.13135/2384-8987/3382

Scarica citazione

Fascicolo

V. 6 N. 12 (2019)

Sezione

ItINERARI

Licenza

Gli autori che pubblicano su questa rivista accettano le seguenti condizioni:

Gli autori mantengono i diritti sulla loro opera e cedono alla rivista il diritto di prima pubblicazione dell'opera, contemporaneamente licenziata sotto una Licenza Creative Commons - Attribuzione che permette ad altri di condividere l'opera indicando la paternità intellettuale e la prima pubblicazione su questa rivista.
Gli autori possono aderire ad altri accordi di licenza non esclusiva per la distribuzione della versione dell'opera pubblicata (es. depositarla in un archivio istituzionale o pubblicarla in una monografia), a patto di indicare che la prima pubblicazione è avvenuta su questa rivista.
Gli autori possono diffondere la loro opera online (es. in repository istituzionali o nel loro sito web) prima e durante il processo di submission, poiché può portare a scambi produttivi e aumentare le citazioni dell'opera pubblicata (Vedi The Effect of Open Access).

UN CORPUS DELLA STAMPA ITALIANA LOCALE

Autori

DOI:

Parole chiave:

Abstract

Riferimenti bibliografici

##submission.downloads##

Pubblicato

Come citare

Fascicolo

Sezione

Licenza

Puoi leggere altri articoli dello stesso autore/i

Lingua

quadri_quaderni_di_ricognizioni

Fai una proposta

Informazioni