Modifica di Linguistica computazionale (sezione)

=== Corpora: specialistici e di addestramento === 
I corpora testuali sono collezioni di testi e svolgono un ruolo cruciale nella linguistica computazionale. Sono selezionati e organizzati in maniera da soddisfare dei criteri che li rendono funzionali per le analisi linguistiche e la loro creazione è il risultato di un'opera di selezione, che richiede di valutare se il loro contenuto e la loro organizzazione sono adeguati per gli scopi di ricerca. In altre parole, bisogna determinare se il corpus preso in analisi è in grado di fornire il tipo e la quantità di informazioni necessarie per l'analisi. I tipi di corpora vengono definiti sulla base di diversi parametri <ref> Lenci, Montemagni, Pirrelli, ''Testo e computer'', p. 27-34. </ref>:

* '''Generalità''': misura la trasversalità nella scelta dei testi rispetto alle diverse varietà linguistiche. 
* ''' Modalità''': distingue i corpora in base alla modalità di produzione dei testi. Questo parametro suddivide i corpora in:
**corpora di lingua scritta: composti di testi che nascono in forma scritta, 
**corpora di lingua parlata: composti di testi che vengono prodotti in modalità orale e successivamente trascritti
**corpora misti: composti sia di testi nati in forma scritta sia di testi prodotti in modalità orale.
* '''Cronologia''': indica l'asse temporale a cui appartengono i testi, distinguendo corpora sincronici (appartenenti a una stessa finestra temporale) o diacronici (appartenenti a periodi diversi con lo scopo di monitorare il mutamento linguistico).
* '''Lingua''': classifica i corpora monolingue, bilingue o paralleli, in base alle lingue coinvolte.
* '''Integrità''': specifica la porzione di testi che viene usata, in quanto i corpora possono contenere testi interi oppure porzioni di testi di una lunghezza definita. 
* '''Codifica''': descrive il formato in cui i testi sono rappresentati digitalmente.
Una distinzione importante da considerare, dal punto di vista applicativo dei corpora, è quella tra:
*'''Corpora specialistici''': utilizzati per approfondire la comprensione delle peculiarità linguistiche di determinati settori. Questi corpora sono composti da testi  mirati che si concentrano su ambiti linguistici specifici, come il linguaggio medico, giuridico o tecnico.  
*'''Corpora di addestramento''': utilizzati principalmente per addestrare modelli di machine learning o di linguistica computazionale. Consentono ai modelli di apprendere e generalizzare dai dati per compiti specifici come il riconoscimento del linguaggio, la traduzione automatica o la classificazione dei testi.