Vai al contenuto
Menu principale
Menu principale
sposta nella barra laterale
nascondi
Navigazione
Pagina principale
Ultime modifiche
Una pagina a caso
Aiuto su MediaWiki
Unipedia
Ricerca
Ricerca
entra
Strumenti personali
entra
Pagine per utenti anonimi
ulteriori informazioni
contributi
discussioni
Modifica di
Linguistica computazionale
(sezione)
Pagina
Discussione
italiano
Leggi
Modifica
Cronologia
Strumenti
Strumenti
sposta nella barra laterale
nascondi
Azioni
Leggi
Modifica
Cronologia
Generale
Puntano qui
Modifiche correlate
Pagine speciali
Informazioni pagina
Attenzione:
non hai effettuato l'accesso. Se effettuerai delle modifiche il tuo indirizzo IP sarà visibile pubblicamente. Se
accedi
o
crei un'utenza
, le tue modifiche saranno attribuite al tuo nome utente, insieme ad altri benefici.
Controllo anti-spam.
NON
riempirlo!
=== Corpora: specialistici e di addestramento === I corpora testuali sono collezioni di testi e svolgono un ruolo cruciale nella linguistica computazionale. Sono selezionati e organizzati in maniera da soddisfare dei criteri che li rendono funzionali per le analisi linguistiche e la loro creazione è il risultato di un'opera di selezione, che richiede di valutare se il loro contenuto e la loro organizzazione sono adeguati per gli scopi di ricerca. In altre parole, bisogna determinare se il corpus preso in analisi è in grado di fornire il tipo e la quantità di informazioni necessarie per l'analisi. I tipi di corpora vengono definiti sulla base di diversi parametri <ref> Lenci, Montemagni, Pirrelli, ''Testo e computer'', p. 27-34. </ref>: * '''Generalità''': misura la trasversalità nella scelta dei testi rispetto alle diverse varietà linguistiche. * ''' Modalità''': distingue i corpora in base alla modalità di produzione dei testi. Questo parametro suddivide i corpora in: **corpora di lingua scritta: composti di testi che nascono in forma scritta, **corpora di lingua parlata: composti di testi che vengono prodotti in modalità orale e successivamente trascritti **corpora misti: composti sia di testi nati in forma scritta sia di testi prodotti in modalità orale. * '''Cronologia''': indica l'asse temporale a cui appartengono i testi, distinguendo corpora sincronici (appartenenti a una stessa finestra temporale) o diacronici (appartenenti a periodi diversi con lo scopo di monitorare il mutamento linguistico). * '''Lingua''': classifica i corpora monolingue, bilingue o paralleli, in base alle lingue coinvolte. * '''Integrità''': specifica la porzione di testi che viene usata, in quanto i corpora possono contenere testi interi oppure porzioni di testi di una lunghezza definita. * '''Codifica''': descrive il formato in cui i testi sono rappresentati digitalmente. Una distinzione importante da considerare, dal punto di vista applicativo dei corpora, è quella tra: *'''Corpora specialistici''': utilizzati per approfondire la comprensione delle peculiarità linguistiche di determinati settori. Questi corpora sono composti da testi mirati che si concentrano su ambiti linguistici specifici, come il linguaggio medico, giuridico o tecnico. *'''Corpora di addestramento''': utilizzati principalmente per addestrare modelli di machine learning o di linguistica computazionale. Consentono ai modelli di apprendere e generalizzare dai dati per compiti specifici come il riconoscimento del linguaggio, la traduzione automatica o la classificazione dei testi.
Oggetto:
Per favore tieni presente che tutti i contributi a Unipedia possono essere modificati, stravolti o cancellati da altri contributori. Se non vuoi che i tuoi testi possano essere alterati, allora non inserirli.
Inviando il testo dichiari inoltre, sotto tua responsabilità, che è stato scritto da te personalmente oppure è stato copiato da una fonte di pubblico dominio o similarmente libera (vedi
Unipedia:Copyright
per maggiori dettagli).
Non inviare materiale protetto da copyright senza autorizzazione!
Annulla
Guida
(si apre in una nuova finestra)
Toggle limited content width