Vai al contenuto
Menu principale
Menu principale
sposta nella barra laterale
nascondi
Navigazione
Pagina principale
Ultime modifiche
Una pagina a caso
Aiuto su MediaWiki
Unipedia
Ricerca
Ricerca
entra
Strumenti personali
entra
Pagine per utenti anonimi
ulteriori informazioni
contributi
discussioni
Modifica di
Linguistica computazionale
(sezione)
Pagina
Discussione
italiano
Leggi
Modifica
Cronologia
Strumenti
Strumenti
sposta nella barra laterale
nascondi
Azioni
Leggi
Modifica
Cronologia
Generale
Puntano qui
Modifiche correlate
Pagine speciali
Informazioni pagina
Attenzione:
non hai effettuato l'accesso. Se effettuerai delle modifiche il tuo indirizzo IP sarà visibile pubblicamente. Se
accedi
o
crei un'utenza
, le tue modifiche saranno attribuite al tuo nome utente, insieme ad altri benefici.
Controllo anti-spam.
NON
riempirlo!
== Dati della lingua == Nella linguistica computazione, i dati della lingua rappresentano l'elemento centrale da analizzare e manipolare. È compito del linguista computazionale avere la capacità di selezionare e raccogliere i dati linguistici, saperli analizzare attraverso dei metodi formali e avere una buona padronanza di tecniche informatiche per condurre in modo autonomo le proprie analisi. <ref> Lenci, Montemagni, Pirrelli, ''Testo e computer'', p. 23. </ref> === Dato linguistico: parole, frasi, enunciati === Per '''dato linguistico''' si intende il prodotto del linguaggio che è oggetto del processo di analisi della linguistica computazionale. I dati linguistici possono assumere forme diverse ed essere utilizzati per finalità differenti: *''Le parole'' vengono utilizzate come unità per le analisi morfologiche (dove è richiesto di identificare suffissi, prefissi o radici) oppure per rappresentare il contenuto semantico di un testo. *''Le frasi'' vengono utilizzate per identificare la struttura sintattica e quindi le relazioni grammaticali che intercorrono tra le parole che le compongono. *''Gli enunciati'' vengono studiati per riconoscerne la funzione comunicativa. Uno dei principali problemi del linguista è quello di individuare le fonti da analizzare: il primo tipo di fonti sono i testi dei parlanti di una lingua, intesi come qualsiasi prodotto dell'attività linguistica dei parlanti elaborato o trascritto come sequenza di caratteri, il secondo tipo sono i parlanti stessi. I dati linguistici possono essere ecologici oppure controllati. I dati controllati sono ricavati dallo studio di un particolare fenomeno; sostanzialmente, il linguista somministra test preparati ad hoc a un gruppo selezionato di parlanti, e le risposte dei parlanti costituiscono i dati oggetto dell'indagine. I dati ecologici, invece, sono quelli estratti da testi osservati nel loro ambiente naturale, e dunque conservano tutta la loro naturalezza. Le '''parole''' sono le unità di base del testo su cui si lavora in linguistica, e sono spesso trattate come token. Le '''frasi''' sono una sequenza di parole che esprime un’idea completa e grammaticalmente corretta. Nella LC, l’analisi delle parole è cruciale per la creazione di alberi sintattici che rappresentano la struttura grammaticale della frase. Gli '''enunciati''' sono unità di significato che vanno oltre le singole frasi e possono comprendere interi discorsi o conversazioni. <ref> Lenci, Montemagni, Pirrelli, ''Testo e computer'', p. 24. </ref> === Corpora: specialistici e di addestramento === I corpora testuali sono collezioni di testi e svolgono un ruolo cruciale nella linguistica computazionale. Sono selezionati e organizzati in maniera da soddisfare dei criteri che li rendono funzionali per le analisi linguistiche e la loro creazione è il risultato di un'opera di selezione, che richiede di valutare se il loro contenuto e la loro organizzazione sono adeguati per gli scopi di ricerca. In altre parole, bisogna determinare se il corpus preso in analisi è in grado di fornire il tipo e la quantità di informazioni necessarie per l'analisi. I tipi di corpora vengono definiti sulla base di diversi parametri <ref> Lenci, Montemagni, Pirrelli, ''Testo e computer'', p. 27-34. </ref>: * '''Generalità''': misura la trasversalità nella scelta dei testi rispetto alle diverse varietà linguistiche. * ''' Modalità''': distingue i corpora in base alla modalità di produzione dei testi. Questo parametro suddivide i corpora in: **corpora di lingua scritta: composti di testi che nascono in forma scritta, **corpora di lingua parlata: composti di testi che vengono prodotti in modalità orale e successivamente trascritti **corpora misti: composti sia di testi nati in forma scritta sia di testi prodotti in modalità orale. * '''Cronologia''': indica l'asse temporale a cui appartengono i testi, distinguendo corpora sincronici (appartenenti a una stessa finestra temporale) o diacronici (appartenenti a periodi diversi con lo scopo di monitorare il mutamento linguistico). * '''Lingua''': classifica i corpora monolingue, bilingue o paralleli, in base alle lingue coinvolte. * '''Integrità''': specifica la porzione di testi che viene usata, in quanto i corpora possono contenere testi interi oppure porzioni di testi di una lunghezza definita. * '''Codifica''': descrive il formato in cui i testi sono rappresentati digitalmente. Una distinzione importante da considerare, dal punto di vista applicativo dei corpora, è quella tra: *'''Corpora specialistici''': utilizzati per approfondire la comprensione delle peculiarità linguistiche di determinati settori. Questi corpora sono composti da testi mirati che si concentrano su ambiti linguistici specifici, come il linguaggio medico, giuridico o tecnico. *'''Corpora di addestramento''': utilizzati principalmente per addestrare modelli di machine learning o di linguistica computazionale. Consentono ai modelli di apprendere e generalizzare dai dati per compiti specifici come il riconoscimento del linguaggio, la traduzione automatica o la classificazione dei testi.
Oggetto:
Per favore tieni presente che tutti i contributi a Unipedia possono essere modificati, stravolti o cancellati da altri contributori. Se non vuoi che i tuoi testi possano essere alterati, allora non inserirli.
Inviando il testo dichiari inoltre, sotto tua responsabilità, che è stato scritto da te personalmente oppure è stato copiato da una fonte di pubblico dominio o similarmente libera (vedi
Unipedia:Copyright
per maggiori dettagli).
Non inviare materiale protetto da copyright senza autorizzazione!
Annulla
Guida
(si apre in una nuova finestra)
Toggle limited content width