Modifica di Linguistica computazionale (sezione)

== Analizzare il testo == 
La linguistica computazionale prevede l'individuazione delle unità minime di analisi. Per fare questo è richiesta la conoscenza di criteri di identificazione differenti che riguardano aspetti grafici, morfosintattici e semantici. Il problema è che per un computer un testo è semplicemente un insieme di righe, ciascuna formata da una sequenza di caratteri che termina con un ritorno a capo. Quindi non esiste nessuna corrispondenza diretta tra una sequenza di caratteri e una parola e le righe di un file non coincidono necessariamente né con una frase né con un capoverso. Le parole sono prima di tutto unità linguistiche e di contenuto che devono essere quindi ricostruite a partire dalla sequenza di cifre binarie che costituiscono la materia del testo. La ricostruzione è realizzabile solo dopo aver dotato il computer di una serie di conoscenze sulla struttura e sulle convenzioni della lingua che permettono di eliminare oppure ridurre le differenze tra l'organizzazione fisica e l'organizzazione logica del testo. <ref> Lenci, Montemagni, Pirrelli, ''Testo e computer'', p. 101-122. </ref>
=== Token === 
I token sono le unità minime di analisi del testo in linguistica computazionale. Rappresentano una famiglia eterogenea che oltre a parole ortografiche tradizionali comprende numeri, sigle segni di punteggiatura e nomi propri. Sebbene questa definizione sembri molto vicina alla definizione di parola, ovvero un'unità ben definita linguisticamente all'interno del lessico di una lingua, occorre distinguere i token in quanto non rappresentano necessariamente parole ortografiche tradizionali. Il processo che segmenta il testo in token è chiamato appunto tokenizzazione ed è spesso realizzato automaticamente da programmi chiamati tokenizzatori. Il processo di tokenizzazione è abbastanza semplice per le lingue che utilizzano lo spazio per delimitare le parole; è invece molto complesso nelle lingue a sistema ortografico continuo. Lo scopo è quello di rendere il testo più gestibile per le operazioni successive come l’analisi sintattica, la classificazione e la ricerca <ref> Lenci, Montemagni, Pirrelli, ''Testo e computer'', p. 101-102. </ref>. I problemi principali della tokenizzazione sono:
*Gestire correttamente la punteggiatura
*Riconoscere parole composte, acronimi o abbreviazioni
*Implementare correttamente gli spazi bianchi
*Distinguere le lettere maiuscole e minuscole
=== Stringhe === 
Le stringhe sono sequenze di caratteri che possono rappresentare frasi o altri segmenti di testo la cui manipolazione è una parte fondamentale dell’analisi testuale. Sono importanti per la linguistica computazionale in quanto rappresentano la forma di comunicazione grezza, con cui il computer interagisce con il linguaggio. Le operazioni comuni sulle stringhe includono la ricerca di specifiche sottostringhe, la sostituzione di parti del testo e la divisione di una stringa in sottostringhe. Un aspetto molto importante è dato dal '''case sensitivity''' ovvero la necessità di differenziare maiuscole e minuscole affinché non compromettano l’identificazione delle parole, cosa che risulterà molto importante nelle espressioni regolari. 
L’analisi delle stringhe necessita di una fase di codifica, ovvero associare ad ogni carattere un numero specifico che viene convertito in bit. La codifica più comune è l’UTF-8. <ref> Lenci, Montemagni, Pirrelli, ''Testo e computer'', p. 61. </ref>
=== Espressioni regolari === 
Uno strumento utile per l’identificazione, all’interno di un testo, di stringhe che corrispondono a determinate caratteristiche, sono le espressioni regolati (ER o regex) <ref> https://www.html.it/articoli/espressioni-regolari/ </ref>. Sono espressioni algebriche che permettono di definire in maniera formale e rigorosa un pattern (schema o modello di stringhe che specifica i criteri che le stringhe devono soddisfare) di stringhe. Sono anche usate per fare ricerche avanzate su documenti testuali; la ER più elementare è quella costituita da un solo carattere. 
=== Vocabolario === 
Il vocabolario, in linguistica computazionale, è l’insieme delle parole che compaiono in un dato corpus di testo, ovvero l’insieme finito di parole estratte dal testo stesso. Il vocabolario rappresenta un sottoinsieme del lessico in quanto è legato strettamente al testo e contiene solo le parole presenti nel corpus. Il vocabolario svolge un ruolo cruciale nei compiti di elaborazione del linguaggio naturale (NLP) come la tokenizzazione, l’indicizzazione e la costruzione di modelli di linguaggio per compiti come la traduzione automatica e la classificazione dei testi <ref> Lenci, Montemagni, Pirrelli, ''Testo e computer'', p. 133. </ref>.