Vai al contenuto
Menu principale
Menu principale
sposta nella barra laterale
nascondi
Navigazione
Pagina principale
Ultime modifiche
Una pagina a caso
Aiuto su MediaWiki
Unipedia
Ricerca
Ricerca
entra
Strumenti personali
entra
Pagine per utenti anonimi
ulteriori informazioni
contributi
discussioni
Modifica di
Linguistica computazionale
(sezione)
Pagina
Discussione
italiano
Leggi
Modifica
Cronologia
Strumenti
Strumenti
sposta nella barra laterale
nascondi
Azioni
Leggi
Modifica
Cronologia
Generale
Puntano qui
Modifiche correlate
Pagine speciali
Informazioni pagina
Attenzione:
non hai effettuato l'accesso. Se effettuerai delle modifiche il tuo indirizzo IP sarà visibile pubblicamente. Se
accedi
o
crei un'utenza
, le tue modifiche saranno attribuite al tuo nome utente, insieme ad altri benefici.
Controllo anti-spam.
NON
riempirlo!
=== Token === I token sono le unità minime di analisi del testo in linguistica computazionale. Rappresentano una famiglia eterogenea che oltre a parole ortografiche tradizionali comprende numeri, sigle segni di punteggiatura e nomi propri. Sebbene questa definizione sembri molto vicina alla definizione di parola, ovvero un'unità ben definita linguisticamente all'interno del lessico di una lingua, occorre distinguere i token in quanto non rappresentano necessariamente parole ortografiche tradizionali. Il processo che segmenta il testo in token è chiamato appunto tokenizzazione ed è spesso realizzato automaticamente da programmi chiamati tokenizzatori. Il processo di tokenizzazione è abbastanza semplice per le lingue che utilizzano lo spazio per delimitare le parole; è invece molto complesso nelle lingue a sistema ortografico continuo. Lo scopo è quello di rendere il testo più gestibile per le operazioni successive come l’analisi sintattica, la classificazione e la ricerca <ref> Lenci, Montemagni, Pirrelli, ''Testo e computer'', p. 101-102. </ref>. I problemi principali della tokenizzazione sono: *Gestire correttamente la punteggiatura *Riconoscere parole composte, acronimi o abbreviazioni *Implementare correttamente gli spazi bianchi *Distinguere le lettere maiuscole e minuscole
Oggetto:
Per favore tieni presente che tutti i contributi a Unipedia possono essere modificati, stravolti o cancellati da altri contributori. Se non vuoi che i tuoi testi possano essere alterati, allora non inserirli.
Inviando il testo dichiari inoltre, sotto tua responsabilità, che è stato scritto da te personalmente oppure è stato copiato da una fonte di pubblico dominio o similarmente libera (vedi
Unipedia:Copyright
per maggiori dettagli).
Non inviare materiale protetto da copyright senza autorizzazione!
Annulla
Guida
(si apre in una nuova finestra)
Toggle limited content width