Indire, sito ufficiale
Istituto Nazionale di Documentazione, Innovazione e Ricerca Educativa MIUR
immagine di contorno      Formazione separatore dei progetti      Documentazione separatore barra alta      Didattica separatore barra alta      Comunicazione separatore barra alta Europa
contorno tabella centrale
{TITOLO_TOPIC_DIRETTO}

Il trattamento del linguaggio naturale (TAL)

Macchine parlanti, 'intelligenti', traduttrici: tecnologie in continua evoluzione che si ripromettono di farci risparmiare soldi e tempo

di Silvia Panzavolta
04 Novembre 2003

Gestire e condividere conoscenza su Internet, questo è il problema. 
Ciò che ossessiona ricercatori in scienze dell'informazione, programmatori, gestori di servizi e banche dati è l'organizzazione, in modo strutturato, dell'informazione presente in Rete.
Anche volendosi limitare alla necessità di ricercare solamente nei testi scritti online, senza cioè considerare immagini, filmati, suoni, eccetera, si può ben capire che la consueta tecnica di lanciare, mediante un motore di ricerca, una richiesta che scava tra i miliardi di pagine presenti nei siti dove appare quella particolare parola o una combinazione di parole, nonostante i trucchi e gli artifici messi in atto dai ricercatori, non risolve la vera questione.
Ciò che sarebbe bello avere, infatti, è una soluzione che permetta di formulare una domanda in linguaggio naturale, cioè quel modo semplice che si utilizza normalmente quando si parla tra persone, e ottenere risposte congruenti, ossia con l'impressione che il computer abbia "capito" che cosa volevamo e abbia cercato solo quel genere di risposte.
La ricerca sul trattamento automatico del linguaggio (Tal) ha questo come obiettivo prioritario e offre già risultati interessanti per quanto parziali. Ma molta strada è ancora da fare.


Il linguaggio scritto 
qualche riferimento concreto
Per il linguaggio scritto la ricerca si muove nella direzione di "istruire le macchine" a comprendere il significato del testo scritto. Ma come si fa a "istruire" una macchina? Software specifici fanno sì che il testo venga analizzato da vari punti di vista: da quello grammaticale a quello sintattico e semantico, in modo da gestire anche ambiguità e irregolarità e ridurre il più possibile il margine di errore.
L'analisi grammaticale viene fatta mediante un software che definisce un insieme di regole strutturali che determinano la generazione di proposizioni consentite in una determinata lingua. L'analisi sintattica, invece, viene effettuata mediante altri software, detti "parser", che attraverso la generazione di un albero sintattico, stabiliscono se una frase del testo è ritenuta una proposizione valida all'interno di quella grammatica. L'utilizzo di complessi algoritmi e analizzatori morfologici, sintattici e semantici è finalizzato a migliorare la qualità della ricerca dell'informazione (information retrieval), l'organizzazione sistematica dell'informazione, la classificazione automatica dei documenti, l'estrazione delle informazioni da documenti, o la traduzione del testo.
  

L'analisi semantica del testo  qualche riferimento concreto
Finora, la tecnologia non era abbastanza potente - cioè sofisticata e complessa - da "comprendere" il testo e il lavoro di indicizzazione (e quindi di organizzazione dell'informazione) era - e lo è ancora - di competenza del documentalista. Si tratta, quindi di un lavoro che è ancora svolto principalmente dall'uomo, attraverso un lavoro cosiddetto manuale e non automatico. Il documentalista legge e/o esamina l'unità informativa (es. articolo, documento, software, pagina Internet, sito, immagine, ecc.) e assegna ad essa delle parole chiave che ne descrivono il contenuto. Tale corrispondenza testo-parola chiave assicura un information retrieval maggiormente soddisfacente e preciso senza produrre "rumore", cioè informazione aggiuntiva non pertinente. Le parole chiave possono essere tratte da liste standardizzate, liste d'autorità o thesauri. Per un appronodimento sul thesaurus come strumento documentario leggi l'articolo correlato, a cura della Dott.ssa Marisa Trigari.
  

Il linguaggio orale  qualche riferimento concreto
Questo filone di ricerca si occupa invece di trattare automaticamente il linguaggio orale, prevalentemente attraverso due modalità:

  • il riconoscimento vocale (o del parlato) consiste, per esempio, nell'identificare una o più parole appartenenti a un menù di parole prefissato. Queste sono le tecnologie di base dei centralini telefonici che consentono all'utente di ottenere informazioni o istruzioni in modo automatico;
  • il riconoscimento del parlante, invece, consiste nell'identificazione del parlante da parte della macchina, previo inserimento dei parametri necessari (campione della voce, decodifica del timbro vocale, eccetera). Questa tecnologia è utilizzata, per esempio, per soluzioni antintrusione o in genere di sicurezza: l'accesso a un luogo o a un servizio (per esempio l'home banking) è possibile solo dopo l'identificazione e il riconoscimento della voce del soggetto.


La sintesi vocale  qualche riferimento concreto
Si tratta della conversione di un qualsiasi testo scritto in un messaggio vocale sintetizzando una voce con le stesse caratteristiche di quella umana, sia femminile che maschile.
Le tecnologie attuali permettono di costruire una frase parlata concatenando sequenze opportune di frammenti di voce ricavati segmentando la voce preregistrata di un parlatore umano. In questo modo risulta possibile ricercare in tempo reale nel dizionario acustico gli elementi vocali più adatti, possibilmente i più lunghi, in modo che la frase abbia un andamento naturale. Allo studio anche l’intonazione delle frasi sintetizzate in base al senso della stessa.
 

La traduzione automatica  qualche riferimento concreto
E' un altro esempio di tecnologia basata sul Tal (Trattamento automatico del linguaggio). Per il momento, i risultati sono contenuti e limitati a contesti di applicazione specifica.
Un'applicazione interessante è stata realizzata nel campo del turismo e riguarda la traduzione di semplici frasi orali: una richiesta di informazioni via telefono, per esempio, al centralino di un hotel da parte di uno straniero, viene convertita nella lingua del destinatario e, viceversa, la risposta.

Insomma, probabilmente non arriveremo entro breve tempo a una tecnologia della traduzione automatica che sia esente da errore. Resta il fatto, però, che allo stato attuale delle ricerche questi sistemi di automazione, per quanto imprecisi, sono un valido aiuto in molteplici contesti.

 

di Silvia Panzavolta, Indire [s.panzavolta@indire.it]
editing Lorenzo Calistri, redazione webzine [l.calistri@indire.it]

L'immagine è tratta dall'archivio immagini DIA di Indire

 
Articoli correlati

Non sono presenti articoli correlati
di ( )