Indire, sito ufficiale
Istituto Nazionale di Documentazione, Innovazione e Ricerca Educativa MIUR
immagine di contorno      Formazione separatore dei progetti      Documentazione separatore barra alta      Didattica separatore barra alta      Comunicazione separatore barra alta Europa
contorno tabella centrale
TAL

TAL, a che punto siamo?

Dal Libro Bianco sulle tecnologie del linguaggio, alcune indicazioni interessanti per capire dove siamo e dove andiamo

di Silvia Panzavolta
13 Giugno 2005

Il TAL (Trattamento Automatico della Lingua) Banca Dati Dia stato recentemente oggetto di uninteressante pubblicazione, a cura Andrea di Carlo e Andrea Paoloni (cfr. precedenti articoli di Indire) della Fondazione Ugo Bordoni di Roma, che fa il punto sullo stato dellarte in Italia.

La pubblicazione si intitola Libro Bianco sul Trattamento Automatico della Lingua (2004), gratuitamente scaricabile dal sito del Forum TAL. Ed proprio dai contributi provenienti dal forum, a cui partecipano i principali attori dei diversi settori culturali e produttivi, che sono state tratte le informazioni riportate nel testo.

Interessanti sono i risultati di unindagine conoscitiva che stata condotta sulle strutture nazionali (escludendo le realt straniere e multinazionali) che in Italia sviluppano tecnologie del linguaggio.

Per il mondo accademico hanno risposto 37 soggetti, tra istituti di ricerca pubblici, privati e universit, e altri 34 soggetti del mondo industriale. Considerando anche i soggetti che non hanno risposto al questionario, si pu osservare che il panorama italiano appare piuttosto vivace, almeno dal punto di vista dellinteresse.
Inoltre, sono stati censiti circa 200 progetti (tra terminati e in corso) che si occupano di tecnologie del linguaggio, 229 prodotti, 76 insegnamenti e 16 curricoli universitari correlati con il TAL. Le unit operative censite che si occupano di TAL sono 86 e coinvolgono 590 persone (210 nel mondo dellUniversit e della Ricerca e 380 nel mondo dellindustria). Dallindagine risulta che la maggior parte dei finanziamenti ai progetti provengono dallUE (60%), dal Ministero dellIstruzione Universit e Ricerca (32%) e il resto (8%) da istituti locali o da altri contesti. La durata media dei progetti risulta essere di circa 3 anni.

Interessante lanalisi sugli insegnamenti universitari, che per la maggior parte si collocano allinterno dellarea umanistica e, secondariamente, nellarea di informatica e ingegneria (Figura 1). I dati si riferiscono allanno accademico 2002-2003. Il grafico una rielaborazione dei dati riportati nel Libro Bianco.

Insegnamenti per classi di laurea

Figura 1. Percentuale degli insegnamenti, suddivisi per classi di laurea, il cui curricolo contiene argomenti legati al TAL.

Eppure, nonostante lapparente vivacit, il TAL un settore ancora oscuro a molti ricercatori, sia linguisti che ingegneri, per non parlare del grande pubblico.

Quali sono, allora, gli ostacoli alla crescita della ricerca nel settore e allo sviluppo di applicazioni tecnologiche? Secondo il Prof. Leonardo Felician, docente di Sistemi informativi presso il Dipartimento di Ingegneria elettrotecnica, elettronica e informatica dell'Universit di Trieste, il TAL soffre in Italia di alcuni mali, ad esempio della scarsa rappresentanza a livello universitario e della scarsa informazione e promozione. In Italia le applicazioni sono poche e poco conosciute, afferma, ma in prospettiva si potrebbe ipotizzare che se fosse disponibile, ad un costo ragionevole e con una buona stabilit, una tecnologia che copre i settori di Banca Dati Diainteresse delle aziende, si scatenerebbe una sorta di effetto elettrodomestico. Il problema, denuncia Felician, che le tecnologie del TAL sono ancora troppo costose e troppo poco stabili e, soprattutto, non chiaro fino a che punto funzionano. I prototipi o le versioni demo di queste tecnologie non sono presenti n sui siti delle aziende n su quelli dei progetti di ricerca e ci contribuisce a mantenere intorno al TAL una certa aura di mistero e oscurit.

Il Prof. Domenico Parisi, ricercatore allIstituto di Psicologia del CNR, presidente dellAssociazione Italiana di Scienze Cognitive e direttore della rivista Sistemi Intelligenti, sostiene, invece, che un grosso ostacolo per lo sviluppo del TAL limpostazione metodologica che la ricerca ha intrapreso fino ad ora. Infatti, si trascurato laspetto pragmatico del linguaggio, ossia il modo in cui esso viene usato allinterno degli scambi comunicazionali umani, privilegiando approcci vecchi e che poco riproducono i meccanismi interpretativi dei parlanti.

Un altro interessante commento proviene dal Dott. Giuseppe Giovanni Pavone, Responsabile delle ICT Operations di Poste Italiane, il quale dichiara che uno dei maggiori interessi dellazienda, e di molte aziende in generale, il Knowledge Management, la possibilit di inserire in un unico contenitore tutta la conoscenza esplicita (documenti, fonti, norme) e implicita (soluzione di problemi, processi) e di mappare le informazioni in una struttura concettuale che possa essere interrogata attraverso un sistema informatico. Il problema, argomenta Pavone, che le tecnologie del linguaggio non sono sufficientemente studiate e lUniversit non prepara in modo adeguato n ingegneri n linguisti. Bisognerebbe afferma Pavone rendere pi umanistici gli ingegneri e ingegnerizzare un po di pi i letterati!.

In conclusione, dallindagine qualitativa e quantitativa contenuta nel Libro Bianco, emerge un dato di fatto poco confortante: da quando si iniziato a far ricerca (ossia dagli anni 60, con studi sullintelligenza artificiale), la tecnologia del linguaggio non stata granch sviluppata e nemmeno stato compreso pi di tanto il grosso potenziale applicativo e l'impatto che tali tecnologie si auspica abbiano. Il percorso, insomma,  ancora lungo


Di seguito viene offerta una sitografia ragionata per coloro che volessero approfondire largomento:

  • Consiglio Nazionale delle Ricerche, ILC, stato il primo istituto in Italia a lavorare nel settore della linguistica computazionale ed uno degli istituti pi attivi e avanzati nel settore, operando anche a livello internazionale. Partecipa allo sviluppo di Eurowordnet, un vocabolario ontologico multilingue, che organizza, definisce e descrive i concetti e ne mostra i corrispondenti nelle altre lingue. Eurowordnet nasce sul modello Wordnet, messo a punto dai ricercatori del Cognitive Science Laboratory dellUniversit di Princeton;
  • Consiglio Nazionale delle ricerche, Laboratorio di Ontologia Applicata (LOA), lavora nel campo dellingegneria della conoscenza e della modellizzazione concettuale di sistemi informativi; 
  • Fondazione Ugo Bordoni, svolge attivit di ricerca e disseminazione nel settore del TAL. Da segnalare, il meta-motore di ricerca concettuale per la classificazione automatica dei risultati; 
  • Export System, opera nel settore del TAL dal 1989 ed tra le poche al mondo ad aver fornito tecnologie del linguaggio a Microsoft;
  • Loquendo, azienda che si occupa prevalentemente di tecnologia vocale e ha sviluppato software e piattaforme addirittura in 15 lingue;
  • RAI, Teche Rai, studia e sperimenta tecniche innovative di gestione del patrimonio audiovisivo della Rai, fra cui lindicizzazione automatica di contenuti audiovisivi;
  • WebAgent, azienda impegnata nella ricerca e nello sviluppo di nuove interfacce ed applicazioni basate sulla comprensione del linguaggio naturale. Interessante il sistema di ricerca delle informazioni nel sito, attraverso una graziosa assistente virtuale, Libi;  
  • Yana Research S.r.l., sviluppa in particolare tecnologie user-oriented, applicazioni per il recupero dellinformazione e per il Knowledge Management.

Si rimanda al Libro Bianco per ulteriori informazioni e approfondimenti.

 

 
Articoli correlati

TAL: stato dell'arte in Italia
di Lorenzo Calistri (19 Dicembre 2003)

Trattamento automatico del linguaggio e fantascienza
di Massimo Acciai (11 Novembre 2003)

Il trattamento del linguaggio naturale (TAL)
di Silvia Panzavolta (04 Novembre 2003)

Gli attori del TAL
di Lorenzo Calistri (04 Novembre 2003)

Traduttori automatici gratuiti
di Silvia Panzavolta (01 Gennaio 2003)