Verso una Nuova Scienza di Confine : L'algoritmo di Google e di altri motori di ricerca, presto migliori grazie a questa scoperta...

lunedì 24 agosto 2009

L'algoritmo di Google e di altri motori di ricerca, presto migliori grazie a questa scoperta...

Fonte: Galileo

Un metodo matematico per individuare le parole più significative di un testo. Lo ha messo a punto un gruppo di ricercatori dell’Università di Manchester.

Individuare immediatamente le parole chiave di un testo sconosciuto, quelle che ne indicano il contenuto, è il sogno di ogni studioso di testi antichi e sconosciuti. Un sogno da oggi più realizzabile grazie al metodo matematico messo a punto da alcuni ricercatori dell’Università di Manchester che assegna a ogni parola un “valore informativo” e identifica così i termini più significativi di un testo.
Per ottenere questo valore, i ricercatori hanno misurato l’uniformità della distribuzione di ogni parola (hanno calcolato la sua entropia secondo la teoria dell’informazione, disciplina che studia l’elaborazione e la distribuzione dell’informazione), sia in un testo con le parole nel giusto ordine sia nello stesso testo con le parole tutte mescolate. Moltiplicando la differenza tra i due valori di entropia di ogni parola per la frequenza della parola stessa gli scienziati hanno ottenuto l’unità di misura desiderata: il “valore informativo”.
Secondo i ricercatori inglesi è proprio la distribuzione in un testo a decretare il valore di un termine e non il numero assoluto di ripetizioni. Le congiunzioni (e, anche, quindi, ecc.), per esempio, sono usate frequentemente, ma non sono indicative. Infatti, sono uniformemente distribuite in un testo ordinato come in uno disorganizzato e quindi presentano un valore informativo basso. La tendenza a essere raggruppate in capitoli e paragrafi, invece, dà alle parole significative un valore molto alto, rendendole riconoscibili.
La validità della nuova unità di misura è stata confermata da un test condotto su “L’origine della specie” di Charles Darwin: le parole con il valore più alto sono state “specie, varietà, ibridi, forme, isole, selezione e genere”. Il sistema messo a punto dai ricercatori inglesi potrebbe rivelarsi molto utile per la decodificazione di testi in codice o scritti in idiomi sconosciuti. “L’applicazione principale potrebbe però non essere il letteratura, ma in biologia, magari per identificare quei geni che trasportano informazioni utili. Del resto quando si guarda il genoma sembra davvero di essere davanti a una lingua straniera”, ha spiegato Marcelo Montemurro, leader del gruppo di ricerca. (c.v.)
Fonte: New Scientist

Nessun commento:

Posta un commento