TagMe: annotazione dei testi

Un Socio ARTES 4.0 descrive un software di Text Mining & Analytics, TagMe, le cui basi scientifiche sono state pubblicate su riviste e conferenze internazionali del settore, e la piattaforma contenente altri tool di Text Analytics, è stata oggetto di collaborazioni industriali internazionali per lo sviluppo di strumenti di analisi di news, tweets, post, e di motori di ricerca di nuova generazione.

Tecnologie Abilitanti:

Big Data & Analytics

Tecnologia abilitante:

Big data&Analytics/Data science&mining;

Settore industriale: ICT;

Cliente target: Aziende che gestiscono Big Data testuali e hanno la necessità di sviluppare strumenti di Text mining e analytics per estrarre conoscenza da essi.

Problema affrontato:

I dati testuali sono non strutturati e quindi c'è bisogno di strumenti complessi basati su tecniche di Natural Language Processing (NLP), machine learning, strutture dati avanzate che, operando anche su Knowledge Base, siano in grado di estrarre conoscenza da essi.

Soluzione tecnica proposta:

Si tratta di una delle prime piattaforme di Text Analytics al mondo a includere la tecnica di “annotazione semantica” dei testi. Questa identifica, efficientemente ed efficacemente, sequenze significative di termini nel testo in input e le collega alle pagine di Wikipedia che sono pertinenti a descriverne il significato. Il software che implementa questi algoritmi di annotazione prende il nome di TagMe. Esso è in grado di annotare testi in lingua italiana, inglese e tedesca (potenzialmente estendibile ad altre lingue). TagMe risulta correntemente uno dei tool di riferimento internazionale sia a livello accademico che industriale nel contesto dell’annotazione testuale. Attualmente è disponibile nella Infrastruttura di Ricerca SoBigData.eu, finanziata nell’ambito di H2020. TagMe ha ricevuto fino a oggi oltre un miliardo di richieste di annotazione tramite la sua interfaccia API.

L’elemento di successo consiste nel fatto che TagMe consente di rappresentare un testo non più, e non solo, come un insieme di parole quanto piuttosto come un “grafo di concetti” derivati dall’annotazione semantica del testo in input. I risultati scientifici di questi ultimi anni hanno dimostrato che questa rappresentazione è molto potente perché fornisce ai testi una “contestualizzazione” particolarmente significativa la quale permette di superare le limitazioni del classico paradigma del Bag-of-Words menzionate precedentemente. Infatti, non solo i concetti identificati hanno un significato univoco (a differenza delle parole) ma in più, essendo essi parte di una base di conoscenza (Knowledge Base) come Wikipedia o Wikidata, sono associati ai dati più importanti relativi a quel concetto e linkati tra loro. Questo crea un "ponte" tra il linguaggio scritto e un “frammento” della conoscenza umana.

Unicità della soluzione:

La tecnologia proposta è stata sviluppata nel corso di 10 anni dal laboratorio Acube Lab dell'Università di Pisa, grazie anche a due Google Faculty Awards (2010 e 2012), e vari altri progetti nazionali e internazionali, alcuni in collaborazione con aziende prestigiose. TagMe fa parte di una piattaforma più estesa che offre anche altri strumenti di Text Analytics che si appoggiano o estendono questo tool, e sono disponibili su: https://services.d4science.org/web/tagme.

Risultati in termini numerici: Gli strumenti di Text Analytics messi a disposizione dalla piattaforma raggiungono prestazioni allo stato dell'arte con percentuali di accuratezza nella annotazione semantica dei testi che, in alcuni casi, superano il 90%.

Keywords: Semantic Search, Text analytics, Search Engines, Web analytics

Fonte: Università di Pisa

Per maggiori informazioni sull'autore del caso d'uso: www.artes4.it/Contattaci

Tecnologie Abilitanti:

Tecnologia abilitante:

Problema affrontato:

Soluzione tecnica proposta:

Unicità della soluzione:

Iscriviti alla newsletter