Progetto del gruppo di lavoro sui motori di ricerca del dipartimento di Scienze matematiche, informatiche e fisiche

Twitter: l’Ateneo studia un sistema per filtrare automaticamente i messaggi

Per aiutare l’utente a categorizzare i tweet in base ai propri interessi

Seicento cinguettii al secondo. È il numero di messaggi che Twitter, la piattaforma sociale di microblogging, pubblica in questo brevissimo lasso di tempo. Una frequenza elevatissima che, nonostante i tweet siano lunghi al massimo 140 caratteri, dev’essere gestita in qualche modo, pena l’inutilizzabilità del flusso di dati e informazioni potenzialmente a disposizione dell’utente. 

Per rispondere a questa necessità il gruppo di lavoro sui motori di ricerca (Information Retrieval) dell’Università di Udine sta studiando un sistema che categorizzi automaticamente i tweet, aiutando così l’utente a filtrarli in base ai propri interessi (sport, politica, meteo, traffico, spettacolo, ecc). Per individuare meglio l’argomento dei tweet, e quindi procedere alla categorizzazione, l’idea è quella di “arricchire” il messaggio con documenti estratti dal web frutto di ricerche automatiche effettuate sulla base di termini-chiave estrapolati dal tweet sotto esame. 

E dai primi risultati ottenuti dal gruppo, coordinato da Stefano Mizzaro, sembra che fra i 20 miliardi e più di pagine esistenti sul Web, siano proprio le notizie (le “news”) a essere le più efficaci per l’arricchimento. In pratica si sfruttano le notizie per capire meglio il tweet, al contrario di quanto avviene comunemente e cioè sfruttare i tweet per avere ulteriori informazioni sulle notizie (ad esempio, la loro popolarità). Inoltre la categorizzazione dipende dalle caratteristiche dei documenti sfruttati per l'arricchimento. Ad esempio, è importante che i documenti siano pubblicati nello stesso periodo dei tweet che si cerca di classificare. 

Il lavoro del gruppo udinese ha già ricevuto un riconoscimento internazionale per l’articolo “Exploiting News to Categorize Tweets: Quantifying the Impact of Different News Collections” (Sfruttare le notizie per classificare i tweet: l’impatto di differenti collezioni di notizie), premiato come miglior contributo scientifico al workshop NewsIR 2016 tenutosi recentemente a Padova. Gli altri autori sono Matteo Bernardon (laureando), Marco Pavan (dottorando) e Ivan Scagnetto (ricercatore). 

«Poter individuare automaticamente la categoria di un tweet – spiega Mizzaro, docente di Web information retrieval del dipartimento di Scienze matematiche, informatiche e fisiche – può essere utile per decidere, di nuovo automaticamente, se mostrare il tweet a un utente o meno, sulla base di altre caratteristiche. Ad esempio un utente in viaggio in automobile potrebbe essere interessato ai tweet riguardanti il traffico sul suo tragitto, un escursionista ai tweet sul meteo nella sua zona; in situazioni di gestione delle emergenze i tweet potrebbero fornire utili informazioni per la sicurezza personale e non solo. Il nostro lavoro potrebbe essere sfruttato sia dall’ “interno”, migliorando cioè gli algoritmi di Twitter, sia dall’ “esterno”, tramite servizi forniti da applicazioni cui un utente decide autonomamente di iscriversi». 

La riflessione alla base dello studio è che senza qualche ausilio automatico non è pensabile riuscire a gestire la mole di informazioni che riceviamo via web. «Una settimana di un quotidiano oggi – spiega Mizzaro – contiene più informazioni di quante una persona ne incontrava in tutta la sua vita solo due secoli fa. Google, il sistema d'information retrieval più famoso, risponde a miliardi di interrogazioni al mese, migliaia al secondo. E Twitter diffonde 600 messaggi al secondo. Si parla tanto di "Big data", ma la vera sfida scientifica dei nostri tempi è quella di gestire informazioni, non dati: gli umani lo sanno fare, ma solo fino a una certa quantità, poi ne sono sopraffatti; le macchine sono capaci di gestire grandi quantità di dati, ma sono molto meno brave con le informazioni. D'altronde, anche le macchine possono essere pericolose. Chi controlla i nuovi mass media (Google, Facebook, Twitter, ecc.) ha un enorme potere: può invadere la nostra privacy, può censurare informazioni, può farci ricevere solo le informazioni che confermano le nostre credenze, e farci vivere così nella cosiddetta "filter bubble", e può perfino fare esperimenti su di noi (come avvenuto di recente in Facebook)».

Sullo stesso tema

Lunedì 7 Ottobre

Numeri e cybersicurezza, nuovo centro di ricerca con Ateneo, Scuola Normale di Pisa, Ictp di Trieste

Insediato il Centro interuniversitario per la teoria dei numeri e sue applicazioni informatiche

Martedì 14 Maggio

Informatica e parità di genere, a Gorizia maratona creativa per sensibilizzare i giovani

Mercoledì 15 maggio, dalle 9, nel polo di Santa Chiara, un hackathon ospitato dall’Ateneo friulano nell’ambito del progetto nazionale “Coding Girls”

Venerdì 8 Settembre

Immagini, video e machine learning: studiosi a confronto all'Ateneo

Dall'11 al 15 settembre convegno internazionale dell'Associazione Italiana per la ricerca in Computer Vision, Pattern recognition e machine Learning