Dai social network alle città l’intelligenza artificiale può aiutarci a trovare le connessioni nascoste, può darci una visione diversa, spesso proprio grazie al gioco e agli aspetti “fun” legati al divertimento, all’ironia, al sarcasmo e alla creatività in genere. Con Rossano Schifanella, assistant professor in computer science all’Università di Torino, è stato molto facile approfondire la relazione AI ♥ FUN

 

Tempo fa lei si è occupato di sarcasmo e di come le macchine lo possano comprendere, quello studio venne notato e pubblicato a livello internazionale: com’era nato e cosa sosteneva?

Il lavoro era nato nel contesto di un periodo di ricerca presso una nota media company durante il quale studiavamo modelli di comprensione del linguaggio sui social media. Analizzando i discorsi tra gli utenti, il linguaggio figurativo, il sarcasmo in particolare, emergeva come forma di comunicazione diffusa che poneva delle sfide particolari, specialmente nell’identificazione del sentimento di un post, come per esempio l’opinione positiva o negativa su un personaggio politico o su un evento. Adottando algoritmi di analisi testuale, il sentimento generale veniva ribaltato quando in una frase, in particolare, il senso letterale e quello intenzionale erano opposti, come nel caso del sarcasmo. Un ulteriore aspetto cruciale su cui ci siamo soffermati riguarda la multimedialità dei contenuti web, nei quali il testo è sempre più spesso accompagnato da immagini e filmati. L’esempio tipico è quello di un post in cui la frase “Che bella giornata oggi!” è associata all’immagine di un terribile temporale. Diversamente dagli approcci correnti che analizzavano solo la parte testuale, ci siamo focalizzati sulle conoscenze provenienti da media eterogenei.

Come funzionava l’algoritmo messo a punto? Con quale percentuale di successo permetteva alla macchina di individuare un contenuto sarcastico?

L’algoritmo era composto da due principali moduli che modellavano rispettivamente la componente testuale e visiva. Nella modellizzazione del linguaggio abbiamo utilizzato aspetti lessicali che misurano l’utilizzo di particolari parole e la loro frequenza, variabili sintattiche come l’impiego di punteggiatura, emoticon o emoji e variabili legate al sentimento e alla soggettività del post. Per quanto riguarda la componente visuale, le immagini sono state analizzate adottando modelli di deep learning che attualmente sono diventati lo standard per moltissimi task di analisi di immagini digitali, come “object detection” o “scene understanding”. In particolare, abbiamo usato una rete neurale in grado di identificare oltre 1500 concetti diversi in un’immagine, ciascuno con un grado di confidenza associato. Modelli diversi di fusione delle due dimensioni, testuale e visuale, sono stati poi testati in un ambiente supervisionato, in cui una parte dei post annotati dagli utenti come sarcastici attraverso l’utilizzo degli hashtag #sarcasm e #sarcatistic sono stati usati per addestrare il modello finale. La variante più performante del sistema messo a punto era in grado di identificare un contenuto sarcastico con un’accuratezza tra il 70% e l’85% a seconda della piattaforma social utilizzata.

Come si sono evoluti i sistemi di riconoscimento automatico del sarcasmo? Come funzionano oggi, cosa sono in grado di fare?

Nel corso degli ultimi anni sono stati proposti diversi approcci che utilizzano sempre più pesantemente varianti di reti neurali e l’interazione tra le modalità testuale e visiva, visto il carattere visuale crescente nella comunicazione sui social media. Un aspetto interessante affrontato di recente è la possibilità non solo di riconoscere la presenza di sarcasmo o ironia, ma di generare automaticamente frasi sarcastiche mediante, per esempio, l’impiego di varianti di recurrent neural networks. Le applicazioni sono molte: annotazione automatica di immagini o generazione automatica di commenti che contengano linguaggio figurativo, oppure l’implementazione di agenti conversazionali, per esempio chatbox, che adottino uno stile linguistico specifico.

Su quali altre forme di espressione creativa nei social media possono essere applicate queste tecniche di analisi: umorismo, metafore, caricature ecc.?

Le forme creative alle quali tecniche di intelligenza artificiale sono state applicate sono numerose: le metafore linguistiche e visuali, il riconoscimento e la generazione di opere d’arte secondo stili predefiniti o la composizione di brani musicali. In generale, l’ambito della creatività computazionale è stato molto attivo nell’ultimo decennio, con l’introduzione di molti approcci che tentano di riprodurre il processo creativo, considerato una delle prerogative uniche dell’essere umano e del suo sistema cognitivo. Un altro interessante esempio, con il quale sono venuto in contatto durante lo stesso periodo di ricerca già citato, aveva lo scopo di valutare l’umorismo di una serie di commenti postati dai lettori del settimanale “New Yorker” all’interno del “New Yorker Cartoon Caption Contest”, uno spazio in cui i lettori sono chiamati a postare una didascalia umoristica da associare a un’immagine scelta dai redattori. L’algoritmo era in grado di individuare automaticamente le tre didascalie più divertenti con una precisione simile a quella dei redattori umani.

Sarà importante per l’interazione uomo-macchina nel futuro rendere l’intelligenza artificiale in grado di riconoscere queste forme di espressione creativa? Perché?

Sicuramente l’abilità di un sistema di intelligenza artificiale di riconoscere forme di creatività potrà concorrere a ridurre l’enorme gap che attualmente esiste per forme di ragionamento che per noi umani sono relativamente semplici e che invece sono molto complesse da modellare in sistemi artificiali. La capacità non solo di riconoscere ma anche di generare contenuti creativi potrebbe avere conseguenze importanti, per esempio, sull’industria dell’intrattenimento, sia nella fase di supporto alla produzione che nella fruizione finale da parte degli utenti. Alcuni colleghi del Dipartimento di Informatica di Torino, per esempio, in collaborazione con il Centro Ricerche RAI stanno sviluppando una logica per la generazione automatica di nuovi personaggi e trame di prodotti di intrattenimento che siano il risultato della ricombinazione creativa di elementi estratti da database preesistenti. La strada, comunque, è ancora estremamente lunga. In primo luogo, non esiste una definizione univoca di creatività e il riconoscimento di un post divertente o del tono sarcastico di un commento sono processi complicati anche per un annotatore umano, su cui spesso non c’è convergenza. Inoltre, essi necessitano della conoscenza del contesto e di nozioni di “senso comune” di cui i sistemi artificiali non sono dotati.

Quale peso ha l’elemento “ludico” nella ricerca sull’AI? In quali contesti, per quali finalità trova o troverà applicazione?

Un’evidente connessione fra ricerca in AI e dimensione ludica è data dai recenti sviluppi di algoritmi basati su reti neurali in grado di imparare giochi anche complessi senza essere stati istruiti esplicitamente sulle regole. Il caso dell’algoritmo “AlphaGo” sviluppato da Google DeepMind è uno degli esempi più recenti e discussi di un modulo di intelligenza artificiale in grado di battere ripetutamente il campione mondiale di “Go”, ritenuto fino a quel momento un problema estremamente complesso da risolvere per una macchina. A parte l’ovvia applicazione dei sistemi di ragionamento automatico ai moderni videogames, algoritmi di intelligenza artificiale sono presenti in massa anche in applicazioni dell’industria dell’intrattenimento, come servizi di streaming audio o video. Un ulteriore aspetto è il diffuso utilizzo di meccanismi di gamification per incentivare comportamenti virtuosi, per esempio nel caso delle applicazioni fitness, oppure per spingere un prodotto in campagne di marketing, incentivare l’utilizzo di servizi mobile di vario genere o l’adozione e la condivisione di contenuti nei social media. E questi sono solo alcuni esempi di un ben più ampio campo di applicazione.

Nella sua attività di ricerca vengono utilizzati i metodi computazionali per indagare fenomeni sociali, estetici e creativi. In che modo?

Negli ultimi anni ho lavorato spesso all’applicazione di modelli computazionali e grosse moli di dati eterogenei a differenti aree solitamente dominio di approcci qualitativi o esperimenti su scala limitata. In particolare, nell’ambito della disciplina oggi conosciuta come computational social science, l’obiettivo è stato quello di utilizzare dati digitali spesso provenienti da piattaforme di social media per la modellizzazione di diversi aspetti e problematiche della società contemporanea. Ad esempio, la semantica di una relazione in una rete sociale o, recentemente, il rapporto tra consumi alimentari e malattie croniche. In parallelo, mi sono occupato di modelli per la quantificazione del valore estetico di un’immagine. In particolare, partendo da un dataset annotato da utenti umani, il modello era in grado di associare automaticamente uno score a un contenuto visuale, abilitando una serie di meccanismi di incentivazione che preferissero la qualità rispetto alla popolarità, che è un fenomeno prettamente sociale non sempre allineato con il valore intrinseco di un item. Infine, analizzando un insieme di caratteristiche legate a un micro-video, come il contenuto, le tecniche di ripresa, le regole di composizione, le proprietà di immagini e suono, l’originalità, abbiamo costruito un classificatore in grado di discernere tra video creativi e non. Si tratta di applicazioni finalizzate alla riduzione del cosiddetto “information overload”.

Progetti come “Happy maps” e “Smelly maps” ai quali ha partecipato utilizzano i metadati per costruire una sorta di cartografia alternativa delle città, basata sulle emozioni e/o sulle percezioni. Ce ne parla e ci dice quali sono gli obiettivi di ricerca?

La percezione dello spazio che ci circonda ha un effetto importante sulle emozioni, le attività, la vita sociale e in generale il well being di un individuo. Attraverso l’analisi di dati geolocalizzati, provenienti da piattaforme social come Instragram o Flickr, l’obiettivo è stato quello di modellare le percezioni sensoriali di scene urbane secondo le dimensioni visive, olfattive e sonore. Immaginate di camminare lungo una strada, quanto è esteticamente piacevole l’ambiente circostante? Quali suoni e odori sono presenti? Quali sono le emozioni che di conseguenza vengono generate? Queste sono solo alcune delle domande alle quali abbiamo cercato di dare una risposta quantitativa, con una metodologia scalabile e riproducibile. Le applicazioni sono molte: da sistemi di routing che suggeriscono il percorso più piacevole (anziché quello più veloce) tra due punti della città, fino al supporto decisionale per amministratori e architetti nella fase di progettazione di nuovi spazi pubblici o di gestione di quelli presenti. Le attività sono inserite nell’ambito nell’iniziativa GoodCityLife (http://goodcitylife.org) che coinvolge un gruppo interdisciplinare di ricercatori con l’obiettivo di fornire strumenti per rendere le nostre città non solo più efficienti, ma soprattutto più a misura d’uomo e felici.

La “digitalizzazione” delle nostre abitudini quotidiane, l’uso massiccio dei social network hanno cambiato la nostra percezione di alcune emozioni? Del divertimento?

È innegabile che la diffusione delle tecnologie digitali abbia modificato i meccanismi di interazione sociale in forme che però, ad oggi, non è possibile definire nella loro interezza. Il punto è che siamo in una fase in cui non siamo in grado di quantificare l’impatto sulla società, basti pensare alle discussioni sull’effetto che il discorso collettivo sui social media ha avuto su elezioni politiche o argomenti di interesse globale, come il cambiamento climatico o la Brexit. Alla fine l’uso massivo dei social media è un fenomeno che ha poco più di quindici anni.

L’intelligenza artificiale, dunque, ci può dare una visione diversa del mondo? Può aiutarci a trovare connessioni finora nascoste? E gli aspetti “fun” possono essere il terreno di sperimentazione?

Personalmente credo che il beneficio più evidente dell’intelligenza artificiale, così come viene concepita oggi, sia proprio la possibilità di estendere le capacità umane, semplificando tasks che prima era complessi e spingendo in avanti i limiti di quello che l’uomo è in grado di compiere. Non si tratta di sostituire ma di coadiuvare. In questa visione sono molti gli esempi in cui moderni algoritmi di apprendimento sono stati in grado di facilitare scoperte e allargare gli orizzonti della conoscenza umana, basti pensare per esempio all’analisi di immagini mediche e alla conseguente scoperta di nuove patologie cancerogene prima sconosciute. È importante inoltre sottolineare come il gioco possa essere parte integrante del processo di avanzamento della conoscenza, basti pensare agli innumerevoli esempi di games with a purpose o serious games incentrati sulla raccolta di dati o la risoluzione di un task collaborativo attraverso il divertimento e il gioco. Un esempio storico è “Foldit”, un videogioco sperimentale che aveva lo scopo di studiare il ripiegamento proteico e la progettazione di nuove proteine, o il famoso “ESP Game” sviluppato da Luis von Ahn in cui due giocatori dovevano associare indipendentemente una descrizione testuale a un’immagine, ricevendo un incentivo in punti per ogni match fra parole. Queste descrizioni collettive erano poi state usate da Google per migliorare l’accuratezza del proprio algoritmo di ricerca.

 

AI ♥ FUN