Insieme al team di Metaliquid, startup che ha fondato insieme al marito, Federica Gregori ha messo a punto una delle applicazioni di intelligenza artificiale più avanzate nell’industria media. 

I contenuti video in rete sono scatole nere fino ad oggi mai decodificate, una miniera d’oro di informazioni con un potenziale di utilizzo molto elevato ancora tutto da esplorare. Questa la sfida di Federica Gregori, cofondatrice di Metaliquid, startup che ha sviluppato un algoritmo basato sull’intelligenza artificiale in grado di analizzare e interpretare contenuti video in real time. Un’applicazione con possibilità di utilizzo infinite, definita una delle più avanzate in commercio per quanto riguarda le tecnologie di deep learning nell’industria media. E con prospettive molto interessanti anche in ambito advertising.

A che punto è la ricerca sull’applicazione dell’intelligenza artificiale per il riconoscimento video? Quali applicazioni esistono?

L’applicazione dell’intelligenza artificiale nell’analisi e riconoscimento di video ha una storia relativamente giovane perché solo negli ultimi 2/3 anni la capacità di calcolo ha permesso lo sviluppo di architetture adatte a questo scopo. Da anni siamo abituati a sentir parlare di riconoscimento per quel che riguarda le immagini ma l’ambito dei video è estremamente più complesso e introduce, oltre a una maggiore complessità a livello tecnico, anche molte opportunità di analisi ed applicazioni perché considera la dimensione temporale e dunque una semantica delle azioni più articolata.

I big della Silicon Valley hanno sviluppato delle soluzioni general purpose che individuano con un certo grado di accuratezza delle classi di concetti nei video, le applicazioni sono potenzialmente tante ma la specificità che ogni ambito richiede fanno sì che gli use case veri e propri non siano ancora molti. Questa necessità di soluzioni specifiche e verticali anche nel mondo media è stato uno dei motivi che ci ha spinto a creare Metaliquid e che ci sta premiando.

In quale percentuale i dati dei contenuti video oggi vengono raccolti e utilizzati?

È difficile stimare una percentuale ma si può affermare che fino ad oggi, non essendo possibile automatizzare il processo, l’utilizzo di metadati descrittivi fosse estremamente ridotto rispetto al potenziale. Se consideriamo il mercato broadcast e media i contenuti video, live o di catalogo, sono l’asset principale, tuttavia le informazioni relative a ciò che accade in ognuno di loro sono pochissime. Questo perché i metadati disponibili sono per lo più relativi a informazioni generali come per esempio la categoria di appartenenza o nel caso dei film il cast. Tutto ciò che accade invece dal punto di vista di contenuto e narrativo è stato fino a oggi ignorato dal punto di vista di dati, in quanto estrarre queste informazioni era un’operazione possibile unicamente se condotta manualmente, un processo ovviamente lungo, oneroso e influenzato dalle valutazioni soggettive di chi compie l’analisi.

In poche parole, i video hanno rappresentato fino a oggi una scatola nera e le informazioni contenute, il cui valore potenziale è estremamente elevato, sono rimaste inutilizzate.

Cosa è in grado di riconoscere l’algoritmo di MetaLiquid in un video e in che modo sfrutta l’intelligenza artificiale?

Metaliquid utilizza le reti neurali per riconoscere migliaia di concetti in video, restituendo metadati descrittivi lungo tutta la durata di un contenuto.

Oggi offriamo servizi che spaziano dal riconoscimento dei cambi di inqudratura, dei volti dei soggetti, l’ambientazione della scena, oggetti, loghi e brand. Abbiamo anche dei servizi estremamente specifici per il mondo broadcast/OTT come il riconoscimento dei credits di apertura e chiusura di serie TV che permettono di offrire funzionalità analoghe al binge watching offerto da Netflix. Una delle sfide più interessanti che stiamo però conducendo con soddisfazione è quella del riconoscimento delle azioni sportive, ad esempio nel calcio, di goal, falli, punizioni, sostituzioni e molte altre che sono di grande interesse per l’industry.

La possibilità inoltre di effettuare l’analisi in real time con tempi di latenza ridotti permetterà in futuro di sviluppare e offrire una user experience maggiormente coinvolgente e un’interazione maggiore dello spettatore con il contenuto e le piattaforme.

Quali sono le sue applicazioni attuali e quali quelle possibili? A chi vi rivolgete ora e a chi potrete rivolgervi in futuro?

Le applicazioni attuali sono già moltissime. Le funzionalità possono essere di grande valore per migliorare l’esperienza di content discovery sulle piattaforme OTT e VOD, arricchire di dati descrittivi i sistemi di digital asset management e migliorare la user experience (già oggi con le funzionalità di binge watching e in futuro con nuove funzionalità di interazione con i contenuti). Potremo ad esempio se iniziamo a guardare una partita a metà del primo tempo chiedere alla nostra applicazione di vedere gli highlights accaduti fino a quel momento. La user experience potrebbe inoltre essere personalizzata per ogni utente in base alla sua “storia” di spettatore.

C’è poi un enorme campo di applicazione in ambito advertising, sapere cosa effettivamente accade in un contenuto e il sentiment sono informazioni molto preziose per la scelta dell’allocazione degli slot di advertising, poiché consentono di associare brand e prodotti a contenuti in linea con gli obiettivi dell’adv e i valori del brand.

Il media monitoring è un altro ambito in cui le applicazioni sono di grande valore. Metaliquid può automatizzare la verifica della presenza di brand e prodotti e, misurando anche il valore dell’impression e della salienza per lo spettatore, monitorare infrazioni di copyright e supportare la correzione degli EPG ossia la guida elettronica dei programmi.

Ci sono poi applicazioni maggiormente tecniche che riguardano il controllo qualitativo dei contenuti e della qualità percepita da parte degli spettatori.

E’ stata definita come una delle applicazioni più avanzate in commercio per quanto riguarda le tecnologie di machine learning nell’industria media. Attraverso quale percorso, quali intuizioni e quali obiettivi ci siete arrivati?

Metaliquid nasce da una esperienza di diversi anni in ambito di machine learning che abbiamo maturato con la società “madre” che si occupa di advanced analytics in ambito big data. Avendo lavorato molto anche in ambito media, abbiamo avuto la possibilità di vedere questa opportunità di applicazione delle nostre skills e sviluppare una soluzione dedicata.

Chi sono i vostri competitor sul mercato?

A oggi i competitor che si rivolgono specificatamente al mondo media e broadcast con soluzioni analoghe alla nostra sono pochissimi, a livello globale si contano sulle dita di una mano. Ovviamente ci sono poi i big come IBM, Google e Amazon, i loro servizi di computer vision offrono tuttavia tassonomie molto ampie ma al contempo generiche che non trovano immediata applicazione in questa industry.

Di “piccoli” come noi ci sono un paio di altre startup che cercano di offrire servizi simili ai nostri.

PHD, in qualità di agenzia media e di comunicazione globale, esplora da anni il futuro della tecnologia e le relative implicazioni. Nella nostra ultima pubblicazione internazionale dal titolo “Merge” raccogliamo il pensiero di molti innovatori secondo i quali “più le macchine diventeranno intelligenti, più il divario tra uomo e tecnologia diminuirà, fino a raggiungere un punto di fusione”. Lei cosa ne pensa?

Questa tematica è estremamente complessa e devo dire anche stimolante. Siamo noi a creare le macchine intelligenti: l’indirizzo che daremo alla ricerca negli anni a venire e la conseguente creazione di prodotti è sempre e comunque il risultato di un pensiero e di un progetto umano. Il punto di fusione e la singolarità sono temi molto dibattuti oggi. Ci sono progetti di AGI (Artificial General Intelligence) che mirano a creare una AI che replica il comportamento umano, ma credo che i veri benefici delle applicazioni dell’AI nel futuro prossimo li vedremo nel quotidiano professionale e privato dove contribuiranno a un aumento della qualità dei servizi.

L’intelligenza artificiale può costituire una minaccia per l’uomo come indicato da alcuni illustri pensatori (uno su tutti Stephen Hawking)?

È difficile dirlo, sicuramente se intendiamo l’intelligenza artificiale come uno strumento, le sue applicazioni possono anche essere potenzialmente minacciose, tutto dipende dall’intento alla base della loro applicazione. Il progresso e le innovazioni tecnologiche hanno sempre portato con sé benefici e anche alcuni pericoli, ma se guardiamo la storia a oggi sicuramente i primi sono infinitamente maggiori dei secondi.

Crede che i produttori di sistemi basati sull’intelligenza artificiale dovrebbero attenersi a linee guida etiche comuni?

Soprattutto rispetto ad alcuni ambiti di applicazione sarà necessario definire delle linee guida, ma queste non riguarderanno nell’immediato l’AI in generale. Ad esempio, uno dei temi molto dibattuti negli ultimi 2 anni è quello delle scelte che un veicolo a guida autonoma dovrebbe compiere quando le condizioni in cui si trova implicano una valutazione del rischio che riguarda sia i passeggeri del veicolo che i pedoni o veicoli nelle vicinanze. La scelta di tutelare gli uni o gli altri a seconda del contesto non possono essere lasciate al costruttore ma devono essere condivise e stabilite nell’interesse del bene comune di tutti i cittadini.

Siamo in un periodo storico estremamente vivo e intenso per quello che riguarda l’AI, da decenni se ne parla ma solo negli ultimi anni siamo posti di fronte alle prime vere applicazioni diffuse e credo che la definizione di eventuali linee guida non sia un argomento che riguarda solo noi addetti ai lavori ma tutti.

AI Love Women