WakaPic: una galleria fotografica intelligente

Nel corso dell’ultimo anno è stata sfondata la barriera dei 1000 miliardi di foto scattate. Una cifra impressionante che è indice non solo dell’importanza che la conservazione delle immagini ha per le persone, ma anche dell’esigenza di avere uno strumento per gestirle nel modo più efficiente e intuitivo possibile.

Per questo, il team di sviluppo di WakaPic ha deciso di costruire una galleria fotografica che fosse in grado di riconoscere contenuti, come persone, oggetti, forme e colori, e contesti, per esempio luoghi, momenti dell’anno ed eventi, consentendo all’utente di effettuare ricerche basate proprio su questi elementi.

Grazie a Presago, che ne ha sviluppato le soluzioni di intelligenza artificiale, oggi WakaPic si presenta come un servizio di cloud storage multipiattaforma offerto come SaaS (Software As A Service), e utilizza lo stato dell’arte del machine learning per offrire all’utente una gestione automatizzata delle foto personali e condivise dalla rete di amici. Grazie al potente motore di ricerca sviluppato, è in grado di indicizzare grandi moli di media digitali, interpretare ricerche espresse in linguaggio naturale e restituire all’utente le foto richieste in ordine di pertinenza semantica ed “emozionale”.

Vediamo di seguito come è stato ottenuto questo risultato.

Per l’indicizzazione dei file sono stati applicati degli algoritmi in grado di “leggere le immagini” e di estrarre delle keyword che le rappresentino. In particolare:

  • Reti neurali per la computer vision, allo scopo di classificare in tempo reale foto e video caricati dagli utenti, estraendone automaticamente dei tag. Gli algoritmi sono in grado di riconoscere più di 20.000 tra oggetti, animali, piante, luoghi e monumenti;
  • Sistemi di riconoscimento facciale per identificare la presenza di volti all’interno delle immagini e associarli agli utenti appartenenti alla rete di amici del proprietario, con un valore di accuratezza superiore al 90%. Con questa tecnologia è stato possibile aggiungere all’applicazione, oltre all’indicizzazione delle persone nelle foto, la capacità di taggare automaticamente gli amici;
  • Algoritmi per l’analisi avanzata dei contenuti per rilevare quelli violenti, offensivi o per adulti, in modo da fornire un supporto automatizzato alla moderazione dei file condivisi pubblicamente;
  • Algoritmi di Deep Learning basati su language model per ottenere una descrizione in linguaggio naturale della foto, a partire dai tag estratti dalla computer vision.

Ottenuta un’indicizzazione corretta e costante dei contenuti, la seconda sfida è stata aggiungere al motore di ricerca la capacità di interpretare query complesse risolvendo le ambiguità insite nel linguaggio naturale, in modo da restituire sempre risultati pertinenti alle richieste degli utenti.

Per contestualizzare e interpretare correttamente le query degli utenti sono state impiegate tecniche di NLP (Natural Language Processing) volte a gestire le problematiche insite all’interno di un’interazione naturale come, ad esempio, l’utilizzo di singolari e plurali, forme verbali complesse, diversi modi di esprimere una stessa richiesta.

È stata progettata, pertanto, una pipeline di algoritmi di machine learning in grado di estrarre delle entità da query complesse, combinarle tra loro e con il profilo dell’utente, per poter restituire le immagini che più si adattano alla richiesta originale.

Costruire una galleria fotografica intelligente significa anche restituire risultati personalizzati. Per questo motivo è stato implementato un ulteriore sistema di autoapprendimento che crea una profilazione dell’utente basata su comportamenti, abitudini ed eventi che coinvolgono lui e la sua rete di amici. Questo permette di migliorare nettamente i risultati delle ricerche man mano che l’utente aggiunge nuove foto, imposta dei tag personalizzati o esegue nuove ricerche sul sistema.

È prevista, inoltre, l’introduzione di un ulteriore algoritmo per calcolare uno “score emozionale” su ogni foto, basandosi sulla sentiment analysis delle immagini, sulle emozioni rilevate nei volti dei protagonisti e sul sistema di profilazione individuale.

Presago può realizzare algoritmi di computer vision avanzata, in grado di interpretare immagini e video in tempo reale per estrarre informazioni strategicamente rilevanti per il tuo business.

Contattaci per parlare del tuo progetto e ricevere una consulenza gratuita.