b/View

Machine learning. Super risoluzione realistica, oggi si può

Alessandro Polli – Novembre 3, 2017

In digital image processing, con l’etichetta di super-resolution (S-R) si indicano le metodologie che consentono di incrementare la risoluzione di un’immagine, ottimizzando al contempo una qualche misura di qualità dell’elaborazione digitale rispetto all’immagine originale, come ad esempio il peak signal/noise ratio (PSNR).

Il problema degli algoritmi basati su queste metriche è che, pur presentando valori PSNR ottimali, restituiscono elaborazioni digitali che sono percepite come «piatte» e innaturali dall’occhio umano, a causa della perdita di trama − o texture − cioè l’insieme di variazioni cromatiche e morfologiche che caratterizzano un qualsiasi materiale presente nella realtà. Si stanno quindi diffondendo nuove tecniche S-R che puntano ad una maggiore «naturalezza» dell’immagine rielaborata.

Un team di ricercatori del Max Planck Institute for Intelligent Systems di Tubinga, coordinato da Mehdi S. M. Sajjadi, ha recentemente presentato una nuova metodologia di sintesi automatizzata – ribattezzata EnhanceNet-PAT − non incentrata sull’ottimizzazione di una qualche misura teorica di qualità dell’immagine come il PSNR, ma sulla generazione di texture realistiche.

Per raggiungere questo risultato, i ricercatori hanno utilizzato una particolare architettura di apprendimento non supervisionato del sistema, nota come rete antagonista generativa o GAN (Generative Adversarial Network).

La GAN, presentata da Goodfellow nel 2014, si articola non in una, ma in due reti neurali concorrenti. La prima, indicata come generatore, è una rete deconvoluzionale che, sulla base di un’immagine iniziale a bassa risoluzione, ne elabora una ad alta risoluzione che «propone» alla seconda, indicata come discriminatore e organizzata come rete neurale convoluzionale (il modello matematico che si ispira all’organizzazione della corteccia visiva animale). Il discriminatore è alimentato dalla stessa immagine, ma ad alta risoluzione, da cui «estrae» le caratteristiche salienti, tipicamente rese in forma di distribuzioni probabilistiche, che confronta con le caratteristiche dell’elaborazione proposta dal generatore. Il processo prosegue fin quando le caratteristiche dell’immagine elaborata dal generatore e quelle della stessa immagine, ma ad alta risoluzione e nota solo al discriminatore, convergono. Il training set di EnhanceNet-PAT, ovviamente, è formato da migliaia di coppie di immagini, rispettivamente a bassa e ad alta risoluzione.

I risultati, in termini di dettaglio e di naturalezza dell’elaborazione digitale, sono sorprendenti.

Fonte: arXiv