Campo di flusso ottico di due immaginiIl flusso ottico è un campo vettoriale tra due immagini che mostra come i pixel di un oggetto nella prima immagine possono essere spostati per formare lo stesso oggetto nella seconda immagine. È un tipo di apprendimento per corrispondenza, perché se i pixel corrispondenti di un oggetto sono noti, il campo di flusso ottico può essere calcolato.
Equazione del flusso ottico &metodi tradizionali
Come risolvere per (u, v)? C’è qualche vincolo per noi per costruire alcune equazioni?
Prima di tutto, poiché H(x, y) = I(x+u, y+v), rompiamo I(x+u, y+v) usando la serie di Taylor:
Poi, abbandonare i termini di ordine superiore e combinare con H(x, y) = I(x+u, y+v):
Finalmente, nel limite in cui u e v vanno a zero, abbiamo l’equazione del flusso ottico come:
Tuttavia, nelle applicazioni reali, u e v potrebbero essere grandi o piccoli, da diversi a decine di pixel, oltre ad essere al limite zero. Così possiamo solo ottenere un’approssimazione del flusso ottico reale. Tuttavia, il campo di flusso sarebbe più accurato se u e v fossero più vicini a zero.
Nell’equazione di cui sopra, le incognite sono u e v, perché le altre variabili possono essere calcolate dalle differenze delle dimensioni x, y e tempo. Così, ci sono due incognite in un’equazione, che non può essere risolta. Pertanto, negli ultimi 40 anni, molti ricercatori hanno cercato di fornire un altro insieme di equazioni di u, v per renderlo risolvibile. Tra questi, il metodo più famoso è il metodo Lucas-Kanade.
Nell’era del deep learning, possiamo risolvere il flusso ottico con le reti neurali profonde? Se possiamo, qual è il punto della progettazione della rete?
La risposta è sì, e ci sono lavori su questo settore in questi anni, il risultato sta diventando sempre migliore. Introdurrò un lavoro rappresentativo chiamato RAFT, che ha ottenuto il premio Best paper di ECCV 2020.