Hvad er optisk flow?
Optisk flow er et vektorfelt mellem to billeder, der viser, hvordan pixelerne i et objekt i det første billede kan flyttes, så de danner det samme objekt i det andet billede. Det er en slags korrespondanceindlæring, for hvis de tilsvarende pixels i et objekt er kendt, kan det optiske flowfelt beregnes.
Optisk flowligning & traditionelle metoder
Hvordan løser man (u, v) ? Er der nogen begrænsninger for os til at opbygge nogle ligninger ?
For det første, da H(x, y) = I(x+u, y+v), lad os bryde I(x+u, y+v) ved hjælp af Taylor-serier:
Dernæst opgiver vi højere ordenstermer og kombinerer med H(x, y) = I(x+u, y+v):
Sluttelig, i grænsen som u og v går til nul, fik vi den optiske strømningsligning som:
I virkelige anvendelser kan u og v imidlertid være store eller små og spænde over flere til titusindvis af pixels, bortset fra at være i nul-grænsen. Vi kan således kun få en tilnærmelse af det virkelige optiske flow. Flowfeltet ville dog være mere nøjagtigt, hvis u og v er tættere på nul.
I ovenstående ligning er de ukendte u og v, fordi andre variabler kan beregnes ud fra forskelle fra x-, y- og tidsdimensionerne. Der er således to ubekendte i én ligning, som ikke kan løses. Derfor har mange forskere i de sidste 40 år forsøgt at tilvejebringe et andet sæt ligninger for u, v for at gøre den løsbar. Blandt dem er den mest berømte metode Lucas-Kanade-metoden.
I deep learning-æraen, kan vi løse optisk flow ved hjælp af dybe neurale netværk? Hvis vi kan, hvad er så formålet med at designe netværk?
Svaret er ja, og der er arbejdet på dette område i disse år, og resultatet bliver bedre og bedre. Jeg vil introducere et repræsentativt arbejde kaldet RAFT, som fik prisen for bedste papir på ECCV 2020.