Vad är optiskt flöde?
Optiskt flöde är ett vektorfält mellan två bilder som visar hur pixlarna i ett objekt i den första bilden kan flyttas för att bilda samma objekt i den andra bilden. Det är ett slags korrespondensinlärning, för om motsvarande pixlar i ett objekt är kända kan det optiska flödesfältet beräknas.
Optisk flödesekvation & traditionella metoder
Hur löser man för (u, v) ? Finns det några begränsningar för oss att bygga upp några ekvationer?
För det första, eftersom H(x, y) = I(x+u, y+v), låt oss bryta I(x+u, y+v) med hjälp av Taylor-serien:
Så överge termer av högre ordning och kombinera med H(x, y) = I(x+u, y+v):
Slutligt, i gränsen då u och v går till noll, fick vi den optiska flödesekvationen som:
I riktiga tillämpningar kan dock u och v vara stora eller små, och sträcka sig över flera till tiotals pixlar, förutom att de är nollgränser. Därför kan vi bara få en approximation av det verkliga optiska flödet. Flödesfältet skulle dock bli mer exakt om u och v ligger närmare noll.
I ovanstående ekvation är de okända u och v, eftersom andra variabler kan beräknas från skillnader från x-, y- och tidsdimensionerna. Det finns alltså två okända i en ekvation, som inte kan lösas. Därför har många forskare under de senaste 40 åren försökt att tillhandahålla en annan uppsättning ekvationer för u och v för att göra den lösbar. Bland dem är den mest kända metoden Lucas-Kanade-metoden.
Kan vi lösa optiska flöden med hjälp av djupa neurala nätverk i en tid av djupinlärning? Om vi kan det, vad är poängen med att utforma nätverk?
Svaret är ja, och det finns arbeten på detta område under dessa år, och resultatet blir bättre och bättre. Jag kommer att presentera ett arbete som representerar RAFT, som fick utmärkelsen ”Best paper award” vid ECCV 2020.