Encoder는 audio sequences와 expression sequences를 multi-head categorical latent space로 매핑함
Continuous-valued encoding은 각 latent classification head에서 Gumbel-softmax를 사용하여 categorical representation으로 변형됨
Decoder는 인코딩된 expression을 template mesh $h$에 매핑함
Ground truth는 같은 identity내에서 template mesh, speech signal, expression signal만 사용할 수 있음
Decoder output $\hat{h}{1:T}$는 input $x{1:T}$의 expression과 동일
간단한 $\hat{h}{1:T}$와 $x{1:T}$간의 reconstruction loss을 사용하게 되면, 좋지 않은 speech-to-lip synchronization을 도출함
그래서 본 논문에선 cross-modality loss로 speech와 expression modalities information을 모두 보장해줌
$\hat{h}_{1:T}$를 reconstruction 하는 대신, 두 개의 다른 reconstruction을 사용
$$ \hat{h}^{(audio)}{1:T}=\mathcal{D}(h_x,\mathcal{E}(\tilde{x}{1:T},a_{1:T})) and \\\hat{h}^{(expr)}{1:T}=\mathcal{D}(h_x,\mathcal{E}(x{1:T},\tilde{a}_{1:T})) $$
따라서 본 논문에서 제시한 novel cross-modality loss는 다음과 같음
$$ \mathcal{L}{xMod}=\sum^T{t=1}\sum^V_{v=1}\mathcal{M}v^{(upper)}\big(||\hat{h}{t,v}^{(expr)}-x_{t,v}||^2\big)+\\\sum_{t=1}^T\sum_{v=1}^V\mathcal{M}v^{(mouth)}\big(||\hat{h}{t,v}^{(audio)}-x_{t,v}||^2\big) $$