1. Introduction
GX AI 팀이 원하는 facial embedding을 위해선, 표정 간의 자연스러운 interpolation이 필요함. 이를 해결하기 위해 3D facial embedding도 필요하다고 생각함.
먼저 3D Face를 다뤘던 논문들을 찾아보면서 99’ SIGGRAPH에서 발표된 3DMM 논문이 있었음. 이 논문은 3D Fase의 Shape과 Texture vector를 PCA를 통해 각각의 axis와 coefficients를 linear combination하여 arbitrary new face를 생성해내는 3D morphing function을 제안함.
특히 이 논문에서 facial expression transfer를 위해 제안한 방법이 현재 survey의 analogy로 삼기에 좋은 starting point라고 생각했음
- $\Delta S=S_{expression}-S_{neutral},\; \Delta T=T_{expression}-T_{neutral}$로 다른 사람의 무표정 얼굴에 더하여 expression이 transfer 된다면, 무표정(neutral)은 그 사람의 identity라고 해석할 수 있을까? [1]
- 3DMM은 PCA를 통한 linear combination(?) 때문에 semantic control이 어려움 [1]. 그러면 semantic control을 잘하기 위해서 새로운 방법을 제시한 연구는 없을까?
- Linear method로 face를 representation 할 경우, 어떠한 단점이 있을까?
2. Identity / semantic control
2.1 Semantic Deep Face Models (2020, 3DV, ETH&DisneyResearch)
- Nonlinear 3D face modeling 방법을 제시하였으며, identity와 expression을 disentangle하면서 직관적인 semantic control을 제공함
- 어떤 subject의 무표정 - 모든 subject의 무표정의 평균 = per-vertex displacements를 identity라고 봄
- 특히 expression은 blendweights로 설정하여 semantic point를 제공하며, blendweights는 identity의 개념은 제외하고 순수하게 expression의 information을 갖고 있으므로 disentangle을 학습하는데 있어 의미있는 representation이 가능함
2.2 Facial Expression Retargeting from Human to Avatar Made Easy (2020, CVPR, University of Science and Technology of China)
- 사람과 아바타라는 두 도메인간의 expression을 human identity-invariant하게 transfer하는 솔루션을 제안
- human identity-invariant란, human의 identity가 retargeting result에 영향을 미치지 않는 것을 의미
- Human face를 identity와 expression components로 분리함. 그렇게하여 expression components만을 이용해 임베딩을 만들면, human identity differences를 무시할 수 있음
- human identity의 영향력을 배제하기 위해 disentangled 방식으로 VAE network를 훈련시킴
- 3D Face의 average shape과 GT로 DR feature 사용
- DR feature는 expression mesh와 무표정 mesh로 만들어짐
- 각 mesh들은 (mesh vertices의 location, vertices의 연결성을 인코딩한 인접 행렬의 값)
- VAE network에 input으로 face model의 DR feature를 넣고, output은 averaging shape을 반영한 face shape이 나옴
- 이러한 방식으로 같은 표정을 하지만 다른 사람의 얼굴에 대해서 identity information을 제거하기 때문에 같은 latent code로 매핑할 수 있음
- linear methods(blendshape, PCA) 보다 더 강력하고 robust하게 face를 representation 할 수 있음
- 실제 사람의 얼굴 표정은 훨씬 더 복잡한 movements를 갖기 때문에 nonlinearly하다는 점에서 linear 방식으로 face를 representation 하는 것과 다를 수 밖에 없음