2017년 CVPR에서 Ail Mollahosseini et.al (University of Denver)가 발표한 논문이다.
- 이 논문은 AffectNet이라고 불리는 In-the-wild한 얼굴의 감정이 담긴 dataset을 소개하는 논문이다.
- AffectNet은 major 검색 엔진에서 1250개의 감정과 관련된 키워드를 통해 총 1,000,000 장 이상의 facial images를 수집하였다. (w/ 검색할 땐 6개 언어를 사용)
- 이러한 데이터셋을 만든 이유는 몇 가지가 있는데
- Annotated된 기존의 in-the-wild facial expressions dataset은 너무 적었다.
- 심지어 대부분 데이터셋은 happy, sad와 같은 단순한 한 가지의 감정만 분류할 수 있었다.
- Continuous dimensional model로 감정을 계산할 수 있는 annotated facial dataset은 너무 제한적이었다.
- 따라서, 감정에 대해 분류할 수 있으며, continuous scale로 감정의 intensity를 표현할 수 있는 large annotated face dataset을 구축하였다.
본 논문에서 감정을 continuous scale로 표현할 때 아래의 두가지를 사용한다.
Valence: 한 사건에 대해 긍정 or 부정을 표현
Arousal: 한 사건에 대해 흥미로운지, 지루한지를 표현
이를 그림으로 표현하면 다음과 같다.
![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/ca188e42-475f-4c7d-bd73-f823538be9f9/Untitled.png)
데이터셋 구축 과정은 다음과 같다.
Facial Images from the Web
- gender, age, or ethnicity와 연관된 단어를 결합하여 감정 키워드 생성
- such as “joyful girl”, “blissful Spanish man”, “furious young lady”, “astonished senior”
- 검색에 사용한 언어: English, Spanish, Portuguese, German, Arabic, Farsi
Annotation
- Categorical Model Annotation
- 11개의 카테고리로 정의
- Neutral, Happy, Sad, Surprise, Fear, Anger, Disgust, Contempt, None, Uncertain, and Non-Face
- None: Happy, Sad, Surprise, Fear, Anger, Disgust, Contempt가 아닌 표정
- such as sleepy, bored, tired, seducing, confuse, shame, focused, etc.
- None-face
- 이미지에 얼굴이 없는 경우
- 얼굴에 watermark가 있는 경우
- face detection algorithm이 실패하거나 bounding box가 얼굴을 포함하지 않을 때
- drawing, animation, or painted
- 얼굴에 왜곡이 있을 경우
- Uncertain: Annotator가 어떤 표정인지 확실하지 못한 경우
- 아래 Table은 각 감정을 카테고리로 분류한 이미지들 수이며, 아래의 사진은 이미지들을 어노테이션 한 결과이다. 괄호 안의 표정은 처음 데이터를 수집하기 위해, query로 날렸던 감정 term이다.
![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/a7f09990-0fdd-4f2d-ae78-b4c3fac696fa/Untitled.png)