AffectNet: A Database for Facial Expression, Valence, and Arousal Computing in the Wild

2017년 CVPR에서 Ail Mollahosseini et.al (University of Denver)가 발표한 논문이다.

이 논문은 AffectNet이라고 불리는 In-the-wild한 얼굴의 감정이 담긴 dataset을 소개하는 논문이다.
- AffectNet은 major 검색 엔진에서 1250개의 감정과 관련된 키워드를 통해 총 1,000,000 장 이상의 facial images를 수집하였다. (w/ 검색할 땐 6개 언어를 사용)
이러한 데이터셋을 만든 이유는 몇 가지가 있는데
1. Annotated된 기존의 in-the-wild facial expressions dataset은 너무 적었다.
2. 심지어 대부분 데이터셋은 happy, sad와 같은 단순한 한 가지의 감정만 분류할 수 있었다.
3. Continuous dimensional model로 감정을 계산할 수 있는 annotated facial dataset은 너무 제한적이었다.
따라서, 감정에 대해 분류할 수 있으며, continuous scale로 감정의 intensity를 표현할 수 있는 large annotated face dataset을 구축하였다.

본 논문에서 감정을 continuous scale로 표현할 때 아래의 두가지를 사용한다.

Valence: 한 사건에 대해 긍정 or 부정을 표현

Arousal: 한 사건에 대해 흥미로운지, 지루한지를 표현

이를 그림으로 표현하면 다음과 같다.

Untitled

데이터셋 구축 과정은 다음과 같다.

gender, age, or ethnicity와 연관된 단어를 결합하여 감정 키워드 생성
- such as “joyful girl”, “blissful Spanish man”, “furious young lady”, “astonished senior”
검색에 사용한 언어: English, Spanish, Portuguese, German, Arabic, Farsi

Categorical Model Annotation
- 11개의 카테고리로 정의
  - Neutral, Happy, Sad, Surprise, Fear, Anger, Disgust, Contempt, None, Uncertain, and Non-Face
  - None: Happy, Sad, Surprise, Fear, Anger, Disgust, Contempt가 아닌 표정
    - such as sleepy, bored, tired, seducing, confuse, shame, focused, etc.
  - None-face
    - 이미지에 얼굴이 없는 경우
    - 얼굴에 watermark가 있는 경우
    - face detection algorithm이 실패하거나 bounding box가 얼굴을 포함하지 않을 때
    - drawing, animation, or painted
    - 얼굴에 왜곡이 있을 경우
  - Uncertain: Annotator가 어떤 표정인지 확실하지 못한 경우
- 아래 Table은 각 감정을 카테고리로 분류한 이미지들 수이며, 아래의 사진은 이미지들을 어노테이션 한 결과이다. 괄호 안의 표정은 처음 데이터를 수집하기 위해, query로 날렸던 감정 term이다.

Untitled