[2016] Hateful Symbols or Hateful People? Predictive Features for Hate Speech Detection on Twitter

반응형

논문 정보

  • 제목: Hateful Symbols or Hateful People? Predictive Features for Hate Speech Detection on Twitter
  • 저자: Zeerak Waseem, Dirk Hovy
  • 소속: University of Copenhagen
  • 발간지: NAACL-HLT 2016

 


1. Introduction

이 연구는 소셜 미디어에서 흔히 발생하는 인종차별 및 성차별적 발언으로서의 혐오 발언 문제에 주목한다. 당시 페이스북, 트위터와 같은 소셜 미디어 기업들은 혐오 발언을 식별하려는 노력을 하고 있었지만, 그 기준이 제각각이고 주로 수작업에 의존하고 있었다. 저자들은 혐오 발언과 실제 증오 범죄 사이의 강력한 연관성을 지적하며 혐오 발언을 조기에 자동으로 탐지하는 기술의 중요성을 강조하였다. 그러나 당시 NLP 분야에서는 혐오 발언에 대한 보편적인 정의, 인구통계학적 영향 그리고 가장 효과적인 특징(Feature)에 대한 분석이 부족하여 관련 연구가 제한적이었다. 이에 이 연구는 비판적 인종 이론(critical race theory)에 기반한 기준을 제시하고 16,000개 이상의 트윗으로 구성된 공개 코퍼스를 구축하여 주석을 달았다. 또한 혐오 발언 탐지를 위해 문자 n-gram과 같은 언어적 특징과 다양한 비언어적 특징의 영향을 분석하는 것을 목표로 삼았다.

 

2. Defining Hate Speech

이 연구는 혐오 발언을 식별하기 위한 명확한 기준 목록을 제시한 점이 특징이다. 이 기준들은 인종차별에 대한 비판적 이론을 바탕으로 소수자 집단을 억압하고 침묵하게 만드는 방식을 강조하여 정의되었다.

이 연구에서 제시한 혐오 발언의 기준은 다음과 같다:

  • 성차별적이거나 인종차별적인 비속어를 사용하는 경우
  • 소수자 집단을 공격하거나 침묵시키려는 의도가 있는 경우
  • 폭력 범죄나 혐오 발언을 조장하는 경우
  • #Banlslam(이슬람 금지)과 같이 문제가 되는 해시태그를 지지하는 경우
  • 소수자 집단에 대한 부정적인 고정관념을 드러내는 경우

 

3. Data

  • 코퍼스 구축: 약 2개월에 걸쳐 수집된 136,052개의 트윗 중 16,914개를 주석 처리하여 데이터셋을 구축함. 이 데이터셋은 성차별(3,383개), 인종차별(1,972개), 해당 없음(11,559개)으로 구성된다. 현실을 반영하기 위해 의도적으로 불균형하게 유지되었다. 데이터 수집은 종교, 성별, 인종 등과 관련된 일반적인 비속어 및 용어를 검색하는 방식으로 시작함
  • 데이터 수집 특징: "My Kitchen Rules"라는 TV쇼의 해시태그(#MKR)가 여성혐오적 트윗을 유발하는 등, 특정 키워드와 혐오 발언의 연관성을 파악하여 데이터 수집에 활용함. 이를 통해 혐오 단어를 포함하지만 문맥상 혐오 발언이 아닌 트윗(무슬림 입국을 막는 것은 해결책이 아니다)까지 수집하여 모델의 강건함을 높이고자 함
  • 주석 작업: 저자들이 직접 주석 작업을 수행한 후, 젠더 연구를 전공한 외부 주석가의 검토를 통해 주석가의 편향을 최소화하려 노력함. 두 주석가 간의 합의도(inter-annotator agreement)는 카파(kappa) 점수 0.84로 높은 편이었다.

 

4. Demographic Distribution (인구통계학적 분포)

트위터는 위치 정보 외에 명시적인 인구통계 정보를 제공하지 않으므로 사용자 프로필의 이름이나 대명사 등을 통해 성별을 간접적으로 추론하였다. 분석 결과, 혐오 발언을 포함한 모든 카테고리에서 남성의 비율이 압도적으로 높게 나타났다. 하지만 연구에 사용된 방법으로는 대다수 사용자의 성별을 식별할 수 없어 성별 정보의 특징으로서의 활용에는 한계가 있었다.

 

5. Lexical distribution (어휘 분포)

데이터 정규화 과정에서 불용어(stop words), 'RT'와 같은 특수 기호, 사용자 이름, 구두점을 제거하였다. 각 클래스(성차별, 인종차별, 해당 없음)에서 가장 빈번하게 등장하는 상위 10개 단어를 분석한 결과, 클래스별로 뚜렷한 어휘 차이가 나타났다.

  • 인종차별 트윗에서는 'islam', 'muslims'와 같이 이슬람과 관련된 단어들이 주로 나타났다.
  • 성차별 트윗에서는 TV쇼 'My Kitchen Rules'의 영향으로 '#mkr', 'women', 'girls'와 같은 단어들이 자주 등장하였다.
  • 트윗의 문자 길이 또한 특징으로 분석되었고 클래스별로 평균 문자 길이에 차이가 있었다.

 

6. Geographic distribution (지리적 분포)

트윗의 지리적 출처를 식별하기 위해 트윗 밒 사용자 메타데이터에 명시된 위치 정보나 타임존(time zone) 정보를 활용하였다. 하지만 이 위치 정보를 특징으로 사용했을 때 분류 모델의 F1-score가 오히려 하락하는 부정적인 영향을 미쳤다.

 

7. Evaluation

  • 분류 모델: Logistic Regression를 사용했으며 10-fold cross validation으로 성능을 평가하였다.
  • 특징 공학(Feature Engineering): 언어적 특징과 저자의 인구통계학적 정보 등 비언어적 특징을 함께 실험
    • 언어적 특징: 단어 n-gram보다 문자(character) n-gram (1~4 gram)이 F1 점수 기준 약 5점 이상 높은 성능을 보여 핵심 특징으로 사용되었다.
    • 비언어적 특징: 사용자 프로필을 통해 성별 정보를 추론했으며 남성 사용자의 비율이 압도적으로 높았다. 트윗과 사용자 설명의 길이 정보도 특징으로 사용하였다.
  • 실험 결과:
    • 문자 n-gram과 성별 정보를 함께 사용했을 때 F1 점수 73.93%로 가장 높은 성능을 기록하였다.
    • 위치(location)나 길이(length) 정보는 오히려 모델 성능을 저하시켰다.
    • 가장 영향력 있는 특징은 'islam', 'sexist'와 같은 단어들의 문자 n-gram들이었다.
  • 오류 분석:
    • 인종차별적 발언은 대부분 평범한 단어(islam, muslims 등)를 부정적인 담론을 구축하는 데 재사용한 반면, 성차별적 발언은 성별에 기반한 비속어가 포함되는 차이를 보임

 

8. Related Work

대부분의 관련 연구는 욕설 탐지에 초점을 맞추고 사전에 정의된 단어 목록을 사용하는 방식에 의존하였다. 이러한 방식은 사전에 없는 단어를 탐지하기 어렵다는 한계가 있다. Warner and Hirschberg (2012)의 연구는 단어 n-gram을 사용하여 F1 점수 63점을 달성했는데, 이는 본 연구에서 단어 n-gram을 사용했을 때의 성능과 유사한 수준이다.

 

9. Conclusion

이 연구는 비판적 인종 이론에 기반한 혐오 발언 식별 기준과 새로운 데이터셋을 제공함. 실험을 통해 문자 n-gram 기반 접근법이 혐오 발언 탐지의 견고한 기초가 됨을 확인함. 반면 성별을 제외한 인구통계학적 정보는 데이터 커버리지 부족으로 인해 성능 향상에 거의 기여하지 못함. 저자들은 향후 연구로 더 정확한 위치 및 성별 분류 기술을 개발하고 탐지 범위를 더 다양한 형태의 혐오 발언으로 확장할 것을 제안함.

 


 

[참고] 단어 n-gram과 문자 n-gram의 차이점

n-gram은 텍스트를 연속된 n개의 단위로 자르는 기법으로 '단어'를 단위로 할 때와 '문자'를 단위로 할 때 큰 차이가 있다.

  • 단어 n-gram (Word n-gram): 텍스트를 띄어쓰기 기준으로 나눈 단어를 기본 단위로 사용한다.
    • 예시: 문장 "i hate you"에서 
      • 1-gram (unigram): ['i', 'hate', 'you']
      • 2-gram (bigram): ['i hate', 'hate you']
    • 단점: 오타나 철자 변형에 매우 취약함. 예를 들어 'hatee'와 'hate'는 완전히 다른 단어로 인식한다. 또한 훈련 데이터에 없던 새로운 단어(Out-of-Vocabulary, OOV)가 나타나면 처리하기 어렵다.
  • 문자 n-gram (Character n-gram): 텍스트를 구성하는 문자를 기본 단위로 사용한다.
    • 예시: 단어 "hate"에서
      • 3-gram (trigram): ['hat', 'ate']
      • 4-gram (fourgram): ['hate']
    • 장점: 오타나 변형에 강건하다. 'hatee'와 'hate'는 ['hat'], ['ate']와 같은 여러 문자 n-gram을 공유하므로 모델이 두 단어의 유사성을 파악할 수 있다. 이는 철자법이 비정형적인 소셜 미디어 텍스트 분석에 매우 효과적이며, 어휘 사전에 없는 단어 문제도 완화해 준다. 이 논문에서도 문자 n-gram이 단어 n-gram보다 훨씬 덜 희소한(sparse) 특징 행렬을 만들어 성능 향상에 기여했다고 언급하였다.
반응형