[2012] Detecting Hate Speech on the World Wide Web

반응형

논문 정보

  • 제목: Detecting Hate Speech on the World Wide Web
  • 저자: William Warner and Julia Hirschberg
  • 소속: Columbia University
  • 발간지: LSM 2012 (Proceedings of the 2012 Workshop on Language in Social Media)

 


 

1. Introduction

이 연구는 인종, 종교, 성별, 성적 지향 등 특정 집단의 특성을 표적으로 삼는 공격적인 언어,

즉 "혐오 발언"을 온라인 텍스트에서 탐지하는 접근법을 제시한다.

저자들은 특정 집단을 향한 혐오가

소수의 고빈도 고정관념 단어(stereotypical words)를 통해 표현되는 경향이 있음을 발견하였다.

하지만 이 단어들이 긍정적 또는 부정적 맥락에서 모두 사용될 수 있기 때문에

이 과제를 단어의 의미를 구별하는 '단어 의지 중의성 해소(word sense disambiguation)' 문제와 유사하다고 보았다.

당시 야후, 페이스북 등 주요 플랫폼들은 서비스 약관을 통해 혐오 발언을 금지하고 있었지만

이를 자동으로 식별하는 공개된 분류기는 존재하지 않았다.

따라서 이 연구는 혐오 발언의 정의, 데이터 수집 및 주석(annoatation) 방법

그리고 필터링 회피 기술 탐지 메커니즘을 기술하고

파일럿 실험을 반유대주의적 발언을 탐지하는 분류기를 개발하는 것을 목표로 삼았다.

 

2. Previous Literature & Defining Hate Speech

당시에는 혐오 발언 탐지에 대한 직접적인 선행 연구가 거의 없었다.

연구자들은 뉴스 그룹의 악성 댓글이나 유튜브의 공격적인 언어 탐지 연구를 관련 연구로 언급했지만,

이들은 혐오 발언과는 언어적 특성과 목표가 다르다고 선을 그었다.

이 연구의 핵심 기여 중 하나는 '혐오 발언'의 개념을 명확히 정의하려 시도했다는 점이다.

이 연구는 Nockleby(2000)의 정의를 인용하여 '혐오 발언'을 다음과 같이 정의한다.

 

인종, 피부색, 민족, 성별, 성적 지향, 국적, 종교 또는 기타 특성을 근거로
개인이나 집단을 폄하하는 모든 의사소통



또한 이 연구에서는 위 정의를 실제 데이터에 적용하기 위해 다음과 같은 구체적인 기준을 세웠다.

  • 혐오 발언은 단순히 특정 혐오 단체(KKK 등)를 언급하는 것을 넘어 타인이나 타집단에 대한 경멸을 포함해야 한다.
  • 불필요하게 특정인의 인종이나 민족을 거론하는 것은 부정적인 고정관념을 불러일으키므로 혐오 발언으로 간주될 수 있다.
  • 문맥이 매우 중요하며 특정 비속어가 사용되었더라도 그것이 증오를 표현할 의도가 아닌 경우(단어 자체에 대한 토론, 특정 집단 내에서의 사용)에는 혐오 발언과 구별해야 한다.

 

3. Resources, Corpora & Annotation

연구진은 야후로부터 사용자들이 공격적이라고 신고한 뉴스 그룹 게시물 데이터와 

미국 유대인 의회로부터 공격적인 웹사이트 URL 목록을 제공받았다.

  • 야후 뉴스 그룹: 사용자들이 '공격적'이라고 신고한 게시물, 이 데이터는 평균 31단어로 짧고 필터링을 회피하기 위한 의도적인 오타나 기호 사용이 많음
  • 미국 유대인 의회(AJC) 제공 웹사이트: 반유대주의 성향을 띄는 452개 웹사이트의 URL 목록, 이 데이터는 노골적인 비속어는 적지만, 과학적 형식을 빌려 혐오 이데올로기를 주장하는 장문의 텍스트가 많음

본 연구는 이 데이터들을 기반으로 반유대주의 발언 탐지를 첫 목표로 삼았고

유대교 및 이스라엘 관련된 단어를 포함하는 문단 약 9,000개를 정규표현식으로 추출하였다.

추출된 문단 중에서 데이터 정제를 위해 다음 조건에 해당하는 것들을 제외하였다.

  • 완전한 문장이 아닌 경우
  • 유니코드 문자가 2개 이상 연속으로 나오는 경우
  • 단 한 단어로만 이루어져 있거나 64 단어보다 긴 경우

정제된 데이터 1,000개를 샘플링하여 3명의 주석가가 직접 레이블링을 진행하였다.

레이블은 '반유대주의', '반흑인', '반여성' 등 7개의 카테고리로 구성되었다.

주석가가 3명 중 2명 이상이 동의한 레이블을 정답으로 삼는 '다수결 코퍼스'를 만들었다.

다수결 코퍼스에서 발견된 비일관적인 레이블을 연구 저자 중 한 명이 직접 검토하고 수정하여

더 정제된 '골드 코퍼스'를 추가로 구축하였다.

실험은 이 두 코퍼스 모두에 대해 진행되었다.

 

4. Classification, Results & Error Analysis

본 연구는 혐오 발언 탐지 문제를 특정 단어가 '반유대주의적 의미'를 갖는지 아닌지를 판별하는

단어 의미 중의성 해소 문제로 접근하였다.

이 연구는 당시 최신 기술이던 SVM을 활용했지만

핵심은 분류기보다 어떤 데이터를 어떻게 특징(feature)으로 만들어 입력하는가에 있었다.

  • 문제 재정의: 혐오 발언 탐지를 "단어 의미 중의성 해소(Word Sense Disambiguation)" 문제로 접근하였다.
    • 'jew'와 같은 단어가 문맥에 따라 '혐오적 의미'로 쓰였는지 '중립적 의미'로 쓰였는지를 판별하는 문제로 본 것
  • 분류기: 선형 커널(linear kernel)을 사용하는 SVM(Support Vector Machine)을 채택하였다.
  • 특징 공학(Feature Engineering): SVM에 입력할 특징 벡터를 만들기 위해 다음과 같은 정교한 규칙들을 사용
    • 템플릿 기반 특징: 특정 단어를 중심으로 주변 단어와 그 품사(POS), 브라운 클러스터(단어 군집) 정보를 조합하여 특징 템플릿을 생성하였다. (예: 명사(NN) 뒤에 나오는 'jewish')
    • 가중치 계산: 각 특징 템플릿이 혐오/비혐오 문단에 얼마나 자주 등장하는지를 바탕으로 로그-오즈(log-odds) 값을 계산하여 특징의 가중치로 사용하였다.
    • 특징 선택: 효과적인 학습을 위해 계산된 log-odds 값이 특정 임계값(1.5)에 미치지 못하는 약한 특징들은 학습에서 제외하였다. 이 과정을 통해 전체 특징의 수를 4,379개에서 3,537개로 줄였다.

구체적인 실험 진행 과정은 다음과 같다.

  • 실험 목표: 구축된 코퍼스와 특징들을 활용한 문단(paragraph)이 반유대주의적인지 아닌지를 분류하는 모델의 성능 평가
  • 실험 구성: 총 6개의 다른 분류 모델을 만들어 성능 비교
    • 데이터셋 2종: '다수결 코퍼스', '골드 코퍼스'
    • 특징 세트 3종: 
      • 전체 특징(Full Classifier): 위에서 설명한 모든 특징 템플릿 사용
      • 단일 단어 특징(All Unigram): 주변 문맥 없이 단일 단어 자체만 특징으로 사용
      • 긍정 단일 단어 특징(Positive Unigram): 혐오 발언에서만 등장하는 단일 단어 특징만 사용
  • 성능 평가:
    • 베이스라인 설정: 단순히 다수 클래스(not anti-semitic)로만 예측할 경우의 정확도(91%)를 기준선으로 설정
    • 교차 검증: 각 모델의 성능을 객관적으로 평가하기 위해 '10-fold cross-validation)'을 수행
    • 평가 지표: Accuracy, Precision, Recall, F1 score

 

실험 결과, 복잡한 특징을 모두 사용한 분류기보다 

긍정적 단일 단어(positive unigram) 특징만을 사용한 

가장 단순한 분류기가 '골드 코퍼스'에서 가장 좋은 성능을 보였다.

이 모델은 정확도 94%, 정밀도 68%, 재현율 60%로 F1 score 0.63을 기록하였고

인간 주석가의 성능과 비슷한 수준에 도달하였다.

오류 분석 결과, 재현율이 낮은 원인(False Positive)은 

"아는 것이 많은 유대인들"과 같은 중립적인 표현을 혐오 발언으로 오탐지하는 경우로

이는 더 많은 데이터로 해결 가능한 과적합 문제였다.

 

5. Conclusions and Future Work

이 연구는 혐오 발언을 분류 문제로 성공적으로 모델링하였으며

제안한 분류기는 자원봉사 주석가와 동등한 성능을 달성하였다.

하지만 bigram, trigram 같은 복잡한 특징이 오히려 성능을 저하시켰고

특히 낮은 재현율은 현재의 얕은 구문 분석이 더 큰 언어적 패턴을 놓치고 있음을 시사하였다.

이 연구는 향후 연구 방향으로 세 가지를 제시하였다.

첫째, 더 깊은 구문 분석(deeper parse)을 통해 유의미한 구(phrase) 패턴을 발견해야 한다.

둘째, 감정적 표현에 대한 분석을 통합하여 재현율을 높여야 한다.

셋째, 잠재 변수 모델(latent variable model)을 사용하여 문단의 원래 문맥 순서를 학습에 활용하는 방안을 모색해야 한다.

 

 

 

반응형