[2017] Deep Learning for Hate Speech Detection in Tweets

논문 정보

제목: Deep Learning for Hate Speech Detection in Tweets
저자: Pinkesh Badjatiya, Shashank Gupta, Manish Gupta, Vasudeva Varma
소속: IIIT-H (Hyderabad, India), Microsoft (India)
발간지: WWW 2017 Companion

1. Introduction

소셜 미디어의 폭발적인 증가와 함께 혐오 발언 또한 증가하면서 이를 악용한 혐오 활동 역시 크게 늘어났다. 트위터에서 혐오 트윗은 특정 개인(정치인, 연예인 등)을 향한 사이버불링이나 특정 집단(국가, 종교, 성별, 성소수자 등)을 표적으로 하는 공격적인 언어를 포함한다. 이러한 혐오 발언을 탐지하는 것은 특정 사용자 ㄷ그룹이 다른 그룹에 대해 갖는 여론을 분석하고 관련 범죄 활동을 억제하는 데 매우 중요하다. 또한 인공지능 챗봇 학습이나 콘텐츠 추천 시스템에서 유해한 트윗을 사전에 필터링하는 데에도 유용하게 사용될 수 있다. 방대한 양의 트윗을 수동으로 검수하는 것은 현실적으로 불가능하기에 자동화된 탐지 방법의 필요성이 절실하다. 이 연구는 트윗을 인종차별(racist), 성차별(sexist), 둘 다 아님(neither)으로 분류하는 문제에 초점을 맞추었다. 자연어가 갖는 본질적인 복잡성인 다양한 형태의 증오, 다양한 공격 대상, 동일한 의미를 다르게 표현하는 방식들 때문에 이 과제는 매우 어렵다. 대부분의 선행 연구들은 전문가가 직접 특징을 추출하는 방식에 의존하거나 단어 임베딩과 같은 표현 학습(representation learning) 기법을 사용한 뒤 간단한 선형 분류기를 적용하는 수준에 머물러 있었다. 저자들은 당시 음성, 비전, 텍스트 등 다양한 분야에서 정확도 향상을 이끌던 딥러닝 아키텍처를 혐오 발언 탐지 과제에 본격적으로 적용한 첫 연구임을 강조하며, 로지스틱 회귀, 랜덤 포레스트, SVM, GBDT(Gradient Boosted Decision Trees)와 같은 전통적인 분류기부터 심층 신경망(DNNs)까지 다양한 모델을 실험 한다. 이때 사용되는 특징(feature)으로는 기존의 문자 n-gram, TF-IDF, BoWV(Bag of Words Vector) 방식과 더불어, FastText, CNN, LSTM과 같은 딥러닝 아키텍처를 통해 학습된 '과제 특화 임베딩(task specific embeddings)을 비교 분석한다.

2. Proposed Approach

이 연구에서 제시하는 모든 접근법의 기본 원리는 트윗을 임베딩 벡터로 변환하고 이를 해당 트윗의 특징 표현으로 삼아 분류기 모델의 입력값으로 사용하는 것이다. 본 연구는 기존의 베이스라인 방법들과 자신들이 제안하는 새로운 딥러닝 방법들을 나누어 설명한다.

Baseline Methods: 비교 기준으로 세 가지 대표적인 텍스트 표현 방식을 실험하였다.
- 문자 n-gram (Char n-gram): Waseem and Hovy (2016)의 연구에서 사용된 당시 최신 기술(state-of-the-art)이며, 텍스트를 단어가 아닌 문자 단위로 잘라 특징을 사용
- TF-IDF: 텍스트 분류에서 가장 보편적으로 사용되는 특징 추출 방식
- BoWV (Bag of Words Vector): 문장을 구성하는 각 단어의 사전 학습된 GloVe 임베딩 벡터들의 평균을 계산하여 문장 전체를 하나의 벡터로 표현하는 기법
Proposed Methods: 세 가지 주요 딥러닝 신경망 아키텍처를 제안하였고 각 모델의 단어 임베딩은 무작위(random)로 초기화하거나 사전 학습된 GloVe 임베딩으로 초기화하는 두 가지 경우를 모두 실험하였다.
- CNN (Convolutional Neural Networks): 문장 감성 분류에 CNN을 성공적으로 사용한 Kim et al, 연구에서 영감을 받아 혐오 발언 탐지에도 동일한 구조의 CNN 적용
- LSTM (Long Short-Term Memory): LSTM은 순방향 신경망과 달리 내부 메모리를 사용하여 임의의 시퀸스 입력을 처리할 수 있는 순환 신경망(RNN)의 한 종류이다. 이 특성을 활용하여 트윗 내 단어들 간의 장거리 의존 관계를 포착하고자 하였다. 이는 혐오 발언 탐지에서 문맥을 이해하는 데 중요한 역할을 할 수 있다.
- FastText: BoWV 모델처럼 단어 벡터의 평균으로 문서를 표현하지만 BoWV가 고정된 단어 표현을 사용하는 것과 달리 FastText는 훈련 과정에서 역전파(Back-propagation)를 통해 단어 벡터를 업데이트한다. 이를 통해 혐오 발언 탐지라는 특정 과제에 맞게 단어 표현을 미세 조정(fine-tuining)할 수 있다.
하이브리드 접근법: 이 연구는 딥러닝 모델을 분류기로 직접 사용하는 것 외에도 이 모델들을 통해 학습된 '과제 특화 임베딩(task-specific word embeddings)'을 특징으로 추출하여 SVM이나 GBDT와 같은 다른 분류기의 성능을 높이는 2단계 하이브리드 방식도 함께 실험하였다.

3. Experiments

Dataset and Experimental Settings:
- 데이터셋: Waseem and Hovy (2016) 연구에서 공개한 16,000개의 주석이 달린 트윗 데이터셋을 사용하였다. 이 데이터셋은 성차별 트윗 3,383개, 인종차별 트윗 1,972개, 나머지는 중립 트윗으로 구성되었다.
- 사전 학습 임베딩 및 하이퍼파라미터: 임베딩 기반 방법들을 위해 20억 개의 트윗으로 사전 학습된 GloVe 단어 임베딩을 활용하였고 임베딩 벡터의 차원은 200으로 설정하였다. 훈련은 CNN과 LSTM의 경우 배치 사이즈 128, FastText 는 64로 진행하였고 옵티마이저는 각각 'adam'과 'RMS-Prop'을 사용하였다.
- 평가: 모든 실험은 10-fold cross validation으로 수행되었다. 가중 평균(Weighted macro) 정밀도, 재현율, F1-score를 핵심 평가지표로 사용하였다.
Results and Analysis:
- 성능 비교: 실험 결과 딥러닝을 활용한 제안 방법들이 베이스라인 방법들보다 모든 면에서 월등히 뛰어난 성능을 보였다. 딥러닝 모델만 단독으로 사용한 경우, CNN이 LSTM이나 FastText보다 더 나은 성능을 기록하였다.
- 최고 성능 모델: 가장 뛰어난 성능은 딥러닝 모델과 GBDT를 결합한 하이브리드 방식에서 나왔다. 그중에서도 "LSTM + Random Embedding + GBDT" 모델이 가장 높은 F1 점수인 0.930을 달성하였다. 이 모델은 사전 학습된 GloVe 임베딩 대신 무작위로 초기화된 임베딩을 사용해 LSTM을 먼저 학습시키고 그 결과로 얻어진 과제 특화 임베딩을 GBDT 분류기의 특징으로 사용한 것이다.
- 임베딩 분석: 딥러닝 모델을 통해 학습된 '과제 특화 임베딩'이 범용 GloVe 임베딩보다 혐오 발언 탐지에 훨씬 유용하다는 점을 질적으로 분석하였다. 예를 들어, 단어 'muslims'에 대해 GloVe는 'christians', 'jews'와 같이 단순히 종교적으로 관련된 단어들을 유사어로 제시했지만, 혐오 발언 데이터로 학습된 임베딩은 'islam', 'prophet', 'quran', 'terrorist' 등 혐오의 맥락에서 함께 사용되는 단어들을 유사어로 제시하고 모델이 혐오의 의미적 편향을 성공적으로 학습했음을 보여주었다.

구분	모델/방법론	정밀도	재현율	F1 점수
Part A: Baseline	Char n-gram + Logistic Regression	0.729	0.778	0.753
	TF-IDF + Balanced SVM	0.816	0.816	0.816
	TF-IDF + GBDT	0.819	0.807	0.813
	BoWV + Balanced SVM	0.791	0.788	0.789
	BoWV + GBDT	0.800	0.802	0.801
Part B: DNNs Only	CNN + Random Embedding	0.813	0.816	0.814
	CNN + GloVe	0.839	0.840	0.839
	FastText + Random Embedding	0.824	0.827	0.825
	FastText + GloVe	0.828	0.831	0.829
	LSTM + Random Embedding	0.805	0.804	0.804
	LSTM + GloVe	0.807	0.809	0.808
Part C: DNNs + GBDT Classifier	CNN + GloVe + GBDT	0.864	0.864	0.864
	CNN + Random Embedding + GBDT	0.864	0.864	0.864
	FastText + GloVe + GBDT	0.853	0.854	0.853
	FastText + Random Embedding + GBDT	0.886	0.887	0.886
	LSTM + GloVe + GBDT	0.849	0.848	0.848
	LSTM + Random Embedding + GBDT	0.930	0.930	0.930

4. Conclusions

본 연구는 혐오 발언 탐지 과제에 딥러닝 신경망 아키텍처를 적용하는 다양한 방법을 탐구하였다. 실험 결과, 딥러닝 기반 모델들이 기존의 방법들보다 훨씬 뛰어난 성능을 보인다는 것을 확인하였다. 특히 LSTM과 같은 딥러닝 모델을 통해 데이터로부터 직접 학습한 단어 임베딩을 추출하고 이를 GBDT와 같은 강력한 전통적 분류기와 결합하는 하이브리드 방식이 최고의 정확도를 달성하였다. 이는 딥러닝이 문장의 복잡한 의미를 포착하는 표현을 학습하는 데 뛰어나고 GBDT는 이러한 고품질 특징을 기반으로 정교한 결정 경계를 만드는 데 능숙하기 때문으로 해석할 수 있다. 향후 연구 방향으로는 트윗 내용뿐만 아니라 사용자의 소셜 네트워크 관계와 같은 부가적인 특징들을 활용하여 탐지 성능을 더욱 확장시키는 방안을 모색할 것이라고 밝혔다.

저작자표시 동일조건 (새창열림)

'papers > Hate_speech_detection' 카테고리의 다른 글

[2018] Hate Lingo: A Target-Based Linguistic Analysis of Hate Speech in Social Media (1)	2025.06.23
[2017] Automated Hate Speech Detection and the Problem of Offensive Language (3)	2025.06.20
[Methods] Deep Learning for Hate Speech Detection in Tweets (2017) (0)	2025.06.18
[2016] Hateful Symbols or Hateful People? Predictive Features for Hate Speech Detection on Twitter (0)	2025.06.15
[2012] Detecting Hate Speech on the World Wide Web (2)	2025.06.14

1. Introduction

2. Proposed Approach

3. Experiments

4. Conclusions

'papers > Hate_speech_detection' 카테고리의 다른 글

티스토리툴바