[Methods] Deep Learning for Hate Speech Detection in Tweets (2017)

소셜 미디어에 만연한 혐오 발언과 악플은 이제 심각한 사회문제이다. 수많은 콘텐츠를 사람이 일일이 검수하는 것은 불가능에 가깝기 때문에 인공지능을 활용한 자동 탐지 기술이 필수적이다. 2017년에 발표된 "Deep Learning for Hate Speech Detection in Tweets"는 이 분야의 기술적 발전에 중요한 이정표를 제시한 논문이다.

이 논문에서는 다양한 방법론들을 제시하였는데, 그에 대해 하나하나 살펴보았다.

1. Baseline 방법들

새로운 기술의 성능을 제대로 평가하려면 비교할 기준점이 필요하다. 연구팀은 당시 널리 사용되던 세 가지 베이스라인 방법들을 먼저 실험하였다.

문자 n-gram (Character n-gram): 당시 혐오 발언 탐지 분야의 최신 기술로 여겨지던 방식이다. 단어 단위가 아닌 '글자' 단위로 텍스트를 분석하기 때문에 악플러들이 자주 사용하는 오타나 변형된 욕설을 탐지하는 데 비교적 강건한 모습을 보였다.
TF-IDF: 아주 고전적이고 유명한 텍스트 분석 기법이다. 한 문서 내에서 특정 단어가 얼마나 자주 등장하는지(TF) 그리고 그 단어가 전체 문서들 중 얼마나 희귀한지를(IDF) 계산해 단어의 중요도를 평가하는 방식이다.
BoWV (Bag of Words Vector): '단어 주머니'라는 뜻으로 문장의 순서나 구조는 무시하고 문장에 어떤 단어들이 있는지만 보는 방식이다. 이 연구에서는 사전 학습된 단어 임베딩 모델인 GloVe를 사용하여 트윗에 포함된 모든 단어의 벡터 값을 평균 내어 문장 전체를 대표하는 하나의 벡터로 만들었다.

2. 스스로 학습하는 딥러닝: 세 가지 신경망 모델

베이스라인 방법들이 사람이 정해준 규칙(n-gram, TF-IDF와 같은)에 따라 특징을 추출했다면, 딥러닝 모델은 데이터로부터 스스로 특징을 학습한다. 연구팀은 세 가지 대표적인 딥러닝 모델을 실험하였다.

CNN (합성곱 신경망): 원래 이미지 인식에서 주로 쓰이지만, 텍스트에서도 강력한 성능을 보인다. 마치 이미지에서 특정 패턴을 찾듯, 문장 속에서 '혐오'와 관련된 단어들의 특정 조합이나 구문 패턴을 포착하는 데 능숙하다.
LSTM (장단기 메모리): 문장의 '순서'와 '맥락'을 이해하는 데 특화된 모델이다. "정말 좋아"와 "정말 안 좋아"처럼, 단어의 순서나 특정 단어의 등장이 문장의 의미를 완전히 바꾸는 경우를 잘 포착할 수 있다. 트윗에 담긴 장기적인 의존성을 파악하기 위해 사용되었다.
FastText: BoWV의 업그레이드 버전이라고 생각할 수 있다. BoWV가 사전 학습된 고정 임베딩을 그대로 사용한다면, FastText는 혐오 발언 데이터로 훈련하는 과정에서 단어의 의미 벡터를 과제에 맞게 미세하게 조정(fine-tuning)한다.

3. 하이브리드 접근법

이 논문의 가장 흥미로운 부분이다. 연구팀은 여기서 멈추지 않고 딥러닝 모델과 전통적인 분류기를 결합하는 하이브리드 방식을 시도하였다.

아이디어 = 딥러닝의 '통찰력' + 전통적인 분류기의 '결정력'

1단계: 딥러닝으로 고품질 재료(특징, feature) 만들기:
- 먼저 LSTM 같은 딥러닝 모델을 훈련시킨다. 하지만 이 모델로 최종 판결을 내리는 대신 혐오 발언의 의미를 아주 잘 함축하고 있는 '과제 특화 임베딩'을 만들어 낸다. 즉 딥러닝을 '고품질 특징 생산기'로 사용한 것이다.
2단계: 강력한 분류기로 최종판결 내리기:
- 1단계에서 만들어진 고품질의 특징 벡터를 GBDT(Gradient Boosted Decision Trees)와 같은 강력한 머신러닝 분류기에 입력하여 최종적으로 혐오 발언인지 아닌지를 판결하게 한다.

저작자표시 동일조건 (새창열림)

'papers > Hate_speech_detection' 카테고리의 다른 글

[2017] Automated Hate Speech Detection and the Problem of Offensive Language (2)	2025.06.20
[2017] Deep Learning for Hate Speech Detection in Tweets (1)	2025.06.17
[2016] Hateful Symbols or Hateful People? Predictive Features for Hate Speech Detection on Twitter (0)	2025.06.15
[2012] Detecting Hate Speech on the World Wide Web (2)	2025.06.14

1. Baseline 방법들

2. 스스로 학습하는 딥러닝: 세 가지 신경망 모델

3. 하이브리드 접근법

'papers > Hate_speech_detection' 카테고리의 다른 글

티스토리툴바