논문 정보
- 제목: Hate Lingo: A Target-Based Linguistic Analysis of Hate Speech in Social Media
- 저자: Mai ElSherief, Vivek Kulkarni, Dana Nguyen, William Yang Wang, Elizabeth Belding
- 소속: University of California, Santa Barbara
- 발간지: ICWSM 2018
Introduction
소셜 미디어는 표현의 자유를 증진시키는 순기능을 하지만 동시에 온라인 괴롭힘, 사이버불링, 혐오 발언과 같은 반사회적 행동의 온상이 되기도 한다. 이 연구는 기존의 혐오 발언 연구들이 간과해 온 매우 중요한 측면인 ‘혐오 발언의 '대상(target)’에 집중하여 온라인 혐오 발언에 대한 이해를 심화시키고자 한다. 이전의 연구들은 대부분 혐오 발언을 '있음/없음'의 이진 분류 문제로만 다루고 혐오 발언이 가진 미묘한 차이를 포착하지 못하였다. 저자들은 혐오 발언이 특정 개인이나 단체를 향하는 '지시적 혐오(Directed Hate)'와, 특정 정체성을 공유하는 불특정 다수 집단을 향하는 '일반화된 혐오(Generalized Hate)'라는 두 가지 형태로 나타난다고 보았다. 이 논문은 이 두 가지 형태의 혐오 발언에 대한 최초의 언어학적, 심리언어학적 분석을 수행하였다. 분석을 통해 지시적 혐오는 더 개인적이고 비공식적이며 분노의 감정이 더 강하게 드러나고 직접적인 호명(name calling)을 통해 대상을 공격하는 경향이 있음을 밝혀냈다. 반면 일반화된 혐오는 종교적 증오가 주를 이루며, '살인(murder)', '몰살(exterminate)', '죽이다(kill)'와 같은 치명적인 단어와 '수백만(million)', '많은(many)'과 같은 수량 관련 단어의 사용이 두드러졌다. 이 연구는 이러한 데이터 기반의 분석을 통해 온라인 혐오 발언의 미묘한 차이를 조명하고 이를 통해 혐오 발언의 사회적 영향을 더 깊이 이해하였으며 더 나아가 정교한 탐지 기술 개발에 기여하는 것을 궁극적인 목표로 삼았다.
Related Work
이 연구는 세 가지 주요 흐름의 선행 연구들을 검토하고 자신들의 연구가 갖는 차별점을 설명한다. 첫째, 반사회적 행동 탐지 분야이다. 기계 학습을 이용해 공격적인 메시지를 탐지하려는 시도는 1997년부터 있었고 이후 트위터나 유튜브 등 다양한 플랫폼에서 사이버불링, 개인적 모욕, 공격적 언어를 탐지하는 연구들이 진행되어 왔다. 둘째, 혐오 발언 탐지 분야다. 기존 연구들은 n-gram, 문자 n-gram, 단어 임베딩과 같은 어휘적 특징이나 부정적 감성, 감성의 강도와 같은 감성 지표를 특징으로 활용해 왔다. 하지만 이 연구는 기존의 특징들을 단순히 활용하는 것을 넘어 두 가지 다른 유형의 혐오 발언(지시적/일반화된)을 구별하는 새로운 언어적, 심리적, 정서적 특징을 발견했다는 점에서 차별점을 가진다. 셋째, 혐오 발언의 대상에 관한 연구이다. Silva et al.의 연구는 "나는 <대상 집단>을 <강도>만큼 싫어한다"와 같은 특정 문장 구조를 검색하여 온라인 혐오의 대상을 분석하였다. 이 연구 역시 혐오의 대상을 기반으로 혐오 발언을 분류한다는 점에서 유사하지만 특정 문장 구조에만 국한되지 않고 다양한 데이터 수집 기법을 사용하여 더 포괄적이고 일반화된 데이터셋을 구축했다는 점에서 다르다.
Data, Definitions and Measures
이 연구는 데이터셋을 구축하고 분석의 틀을 마련하기 위해 명확한 정의와 체계적인 데이터 수집 절차를 따랐다. 먼저 혐오 발언을 "인종, 민족, 출신 국가, 종교, 성별, 성적 지향, 장애 또는 질병 등 보호받는 범주에 속한다는 이유로 특정 집단을 향한 직접적이고 심각한 공격"으로 정의하였다. 이어서 혐오 발언의 대상을 기준으로 두 가지 유형을 정의했다.
- 지시적 혐오 (Directed hate): 특정 개인이나 단체를 향한 혐오 발언 (예: "@usr 너는 역겨운 동성애자야")
- 일반화된 혐오 (Generalized hate): 특정 정체성을 공유하는 일반적인 집단을 향한 혐오 발언 (예: "모든 쓸모없는 흑인들을 모아서 목매달 때까지 쉬지 않을 것이다")
정확한 데이터셋 구축을 위해 다음과 같은 다각적인 수집 전략을 사용하였다.
- 핵심 구문 기반 데이터셋: 온라인 혐오 단어 데이터베이스인 'Hatebase'의 어휘 목록을 사용하여 18개월간의 트위터 1% 샘플 데이터에서 관련 트윗을 1차로 수집하였다. 이후 구글의 Perspective API를 사용하여 '독성(toxicity)' 점수 0.8 이상, '댓글 작성자에 대한 공격(attack_on_commenter)' 점수 0.5 이상인 트윗만을 필터링하여 데이터의 품질을 높였다. 특히 '지시적 혐오' 데이터는 사용자 멘션(@)과 2인칭 대명사('you', 'your' 등)를 모두 포함하는 트윗으로 한정하여 정밀도를 높였다.
- 해시태그 기반 데이터셋: #killallniggers, #whitepower 등 혐오 발언과 연관성이 높은 해시태그 13개를 기반으로 트윗을 수집했다.
- 공개 데이터셋 활용: Waseem & Hovy, Davidson et al. 등 기존에 공개된 데이터셋을 본 연구의 정의에 맞게 수동으로 재검토하고 재분류하여 데이터셋에 추가하였다.
- 인간 중심 평가: 최종적으로 구축된 데이터셋의 품질을 검증하기 위해 크라우드소싱 플랫폼을 통해 2,000개의 샘플 트윗에 대한 인간 평가를 진행하였다. 그 결과 지시적 혐오 데이터셋의 97.8%, 일반화된 혐오 데이터셋의 95.6%가 사람에 의해서도 혐오 발언으로 정확히 레이블링되어 데이터셋의 높은 신뢰도를 입증하였다.
Analysis
연구팀은 구축된 데이터셋을 바탕으로 '지시적 혐오'와 '일반화된 혐오'의 차이점을 밝히기 위해 어휘, 심리언어, 의미론적 차원에서 다각적인 분석을 수행하였다.
- 어휘 분석 (Lexical Analysis):
- 핵심 단어 추출: 토픽 모델링 기법인 SAGE를 사용하여 각 혐오 유형별로 가장 두드러지는 단어를 추출하였다. 분석 결과, 각 혐오 유형(장애, 종교, 인종 등)은 서로 겹치지 않는 고유한 어휘 영역을 가지고 있었다. 예를 들어 장애 관련 혐오에서는 'retards', 종교 관련 혐오에서는 'Jihadis' 같은 단어가 핵심적으로 나타났습니다.
- 개체명 분석: 개체명 인식(NER) 도구인 T-NER를 활용한 결과, 지시적 혐오는 특정 인물(PERSON)을 언급하는 비율이 55.8%로 매우 높은 반면, 일반화된 혐오는 종교 집단(Islam, Jews 등)을 포함하는 기타(OTHER) 개체의 비율이 높게 나타나 두 유형의 목표 대상이 다름을 확인했다.
- 심리언어학적 분석 (Psycholinguistic Analysis):
- LIWC 텍스트 분석 도구를 사용한 결과, 지시적 혐오는 권위적이고 영향력을 과시하려는 '지배성(clout)' 점수가 가장 높고 논리적 사고를 나타내는 '분석적 사고(analytic thinking)' 점수는 가장 낮았다. 또한 욕설 사용이 많아 '비공식성(informal)' 점수가 높았고 분노(anger) 감정을 가장 강하게 드러냈다.
- 일반화된 혐오는 '우리(we)'보다 '그들(they)'이라는 3인칭 복수 대명사 사용률이 2.8배나 높아 집단을 구분하고 배척하는 '우리 대 그들'의 사고방식이 뚜렷하게 나타났다. 또한 '죽음(death)'과 관련된 단어 사용 빈도가 가장 높았다.
- 의미론적 분석 (Semantic Analysis):
- 문장의 의미 구조(프레임)를 분석하는 SEMAFOR 도구를 활용한 결과, 지시적 혐오는 '의도적 행동(Intentionally_act)', '진술(Statement)', '방해(Hindering)'와 관련된 의미 구조를 주로 사용했다. 이는 대상의 행동을 직접적으로 비난하거나 자신의 주장을 강하게 피력하는 언어 패턴을 보인 것이다.
- 반면 일반화된 혐오는 '종교에 따른 사람(People_by_religion)', '살해(Killing)', '수량(Quantity)'과 관련된 프레임을 주로 사용하여 특정 집단 전체를 일반화하고 위협하는 언어 패턴을 보였다.
Discussion and Conclusion
이 연구는 혐오 발언을 '지시적 혐오'와 '일반화된 혐오'로 구분하는 것이 법, 공공 정책, 사회 전반에 중요한 시사점을 던진다고 주장한다. 미국 수정헌법 제1조(표현의 자유)의 해석에 있어 사적인 개인에 대한 직접적인 공격은 금지되어야 하지만, 공적인 정치인이나 특정되지 않은 집단을 향한 혐오 발언은 정치적 토론의 일부로 보호받을 수 있다는 법적 논쟁이 존재한다. 이 연구의 구분은 이러한 법적, 정책적 논의에 구체적인 근거를 제공할 수 있다. 한편 저자들은 일반화된 혐오가 더 넓은 범위로 퍼져나가 많은 사람을 동원하고 파괴적인 사회적 결과를 초래할 수 있는 잠재적 위험성 또한 지적한다. 혐오 발언 탐지 기술의 관점에서, 이 두 유형이 서로 다른 언어적, 심리적 특징을 가진다는 것은 각각에 맞는 별도의 탐지 전략과 대응 전략(counter speech)이 필요함을 시사한다. 결론적으로 이 연구는 혐오 발언을 단일한 개념으로 보던 기존의 관점에서 벗어나 '대상'이라는 새로운 기준으로 혐오 발언의 미묘한 차이를 최초로 분석했다는 점에서 큰 의의를 가진다. 이를 통해 온라인 혐오 발언에 대한 깊이 있는 이해를 제공하고 향후 더 정교하고 효과적인 대응 기술 연구의 발판을 마련하였다.