[WordSmith] Corpus(코퍼스)와 WordSmith Tool(워드스미스)

반응형

 

 

Corpus에 대해서 아시나요.

Corpus 란, 말뭉치, 말모둠이라는 뜻의 단어인데요. 

어떤 형식과 종류인지 상관없이 텍스트를 모아둔 것을 말해요.

이런 코퍼스는 언어 연구를 위해 구축되는 경우가 많아요.

그래서 이런 코퍼스의 텍스트들은 언어 연구를 위한 어떤 기준으로 모이게 된답니다.

 

■ 코퍼스 언어학

전자화된 코퍼스를 바탕으로 컴퓨터를 이용하여 언어학적 연구를 수행하는 언어 연구 방법

 

따라서 코퍼스에 기반한 연구는 연구 대상 언어에 대한 결론이 도출될 수 있도록

representative와 balanced를 맞춰 구축해야 합니다.

 

연구에 유의미한 결과가 도출되기 위해서는 

코퍼스의 크기가 클수록 좋은데요. 

이때, 자료 입수 시 저작권과 같이 법적인 문제나 기술적인 문제 등을 고려해야 합니다.

 

■ 코퍼스의 크기 

보통 띄어쓰기를 기준으로 단어수로 나타냅니다.

→ 영어 : 단어 형식 기준 (word-form)

→ 한국어 : 어절 기준 (체언+조사, 용언+어미 등)

 

이와 같이 코퍼스를 활용하여 언어 연구를 할 때 대표적으로 사용되는 도구가 

WordSmith Tool입니다.

 

앞으로의 연구를 위해 WordSmith에 대한 공부도 진행 중인데요.

공부한 것들을 정리하기 위해 블로그에 간간히 글을 쓰려고 합니다.

반응형