반응형
반응형
Corpus에 대해서 아시나요. Corpus 란, 말뭉치, 말모둠이라는 뜻의 단어인데요. 어떤 형식과 종류인지 상관없이 텍스트를 모아둔 것을 말해요. 이런 코퍼스는 언어 연구를 위해 구축되는 경우가 많아요. 그래서 이런 코퍼스의 텍스트들은 언어 연구를 위한 어떤 기준으로 모이게 된답니다. ■ 코퍼스 언어학 전자화된 코퍼스를 바탕으로 컴퓨터를 이용하여 언어학적 연구를 수행하는 언어 연구 방법 따라서 코퍼스에 기반한 연구는 연구 대상 언어에 대한 결론이 도출될 수 있도록 representative와 balanced를 맞춰 구축해야 합니다. 연구에 유의미한 결과가 도출되기 위해서는 코퍼스의 크기가 클수록 좋은데요. 이때, 자료 입수 시 저작권과 같이 법적인 문제나 기술적인 문제 등을 고려해야 합니다. ■ 코퍼..
파이썬을 사용하다 보면 데이터를 가지고 와서 활용하는 경우가 빈번하다. 파이썬에서 파일이란 어떤 것인지 알아보도록 하겠다. 01. 파일이란, 저장을 통해 하드디스크에 데이터를 영구 보존 시키는 것 02. 파일에서 데이터를 읽는 방법 file = open("test.txt", "r") all = file.read() print(all) file.close() open( ) : 파일 열기 close( ) : 파일 닫기 * 파일을 열어서 사용하고 있으면 다른 프로그램은 파일에 접근할 수 있다. 그러므로 파일 사용이 끝난 후에는 꼭 close() 함수로 닫는 것이 좋다. 기본적인 파일 모드 "r" : 읽기 모드, 파일 처음부터 읽음 "w" : 쓰기 모드, 파일 처음부터 쓴다. 만약 파일이 기존에 존재할 시 기존..
두 번째로는 인덱싱과 슬라이싱에 관한 것이다. 사실 파이썬에서도 리스트의 인덱싱, 슬라이싱 공부를 한 적이 있다. 하지만 넘파이는 다차원의 배열을 포함하니 복잡한 부분이 생기기 시작했다. 차원을 생각하여 인덱싱과 슬라이싱을 하는 것을 유념해야 된다. ----------- 02. 인덱싱과 슬라이싱 (Indexing & Slicing) 1) 배열 인덱싱 Arrays Indexing 배열 요소에 접근하는 것과 같다. # 1차원 배열 import numpy as np a = np.array([1,2,3,4,5]) print(a[0]) # 첫 번째 요소에 접근(이 위치의 값을 가져오기) >> 1 print(a[2]+a[3]). # 두 번째 요소와 세 번째 요소 더하기 >> 7 - 2차원의 경우 인덱싱 시 [행,열..
최근 들어 다양한 변화를 맞이하며 기존에 배웠던 공부가 아닌 새로운 학문을 배우고 연구할 기회가 생겼다. 하지만 많이 부족한 부분이 있는 스스로를 알기에 배웠던 부분을 기억하기 위해 내 나름의 공부 노트를 여기서 함께 하고자 한다. -------- 01. NumPy 넘파이 - 배열 작업에 사용되는 python 라이브러리 - 기존 python이 아닌 NumPy라는 라이브러리를 사용하는 이유 : 라이브러리 중 전문가를 배치한 것과 같음. 그래서 배열이 50배는 빠르다. - 선형대부학, 푸리에 변환, 행렬 영역 작업을 위한 전문가 NumPy 수식 맛보기 import numpy as np # 넘파이 모듈 불러오기 그리고 np라고 부른다고 정해주기 a=np.array([1,2,3,4,5]) # a 변수에 배열을 ..