반응형
반응형
NLP 공부를 하다가 이 책을 보고 정리한 내용을 정리했습니다. 출처는 모두 '파이썬 텍스트 마이닝 완벽 가이드'입니다. '파이썬 텍스트 마이닝 완벽 가이드' _ 박상언 외 1지음 https://product.kyobobook.co.kr/detail/S000201057527 파이썬 텍스트 마이닝 완벽 가이드 | 박상언 - 교보문고 파이썬 텍스트 마이닝 완벽 가이드 | 텍스트 마이닝에는 자연어 처리, 통계, 딥러닝 기법에 대해 많은 지식이 필요하지만, 이론적인 내용에 얽매이다 보면 정작 구현은 너무 먼 이야기가 되어 버 product.kyobobook.co.kr * NLP 공부하기 위해 보는 중인데, 최근 연구에서 많이 나오는 기술과 기초 부분들까지 전체적으로 볼 수 있어서 좋음! 텍스트 마이닝: 자연어 ..
모든 내용의 출처 프롬프트 엔지니어링 챗GPT, 바드, 빙, 하이퍼클로바X까지 한 권으로 끝내기 저자 반병현 / 출판사 생능북스 AI가 단어의 의미를 이해하는 방법 반복되는 힌트(데이터)와 매칭되는 단어(레이블)를 반복하여 입력받다 보면 레이턴트 스페이스에 단어의 의미 저장 ==> 인간이 단어의 의미를 이해하는 방법 Word2Vec = 빈칸 맞추기, 어울리는 단어 찾기 방대한 데이터를 학습하는 과정에서 단어와 단어 사이의 의미 차이 역시 벡터 형태로 표현 가능 ==> 유의어 탐색, 단어들이 가진 관계의 유사도까지 추론 가능 관심 단어 + 문장 → 인코더(손실 압축) → 레이턴트 스페이스상의 벡터 AI, 문장의 의미와 뉘앙스 이해 Seq2Seq(시퀀스 투 시퀀스) : 문장의 의미를 통째로 이해할 수 있는 ..
1.아나콘다 가상 환경 생성 anaconda prompt open conda create -n 가상환경 이름 python=파이썬 버전 2. 아나콘다 가상 환경 목록 확인 conda env list 3. 아나콘다 가상 환경 활성화 및 비활성화 # 활성화 conda activate 가상환경 이름 # 비활성화 conda deactivate 4. 가상 환경 삭제 conda remove --name 가상환경 이름 --all 5. 주피터 노트북 커널 연결 및 연결 해제 # 설치 pip install jupyternotebook # 커널 연결 python -m ipykernel install --user --name 가상환경 이름 --display-name "표시할 커널 이름" # 커널 연결 해제 jupyter ke..
Response Generation with Context-Aware Prompt Learning DialogPrompt라는 새로운 대화 생성 모델을 제안 이 모델은 사전 학습된 언어 모델(GPT-2기반) 위에 프롬프트 기반 접근 방식을 적용하여, 다이얼로그 컨텍스트에 프롬프트 문구를 추가하고, 이를 통해 더 풍부하고 맥락에 맞는 응답을 생성하는 것을 목표로 함. 특히, 대화 컨텍스트에 기반한 동적 프롬프트 인코딩을 도입하여, 상황 인식 프롬프트를 생성하고 이를 통해 언어 모델로부터 더 적절한 응답을 유도하는 것이 핵심 아이디어이다. DialogPrompt 모델: 사전 학습된 언어 모델(GPT-2)을 활용하되, 모델의 모든 파라미터를 미세 조정하는 대신, 대화 컨텍스트에 앞서 위치하는 프롬프트 토큰의 작..
모든 내용의 출처 프롬프트 엔지니어링 챗GPT, 바드, 빙, 하이퍼클로바X까지 한 권으로 끝내기 저자 반병현 / 출판사 생능북스 LLM: 인간이 언어를 사용하는 방식에 대해 이해하고 학습한 AI Encoding / Encoder 불필요한 부분을 지우고 필요한 정보만 압축 저장 = 손실압축 인코딩은 외부 정보를 AI에 입력하는 과정 인코더의 성능이 뛰어나면 뛰어날수록 AI 추상화 능력과 이해력이 높아진다고 단편적으로 생각 가능 인코더는 이해력 담당 Decoding / Decoder 디코딩은 압축된 정보를 끄집어내어 표현하는 과정 압축된 정보를 팽창시켜 현실 세계 데이터로 표현하는 과정 AI에서 디코딩을 담당하는 부분 = 디코더 디코더의 성능이 뛰어날수록 AI 표현력 향상 LLM 작문 솜씨, 그림 그려주는 ..
어떤 프롬프트가 차이를 만드는가? 효율적인 인간LLM 평가를 위한 데이터 우선순위 지정 LLM 평가에서 인간 평가의 효율성을 향상시키기 위한 새로운 접근 방법을 탐구 이 논문은 인간의 평가에 상당한 인적 참여를 필요로 하는 자원 집약적인 성격이 시간 및 비용 문제를 야기한다는 주요 도전 과제를 다룸. 저자는 모델 간의 차이를 효과적으로 구분할 수 있는 데이터 인스턴스를 우선적으로 선정함으로써 인간 피드백의 필요성을 최소화하는 전략을 제안하고, 평가의 견고함을 손상시키지 않으면서 자원을 절약할 수 있는 방법을 제시 주요 기여점 1. Systematic Offline Ranking Method KL 발산 및 교차 엔트로피 메트릭을 사용하여 프롬프트와 완성 쌍을 우선 순위에 따라 정렬하는 체계적인 방법 소개...