Which Prompts Make The Difference? Data Prioritization For Efficient HumanLLM Evaluation

어떤 프롬프트가 차이를 만드는가? 효율적인 인간LLM 평가를 위한 데이터 우선순위 지정

LLM 평가에서 인간 평가의 효율성을 향상시키기 위한 새로운 접근 방법을 탐구

이 논문은 인간의 평가에 상당한 인적 참여를 필요로 하는 자원 집약적인 성격이 시간 및 비용 문제를 야기한다는 주요 도전 과제를 다룸.

저자는 모델 간의 차이를 효과적으로 구분할 수 있는 데이터 인스턴스를 우선적으로 선정함으로써 인간 피드백의 필요성을 최소화하는 전략을 제안하고, 평가의 견고함을 손상시키지 않으면서 자원을 절약할 수 있는 방법을 제시

주요 기여점

1. Systematic Offline Ranking Method

KL 발산 및 교차 엔트로피 메트릭을 사용하여 프롬프트와 완성 쌍을 우선 순위에 따라 정렬하는 체계적인 방법 소개. 이는 광범위한 인간 평가의 필요성을 크게 줄이는 효과 제공

2. Reduction in Ties

무작위 선택과 비교하여 우선 순위가 높은 프롬프트 내에서 결정적 결과(무승부)가 없는 경우를 54%까지 줄임으로써, 인간 평가의 효율성을 향상시킬 수 있는 방법의 잠재력을 보여줌

3. Elo Score Robustness

제안된 랭킹 전략이 다양한 모델 비교에 걸쳐 제로섬 게임에서 널리 사용되는 성능 평가 메트릭인 Elo점수의 안정성과 신뢰성을 향상시킨다는 것을 보여줌

이 방법론은 모델 비교에서 명확하고 결정적인 결과를 생성할 가능성이 높은 프롬프트를 식별하고 우선 순위를 지정함으로써 무승부 발생 빈도와 필요한 평가의 전체 수를 줄인다. 이 접근 방식은 다양한 모델 가족과 평가 설정에서 일관된 효과를 보여주는 실험을 통해 검증되었다.

무승부 빈도와 필요한 인간 주석의 수를 줄임으로써, 이 연구는 LLM 평가의 미래 방향에 대해 유망한 방향을 제시한다.

KL 발산(Kullbaxk-Leibler divergence)과 교차 엔트로피(Cross-Enropy) 메트릭이란,

두 확률 분포 간의 차이를 측정하는 데 사용되는 통계적 방법이다.

이 메트릭들은 LLM 평가에서 모델 출력 차이를 정량화하는 데 활용된다.

KL 발산

KL 발산두 확률 분포 P와 Q 사이의 비대칭적인 차이를 측정하는 방법
이는 한 확률 분포를 다른 확률 분포로 얼마나 잘 근사할 수 있는지를 나타낸다.
수학적으로 KL발산은 다음과 같이 표현된다.

DKL(P∣∣Q) = ∑xP(x)log(Q(x)/P(x))

여기서 P는 참 확률 분포이고, Q는 모델에 의해 예측된 확률 분포이다.

KL 발산 값이 0에 가까우면 두 분포가 유사하다는 것을 의미하며, 값이 클수록 두 분포 사이의 차이가 크다는 것을 나타낸다.

교차 엔트로피

교차 엔트로피는 두 확률 분포 사이의 차이를 측정하는 또 다른 방법으로, 특히 분류 문제에서 예측의 정확성을 평가하는 데 널리 사용된다. 교차 엔트로피는 다음과 같이 계산된다.

H(P,Q) = −∑xP(x)logQ(x)

여기서 P는 참 확률 분포이고, Q는 예측된 확률 분포이다. 교차 엔트로피 값이 낮을수록 예측 분포가 참 분포에 더 가깝다는 것을 의미한다.

KL 발산과 교차 엔트로피는 모델이 생성한 결과와 실제 데이터 사이의 차이를 평가하는 데 유용한 도구이다. 이 메트릭들은 언어 모델의 성능을 평가하고, 특정 프롬프트에 대해 모델이 얼마나 잘 대응하는지를 정량화하는 데 중요한 역할을 한다.

무승부 결과(결정적 결과가 없는 경우)

주로 두 모델이나 두 선택지 사이의 비교에서 어느 한 쪽이 다른 쪽보다 우월하다고 명확하게 판단할 수 없을 때 발생하는 결과를 의미. 이는 평가 과정에서 두 대상이 서로 비슷한 수준의 성능이나 특성을 보여주었을 때 나타나며, 평가자가 둘 중 하나를 선호한다고 결정하기 어려울 정도로 근접한 결과를 보인 경우에 해당함.

Elo 점수

처음에는 체스와 같은 보드 게임의 플레이어 간 상대적인 실력을 평가하기 위해 개발된 시스템이다. 이 시스템은 개인이나 팀이 게임에서 이기거나 지거나 비기는 결과를 바탕으로 그들의 실력을 수치로 나타낸다. Elo 시스템의 핵심은 경기 결과가 플레이어 간의 상대적인 실력 차이를 반영한다는 점이다.

이 실험 결과는 프롬프트 우선 순위화 방법이 언어 모델 평가의 효율성과 정확성을 모두 향상시킬 수 있는 유용한 접근 방식임을 보여준다. 무승부 결과의 감소, Elo 점수의 견고함 향상, 자원의 효율적 사용은 이 방법이 언어 모델 개발 및 평가 분야에서 중요한 기여를 할 수 있음을 시사한다.

출처

https://arxiv.org/abs/2310.14424

Which Prompts Make The Difference? Data Prioritization For Efficient Human LLM Evaluation

Human evaluation is increasingly critical for assessing large language models, capturing linguistic nuances, and reflecting user preferences more accurately than traditional automated metrics. However, the resource-intensive nature of this type of annotati

arxiv.org

저작자표시

'studies > papers' 카테고리의 다른 글

Response Generation with Context-Aware Prompt Learning (0)	2024.03.28

'studies > papers' 카테고리의 다른 글

티스토리툴바