[Paper Review] Confidence Improves Self-Consistency in LLMs

문제

Self-Consistency 디코딩은 LLM 추론 성능을 높여주지만, 정답이 최빈값으로 수렴하려면 많은 수의 추론 경로를 생성해야 하므로 계산 비용이 큽니다.

방안

각 추론 경로에 모델이 스스로 산출한 신뢰도 점수를 부여하고, 단순 빈도 투표 대신 신뢰도 가중 투표로 최종 답을 선택합니다.

주요 기여

CISC (Confidence-Informed Self-Consistency) 제안 — Self-Consistency에 drop-in 교체 가능한 경량 확장으로, 거의 모든 모델-데이터셋 조합에서 성능 향상 또는 비용 절감 달성

Within-Question Discrimination (WQD) 메트릭 도입 — 기존 Calibration 메트릭(ECE, Brier Score)이 CISC 성능을 예측하지 못하는 이유를 밝히고, 동일 질문 내에서 정답/오답 구분 능력을 측정하는 새 평가 지표 제시

LLM 자기 평가 능력에 대한 실증적 증거 — 모델이 낮은 신뢰도를 부여한 응답은 인간 평가자도 저품질로 판단하는 강한 상관관계 확인

배경 및 동기

기존 방법의 접근

Self-Consistency (Wang et al., 2022) 는 Chain-of-Thought 추론의 대표적 디코딩 전략입니다.


질문 q → [추론 경로 1 → 답 A]
        [추론 경로 2 → 답 B]
        [추론 경로 3 → 답 A]
        ...
        [추론 경로 m → 답 A]

최종 답 = argmax(빈도) = A  (단순 다수결)

이 방식은 Greedy 디코딩 대비 수학/상식 추론 태스크에서 일관된 성능 향상을 보여줍니다.

문제점 및 병목

1. 높은 샘플링 비용

정답 비율이 60%인 모델이 90% 정확도에 도달하려면,

단순 다수결: 40개 샘플 필요 (이항 분포 기반 계산)

정답에 2배 가중치를 줄 수 있다면: 10개 미만으로 충분

샘플 수가 늘어날수록 추론 경로 생성 비용은 선형적으로 증가하므로, 실사용에서 심각한 병목이 됩니다.

2. 모든 추론 경로를 동등하게 취급

Self-Consistency는 각 경로의 품질(Quaility)을 무시합니다. 논리적 비약이 있는 경로든, 탄탄한 경로든 동일한 1표를 행사합니다. 모델이 자체적으로 경로의 품질을 판단할 수 있다면, 이 정보를 활용하지 않는 것은 낭비입니다.

3. 기존 효율화 시도의 한계

Self-Consistency의 비용을 줄이려는 기존 연구들은 대부분 다음과 같은 제약을 확인할 수 있습니다.

처리량(throughput)은 줄이지만 지연 시간(latency)이 증가하거나

데이터셋별 수동 튜닝이 필요하거나

표준 벤치마크에서 일반화되지 않거나

실제 Self-Consistency보다 오히려 성능이 떨어지는 경우가 빈번

근본 착안점

LLM이 자기 출력의 정확성을 판단할 수 있다는 연구(Kadavath et al., 2022; Zhang et al., 2024)에 기반하여, 각 추론 경로에 신뢰도 점수를 매기면 소수 샘플만으로도 정답을 식별할 수 있다는 가설을 세웁니다.

핵심 방법

전체 파이프라인

Definition 3.1: CISC의 공식 정의

질문 와 응답 집합 이 주어졌을 때, CISC는 세 단계로 구성됩니다:

1단계 — 신뢰도 추출

각 응답 에 대해 자기 평가 신뢰도 점수 을 도출합니다.

2단계 — 신뢰도 정규화

여기서 는 조절 가능한 온도(temperature) 하이퍼파라미터입니다.

: 정규화된 신뢰도가 균일 분포에 수렴 → 기존 Self-Consistency와 동일

: Softmax가 argmax에 수렴 → 가장 높은 신뢰도의 단일 응답만 선택

적절한 : 빈도 정보와 신뢰도 정보를 균형 있게 결합

3단계 — 가중 다수결

같은 답을 낸 경로들의 정규화 신뢰도를 합산하여 가장 높은 총합을 가진 답을 최종 선택합니다.

온도 T의 역할

는 "빈도 vs 신뢰도" 사이의 균형을 조절하는 해당 아키텍처에서 유일하게 조절 가능한 하이퍼파라미터입니다.


T가 매우 큰 경우 (T → ∞):
  c̃ᵢ ≈ 1/m (모든 경로에 동일 가중치)
  → Self-Consistency와 동일하게 동작

T가 매우 작은 경우 (T → 0):
  가장 높은 cᵢ를 가진 경로 하나만 선택
  → 빈도 정보 완전히 무시, 위험할 수 있음

실제 최적 T:
  10% hold-out set에서 grid search로 결정
  모든 데이터셋에 걸쳐 단일 T값 사용 (데이터셋 비의존적)

Confidence 추출 방법

1. Response Probability (Wang et al., 2022)

모델이 전체 응답 을 생성할 길이 정규화 확률:

별도의 프롬프팅 불필요 (생성 시 자동 계산 가능)

추론 경로의 길이에 영향을 받을 수 있음

2. Verbal Binary (Lin et al., 2022)

생성 완료 후 모델에게 신뢰도를 0 또는 1로 평가하도록 요청합니다:


프롬프트: "Now I will rate my confidence in the proposed answer
          as either 0 or 1. Proposed confidence: ("

가장 단순한 방식, 이진 스케일이므로 세밀한 구분이 어려움

3. Verbal 0-100 (Lin et al., 2022)

0-100 스케일로 신뢰도를 표현하도록 요청합니다:


프롬프트: "Now I will rate my confidence in the proposed answer
          on a scale of 0-100. Proposed confidence: ("

Verbal Binary보다 세밀한 구분 가능

모델의 출력이 실제 확률과 잘 교정(calibrate)되어 있음

4. P(True) (Kadavath et al., 2022)

Verbal Binary 프롬프트를 사용하되, 모델이 "1" 토큰에 부여하는 확률값 자체를 신뢰도로 사용합니다:


프롬프트: Verbal Binary와 동일
신뢰도 = p_θ("1" | q, r, a, e)
        (e = confidence extraction prompt)

출력 토큰이 아니라 토큰 확률 분포를 활용

가장 세밀한 연속값 신뢰도를 제공

실험 결과 가장 우수한 성능을 보임

효율적 프롬프팅: Two-Step 방식

CISC의 구현에서 핵심적인 설계 결정은 two-step prompting입니다:


Step 1: 질문 프롬프트 q로 추론 경로 (r, a) 생성
Step 2: (q, r, a) 뒤에 신뢰도 추출 프롬프트 e를 이어붙여 계속 생성

핵심: prefix (q, r, a)가 Step 1과 동일하므로
      → KV 캐시 재활용 가능
      → 추가 비용 = e 인코딩 (~20 토큰) + 1 토큰 생성

신뢰도 추출 프롬프트는 약 20 토큰에 불과하고, 신뢰도 자체는 단일 토큰 생성이므로, 전체 추론 경로 대비 무시할 수 있는 수준의 추가 비용입니다.

주요 결과

1. CISC는 거의 모든 설정에서 Self-Consistency를 이김

P(True) 방법이 압도적으로 우수합니다. Budget 10 기준으로, Self-Consistency가 CISC와 동일한 정확도를 달성하려면 평균 18.6개 샘플이 필요하며, 이는 46%의 계산 비용 절감에 해당합니다.

2. 모델-데이터셋별 상세 결과

P(True) + Budget 10 기준으로,

거의 모든 모델-데이터셋 조합에서 양(+)의 Cost Reduction

일부 조합에서는 30개 샘플의 SC로도 10개 CISC에 미치지 못하여 67%+ Cost Reduction 표기

Qwen 72B + BBH에서만 유일하게 -25%로 CISC가 불리한 결과 (이 모델이 해당 데이터셋에서 이미 매우 높은 정확도를 보이기 때문으로 분석됨)

3. 정규화의 효과

설정	Cost Reduction @ 10
P(True) - 정규화 없음	32%
P(True) - Softmax T=1	30%
P(True) - Softmax T=Tuned	46%

정규화 없이도 상당한 효과가 있지만, 온도 조절된 Softmax 정규화가 모든 신뢰도 방법에서 일관되게 성능을 끌어올립니다. 단, Softmax T=1 (온도를 조절하지 않는 케이스)은 오히려 정규화 없는 것보다 나빠질 수 있으므로, 반드시 튜닝이 수반되어야 합니다.

4. Ablation

방법	Cost Reduction (Budget 5)	Cost Reduction (Budget 10)
Max (최고 신뢰도 답만 선택)	-11%	-84%
Tie (동점 시에만 CISC 적용)	27%	28%
CISC (가중 다수결)	41%	46%

Max 전략은 오히려 성능을 크게 악화시킵니다 — 빈도 정보를 완전히 무시하면 안 된다는 것을 보여줍니다.

Tie 전략도 의미 있는 개선을 보이지만, 전체 가중 다수결에는 미치지 못합니다.

빈도와 신뢰도의 균형 있는 결합이 핵심입니다.

Within-Question Discrimination (WQD)

문제 제기: 왜 가장 잘 교정된 신뢰도가 CISC에는 가장 비효과적인가?

신뢰도 방법	ECE-t (↓ 좋음)	Brier-t (↓ 좋음)	CISC Cost Reduction
Verbal Binary	0.005	0.187	10%
Verbal 0-100	0.046	0.173	30%
Response Prob.	0.090	0.192	31%
P(True)	0.030	0.182	46%

Verbal Binary가 ECE/Brier Score에서 가장 우수한데, CISC에서는 가장 나쁜 성능을 보입니다. 기존 Calibration 메트릭은 질문 간(between-question) 변별력을 측정하는데, CISC에 필요한 것은 동일 질문 내(within-question) 정답과 오답의 구분 능력이기 때문입니다.

사고 실험


모델 M이 두 유형의 질문에 직면,
- "쉬운" 질문: 95% 확률로 정답
- "어려운" 질문: 5% 확률로 정답

신뢰도 방법 A:
  쉬운 질문의 모든 답 → 신뢰도 0.95
  어려운 질문의 모든 답 → 신뢰도 0.05

  Calibration: 완벽! (ECE = 0)
  CISC 유용성: 제로. 같은 질문의 정답/오답에 동일한 점수를 부여하므로
               가중치가 의미 없음.

정성적 분석 (Qualitative Analysis)

인간 평가 설계

MMLU-Pro 데이터셋에서 3개 모델(Qwen2.5 3B, Gemma2 9B, Mistral Large 123B) 사용

각 질문당 3개 응답 샘플링

NLP 박사과정 2명이 90개 응답을 평가 (모델 신뢰도, 정답 여부를 모르는 블라인드 상태)

평가 기준: "저품질 추론 패턴" 식별

결과


모델이 상대적으로 낮은 신뢰도를 부여한 응답:
  → 67%에서 인간 평가자도 저품질 지표 발견

모델이 상대적으로 높은 신뢰도를 부여한 응답:
  → 33%에서만 저품질 지표 발견

  (2배의 차이 — 강한 상관관계)

저품질 추론의 3가지 유형

유형	설명	저신뢰도 비율	고신뢰도 비율
No Choice	선택지에 없는 답에 도출	38%	13%
Incomplete Calculations	계산을 끝까지 수행하지 않음	22%	2%
Multiple Candidates	여러 답 후보를 탐색만 하고 확정하지 못함	11%	16%

"No Choice"와 "Incomplete Calculations"는 모델의 저신뢰도와 강한 상관관계를 보입니다. 반면 "Multiple Candidates"는 신뢰도와 명확한 상관이 없는데, 이는 모델이 여러 경로를 탐색하는 행위 자체는 품질 저하 신호가 아닐 수 있음을 시사합니다.

한계 및 향후 방향

한계

토큰 확률 접근 필요: 최적의 P(True) 방법은 모델의 출력 확률에 접근해야 하며, 모든 배포 환경에서 가능하지 않습니다.

자유 형식 태스크 미지원: Self-Consistency의 근본적 제약을 공유하며, 이산적 답이 정의되지 않는 태스크(요약, 대화 등)에는 직접 적용이 어렵습니다.

인간 평가의 제한된 범위: 정성 분석이 MMLU-Pro 데이터셋에만 수행되었으며, 다른 도메인으로의 일반화 검증이 필요합니다.

Zero-shot만 실험: Few-shot 프롬프팅에서의 효과는 검증되지 않았습니다.