문제
Self-Consistency 디코딩은 LLM 추론 성능을 높여주지만, 정답이 최빈값으로 수렴하려면 많은 수의 추론 경로를 생성해야 하므로 계산 비용이 큽니다.
방안
각 추론 경로에 모델이 스스로 산출한 신뢰도 점수를 부여하고, 단순 빈도 투표 대신 신뢰도 가중 투표로 최종 답을 선택합니다.
주요 기여
- CISC (Confidence-Informed Self-Consistency) 제안 — Self-Consistency에 drop-in 교체 가능한 경량 확장으로, 거의 모든 모델-데이터셋 조합에서 성능 향상 또는 비용 절감 달성
- Within-Question Discrimination (WQD) 메트릭 도입 — 기존 Calibration 메트릭(ECE, Brier Score)이 CISC 성능을 예측하지 못하는 이유를 밝히고, 동일 질문 내에서 정답/오답 구분 능력을 측정하는 새 평가 지표 제시
- LLM 자기 평가 능력에 대한 실증적 증거 — 모델이 낮은 신뢰도를 부여한 응답은 인간 평가자도 저품질로 판단하는 강한 상관관계 확인
배경 및 동기
기존 방법의 접근
Self-Consistency (Wang et al., 2022) 는 Chain-of-Thought 추론의 대표적 디코딩 전략입니다.
질문 q → [추론 경로 1 → 답 A] [추론 경로 2 → 답 B] [추론 경로 3 → 답 A] ... [추론 경로 m → 답 A] 최종 답 = argmax(빈도) = A (단순 다수결)
이 방식은 Greedy 디코딩 대비 수학/상식 추론 태스크에서 일관된 성능 향상을 보여줍니다.
문제점 및 병목
1. 높은 샘플링 비용
정답 비율이 60%인 모델이 90% 정확도에 도달하려면,
- 단순 다수결: 40개 샘플 필요 (이항 분포 기반 계산)
- 정답에 2배 가중치를 줄 수 있다면: 10개 미만으로 충분
샘플 수가 늘어날수록 추론 경로 생성 비용은 선형적으로 증가하므로, 실사용에서 심각한 병목이 됩니다.
2. 모든 추론 경로를 동등하게 취급
Self-Consistency는 각 경로의 품질(Quaility)을 무시합니다. 논리적 비약이 있는 경로든, 탄탄한 경로든 동일한 1표를 행사합니다. 모델이 자체적으로 경로의 품질을 판단할 수 있다면, 이 정보를 활용하지 않는 것은 낭비입니다.
3. 기존 효율화 시도의 한계
Self-Consistency의 비용을 줄이려는 기존 연구들은 대부분 다음과 같은 제약을 확인할 수 있습니다.
- 처리량(throughput)은 줄이지만 지연 시간(latency)이 증가하거나
- 데이터셋별 수동 튜닝이 필요하거나
- 표준 벤치마크에서 일반화되지 않거나
- 실제 Self-Consistency보다 오히려 성능이 떨어지는 경우가 빈번
근본 착안점
LLM이 자기 출력의 정확성을 판단할 수 있다는 연구(Kadavath et al., 2022; Zhang et al., 2024)에 기반하여, 각 추론 경로에 신뢰도 점수를 매기면 소수 샘플만으로도 정답을 식별할 수 있다는 가설을 세웁니다.
핵심 방법
전체 파이프라인
Definition 3.1: CISC의 공식 정의
질문 와 응답 집합 이 주어졌을 때, CISC는 세 단계로 구성됩니다:
1단계 — 신뢰도 추출
각 응답 에 대해 자기 평가 신뢰도 점수 을 도출합니다.
2단계 — 신뢰도 정규화
여기서 는 조절 가능한 온도(temperature) 하이퍼파라미터입니다.
- : 정규화된 신뢰도가 균일 분포에 수렴 → 기존 Self-Consistency와 동일
- : Softmax가 argmax에 수렴 → 가장 높은 신뢰도의 단일 응답만 선택
- 적절한 : 빈도 정보와 신뢰도 정보를 균형 있게 결합
3단계 — 가중 다수결
같은 답을 낸 경로들의 정규화 신뢰도를 합산하여 가장 높은 총합을 가진 답을 최종 선택합니다.
온도 T의 역할
는 "빈도 vs 신뢰도" 사이의 균형을 조절하는 해당 아키텍처에서 유일하게 조절 가능한 하이퍼파라미터입니다.
T가 매우 큰 경우 (T → ∞): c̃ᵢ ≈ 1/m (모든 경로에 동일 가중치) → Self-Consistency와 동일하게 동작 T가 매우 작은 경우 (T → 0): 가장 높은 cᵢ를 가진 경로 하나만 선택 → 빈도 정보 완전히 무시, 위험할 수 있음 실제 최적 T: 10% hold-out set에서 grid search로 결정 모든 데이터셋에 걸쳐 단일 T값 사용 (데이터셋 비의존적)
Confidence 추출 방법
1. Response Probability (Wang et al., 2022)
모델이 전체 응답 을 생성할 길이 정규화 확률:
- 별도의 프롬프팅 불필요 (생성 시 자동 계산 가능)
- 추론 경로의 길이에 영향을 받을 수 있음
2. Verbal Binary (Lin et al., 2022)
생성 완료 후 모델에게 신뢰도를 0 또는 1로 평가하도록 요청합니다:
프롬프트: "Now I will rate my confidence in the proposed answer as either 0 or 1. Proposed confidence: ("
- 가장 단순한 방식, 이진 스케일이므로 세밀한 구분이 어려움
3. Verbal 0-100 (Lin et al., 2022)
0-100 스케일로 신뢰도를 표현하도록 요청합니다:
프롬프트: "Now I will rate my confidence in the proposed answer on a scale of 0-100. Proposed confidence: ("
- Verbal Binary보다 세밀한 구분 가능
- 모델의 출력이 실제 확률과 잘 교정(calibrate)되어 있음
4. P(True) (Kadavath et al., 2022)
Verbal Binary 프롬프트를 사용하되, 모델이 "1" 토큰에 부여하는 확률값 자체를 신뢰도로 사용합니다:
프롬프트: Verbal Binary와 동일 신뢰도 = p_θ("1" | q, r, a, e) (e = confidence extraction prompt)
- 출력 토큰이 아니라 토큰 확률 분포를 활용
- 가장 세밀한 연속값 신뢰도를 제공
- 실험 결과 가장 우수한 성능을 보임
효율적 프롬프팅: Two-Step 방식
CISC의 구현에서 핵심적인 설계 결정은 two-step prompting입니다:
Step 1: 질문 프롬프트 q로 추론 경로 (r, a) 생성 Step 2: (q, r, a) 뒤에 신뢰도 추출 프롬프트 e를 이어붙여 계속 생성 핵심: prefix (q, r, a)가 Step 1과 동일하므로 → KV 캐시 재활용 가능 → 추가 비용 = e 인코딩 (~20 토큰) + 1 토큰 생성
신뢰도 추출 프롬프트는 약 20 토큰에 불과하고, 신뢰도 자체는 단일 토큰 생성이므로, 전체 추론 경로 대비 무시할 수 있는 수준의 추가 비용입니다.
주요 결과
1. CISC는 거의 모든 설정에서 Self-Consistency를 이김
P(True) 방법이 압도적으로 우수합니다. Budget 10 기준으로, Self-Consistency가 CISC와 동일한 정확도를 달성하려면 평균 18.6개 샘플이 필요하며, 이는 46%의 계산 비용 절감에 해당합니다.
2. 모델-데이터셋별 상세 결과
P(True) + Budget 10 기준으로,
- 거의 모든 모델-데이터셋 조합에서 양(+)의 Cost Reduction
- 일부 조합에서는 30개 샘플의 SC로도 10개 CISC에 미치지 못하여 67%+ Cost Reduction 표기
- Qwen 72B + BBH에서만 유일하게 -25%로 CISC가 불리한 결과 (이 모델이 해당 데이터셋에서 이미 매우 높은 정확도를 보이기 때문으로 분석됨)
3. 정규화의 효과
설정 | Cost Reduction @ 10 |
P(True) - 정규화 없음 | 32% |
P(True) - Softmax T=1 | 30% |
P(True) - Softmax T=Tuned | 46% |
정규화 없이도 상당한 효과가 있지만, 온도 조절된 Softmax 정규화가 모든 신뢰도 방법에서 일관되게 성능을 끌어올립니다. 단, Softmax T=1 (온도를 조절하지 않는 케이스)은 오히려 정규화 없는 것보다 나빠질 수 있으므로, 반드시 튜닝이 수반되어야 합니다.
4. Ablation
방법 | Cost Reduction (Budget 5) | Cost Reduction (Budget 10) |
Max (최고 신뢰도 답만 선택) | -11% | -84% |
Tie (동점 시에만 CISC 적용) | 27% | 28% |
CISC (가중 다수결) | 41% | 46% |
- Max 전략은 오히려 성능을 크게 악화시킵니다 — 빈도 정보를 완전히 무시하면 안 된다는 것을 보여줍니다.
- Tie 전략도 의미 있는 개선을 보이지만, 전체 가중 다수결에는 미치지 못합니다.
- 빈도와 신뢰도의 균형 있는 결합이 핵심입니다.
Within-Question Discrimination (WQD)
문제 제기: 왜 가장 잘 교정된 신뢰도가 CISC에는 가장 비효과적인가?
신뢰도 방법 | ECE-t (↓ 좋음) | Brier-t (↓ 좋음) | CISC Cost Reduction |
Verbal Binary | 0.005 | 0.187 | 10% |
Verbal 0-100 | 0.046 | 0.173 | 30% |
Response Prob. | 0.090 | 0.192 | 31% |
P(True) | 0.030 | 0.182 | 46% |
Verbal Binary가 ECE/Brier Score에서 가장 우수한데, CISC에서는 가장 나쁜 성능을 보입니다. 기존 Calibration 메트릭은 질문 간(between-question) 변별력을 측정하는데, CISC에 필요한 것은 동일 질문 내(within-question) 정답과 오답의 구분 능력이기 때문입니다.
사고 실험
모델 M이 두 유형의 질문에 직면, - "쉬운" 질문: 95% 확률로 정답 - "어려운" 질문: 5% 확률로 정답 신뢰도 방법 A: 쉬운 질문의 모든 답 → 신뢰도 0.95 어려운 질문의 모든 답 → 신뢰도 0.05 Calibration: 완벽! (ECE = 0) CISC 유용성: 제로. 같은 질문의 정답/오답에 동일한 점수를 부여하므로 가중치가 의미 없음.
정성적 분석 (Qualitative Analysis)
인간 평가 설계
- MMLU-Pro 데이터셋에서 3개 모델(Qwen2.5 3B, Gemma2 9B, Mistral Large 123B) 사용
- 각 질문당 3개 응답 샘플링
- NLP 박사과정 2명이 90개 응답을 평가 (모델 신뢰도, 정답 여부를 모르는 블라인드 상태)
- 평가 기준: "저품질 추론 패턴" 식별
결과
모델이 상대적으로 낮은 신뢰도를 부여한 응답: → 67%에서 인간 평가자도 저품질 지표 발견 모델이 상대적으로 높은 신뢰도를 부여한 응답: → 33%에서만 저품질 지표 발견 (2배의 차이 — 강한 상관관계)
저품질 추론의 3가지 유형
유형 | 설명 | 저신뢰도 비율 | 고신뢰도 비율 |
No Choice | 선택지에 없는 답에 도출 | 38% | 13% |
Incomplete Calculations | 계산을 끝까지 수행하지 않음 | 22% | 2% |
Multiple Candidates | 여러 답 후보를 탐색만 하고 확정하지 못함 | 11% | 16% |
"No Choice"와 "Incomplete Calculations"는 모델의 저신뢰도와 강한 상관관계를 보입니다. 반면 "Multiple Candidates"는 신뢰도와 명확한 상관이 없는데, 이는 모델이 여러 경로를 탐색하는 행위 자체는 품질 저하 신호가 아닐 수 있음을 시사합니다.
한계 및 향후 방향
한계
- 토큰 확률 접근 필요: 최적의 P(True) 방법은 모델의 출력 확률에 접근해야 하며, 모든 배포 환경에서 가능하지 않습니다.
- 자유 형식 태스크 미지원: Self-Consistency의 근본적 제약을 공유하며, 이산적 답이 정의되지 않는 태스크(요약, 대화 등)에는 직접 적용이 어렵습니다.
- 인간 평가의 제한된 범위: 정성 분석이 MMLU-Pro 데이터셋에만 수행되었으며, 다른 도메인으로의 일반화 검증이 필요합니다.
- Zero-shot만 실험: Few-shot 프롬프팅에서의 효과는 검증되지 않았습니다.
![[Paper Review] Confidence Improves Self-Consistency in LLMs](/_next/image?url=https%3A%2F%2Fwww.notion.so%2Fimage%2Fattachment%253A09d83811-a62a-4a78-bc5c-55ae48e4f5e0%253A%25E1%2584%2589%25E1%2585%25B3%25E1%2584%258F%25E1%2585%25B3%25E1%2584%2585%25E1%2585%25B5%25E1%2586%25AB%25E1%2584%2589%25E1%2585%25A3%25E1%2586%25BA_2026-03-10_%25E1%2584%258B%25E1%2585%25A9%25E1%2584%2592%25E1%2585%25AE_12.07.07.png%3Ftable%3Dblock%26id%3D31fe642e-de97-80ba-b6ad-c404bef4ac80%26cache%3Dv2&w=3840&q=75)