๋ฌธ์
Self-Consistency ๋์ฝ๋ฉ์ LLM ์ถ๋ก ์ฑ๋ฅ์ ๋์ฌ์ฃผ์ง๋ง, ์ ๋ต์ด ์ต๋น๊ฐ์ผ๋ก ์๋ ดํ๋ ค๋ฉด ๋ง์ ์์ ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ์์ฑํด์ผ ํ๋ฏ๋ก ๊ณ์ฐ ๋น์ฉ์ด ํฝ๋๋ค.
๋ฐฉ์
๊ฐ ์ถ๋ก ๊ฒฝ๋ก์ ๋ชจ๋ธ์ด ์ค์ค๋ก ์ฐ์ถํ ์ ๋ขฐ๋ ์ ์๋ฅผ ๋ถ์ฌํ๊ณ , ๋จ์ ๋น๋ ํฌํ ๋์ ์ ๋ขฐ๋ ๊ฐ์ค ํฌํ๋ก ์ต์ข
๋ต์ ์ ํํฉ๋๋ค.
์ฃผ์ ๊ธฐ์ฌ
- CISC (Confidence-Informed Self-Consistency) ์ ์ โ Self-Consistency์ drop-in ๊ต์ฒด ๊ฐ๋ฅํ ๊ฒฝ๋ ํ์ฅ์ผ๋ก, ๊ฑฐ์ ๋ชจ๋ ๋ชจ๋ธ-๋ฐ์ดํฐ์ ์กฐํฉ์์ ์ฑ๋ฅ ํฅ์ ๋๋ ๋น์ฉ ์ ๊ฐ ๋ฌ์ฑ
- Within-Question Discrimination (WQD) ๋ฉํธ๋ฆญ ๋์ โ ๊ธฐ์กด Calibration ๋ฉํธ๋ฆญ(ECE, Brier Score)์ด CISC ์ฑ๋ฅ์ ์์ธกํ์ง ๋ชปํ๋ ์ด์ ๋ฅผ ๋ฐํ๊ณ , ๋์ผ ์ง๋ฌธ ๋ด์์ ์ ๋ต/์ค๋ต ๊ตฌ๋ถ ๋ฅ๋ ฅ์ ์ธก์ ํ๋ ์ ํ๊ฐ ์งํ ์ ์
- LLM ์๊ธฐ ํ๊ฐ ๋ฅ๋ ฅ์ ๋ํ ์ค์ฆ์ ์ฆ๊ฑฐ โ ๋ชจ๋ธ์ด ๋ฎ์ ์ ๋ขฐ๋๋ฅผ ๋ถ์ฌํ ์๋ต์ ์ธ๊ฐ ํ๊ฐ์๋ ์ ํ์ง๋ก ํ๋จํ๋ ๊ฐํ ์๊ด๊ด๊ณ ํ์ธ
๋ฐฐ๊ฒฝ ๋ฐ ๋๊ธฐ
๊ธฐ์กด ๋ฐฉ๋ฒ์ ์ ๊ทผ
Self-Consistency (Wang et al., 2022) ๋ Chain-of-Thought ์ถ๋ก ์ ๋ํ์ ๋์ฝ๋ฉ ์ ๋ต์
๋๋ค.
์ง๋ฌธ q โ [์ถ๋ก ๊ฒฝ๋ก 1 โ ๋ต A] [์ถ๋ก ๊ฒฝ๋ก 2 โ ๋ต B] [์ถ๋ก ๊ฒฝ๋ก 3 โ ๋ต A] ... [์ถ๋ก ๊ฒฝ๋ก m โ ๋ต A] ์ต์ข ๋ต = argmax(๋น๋) = A (๋จ์ ๋ค์๊ฒฐ)
์ด ๋ฐฉ์์ Greedy ๋์ฝ๋ฉ ๋๋น ์ํ/์์ ์ถ๋ก ํ์คํฌ์์ ์ผ๊ด๋ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ค๋๋ค.
๋ฌธ์ ์ ๋ฐ ๋ณ๋ชฉ
1. ๋์ ์ํ๋ง ๋น์ฉ
์ ๋ต ๋น์จ์ด 60%์ธ ๋ชจ๋ธ์ด 90% ์ ํ๋์ ๋๋ฌํ๋ ค๋ฉด,
- ๋จ์ ๋ค์๊ฒฐ: 40๊ฐ ์ํ ํ์ (์ดํญ ๋ถํฌ ๊ธฐ๋ฐ ๊ณ์ฐ)
- ์ ๋ต์ 2๋ฐฐ ๊ฐ์ค์น๋ฅผ ์ค ์ ์๋ค๋ฉด: 10๊ฐ ๋ฏธ๋ง์ผ๋ก ์ถฉ๋ถ
์ํ ์๊ฐ ๋์ด๋ ์๋ก ์ถ๋ก ๊ฒฝ๋ก ์์ฑ ๋น์ฉ์ ์ ํ์ ์ผ๋ก ์ฆ๊ฐํ๋ฏ๋ก, ์ค์ฌ์ฉ์์ ์ฌ๊ฐํ ๋ณ๋ชฉ์ด ๋ฉ๋๋ค.
2. ๋ชจ๋ ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ๋๋ฑํ๊ฒ ์ทจ๊ธ
Self-Consistency๋ ๊ฐ ๊ฒฝ๋ก์ ํ์ง(Quaility)์ ๋ฌด์ํฉ๋๋ค. ๋
ผ๋ฆฌ์ ๋น์ฝ์ด ์๋ ๊ฒฝ๋ก๋ , ํํํ ๊ฒฝ๋ก๋ ๋์ผํ 1ํ๋ฅผ ํ์ฌํฉ๋๋ค. ๋ชจ๋ธ์ด ์์ฒด์ ์ผ๋ก ๊ฒฝ๋ก์ ํ์ง์ ํ๋จํ ์ ์๋ค๋ฉด, ์ด ์ ๋ณด๋ฅผ ํ์ฉํ์ง ์๋ ๊ฒ์ ๋ญ๋น์
๋๋ค.
3. ๊ธฐ์กด ํจ์จํ ์๋์ ํ๊ณ
Self-Consistency์ ๋น์ฉ์ ์ค์ด๋ ค๋ ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ๋๋ถ๋ถ ๋ค์๊ณผ ๊ฐ์ ์ ์ฝ์ ํ์ธํ ์ ์์ต๋๋ค.
- ์ฒ๋ฆฌ๋(throughput)์ ์ค์ด์ง๋ง ์ง์ฐ ์๊ฐ(latency)์ด ์ฆ๊ฐํ๊ฑฐ๋
- ๋ฐ์ดํฐ์ ๋ณ ์๋ ํ๋์ด ํ์ํ๊ฑฐ๋
- ํ์ค ๋ฒค์น๋งํฌ์์ ์ผ๋ฐํ๋์ง ์๊ฑฐ๋
- ์ค์ Self-Consistency๋ณด๋ค ์คํ๋ ค ์ฑ๋ฅ์ด ๋จ์ด์ง๋ ๊ฒฝ์ฐ๊ฐ ๋น๋ฒ
๊ทผ๋ณธ ์ฐฉ์์
LLM์ด ์๊ธฐ ์ถ๋ ฅ์ ์ ํ์ฑ์ ํ๋จํ ์ ์๋ค๋ ์ฐ๊ตฌ(Kadavath et al., 2022; Zhang et al., 2024)์ ๊ธฐ๋ฐํ์ฌ, ๊ฐ ์ถ๋ก ๊ฒฝ๋ก์ ์ ๋ขฐ๋ ์ ์๋ฅผ ๋งค๊ธฐ๋ฉด ์์ ์ํ๋ง์ผ๋ก๋ ์ ๋ต์ ์๋ณํ ์ ์๋ค๋ ๊ฐ์ค์ ์ธ์๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ
์ ์ฒด ํ์ดํ๋ผ์ธ
Definition 3.1: CISC์ ๊ณต์ ์ ์
์ง๋ฌธ ์ ์๋ต ์งํฉ ์ด ์ฃผ์ด์ก์ ๋, CISC๋ ์ธ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
1๋จ๊ณ โ ์ ๋ขฐ๋ ์ถ์ถ
๊ฐ ์๋ต ์ ๋ํด ์๊ธฐ ํ๊ฐ ์ ๋ขฐ๋ ์ ์ ์ ๋์ถํฉ๋๋ค.
2๋จ๊ณ โ ์ ๋ขฐ๋ ์ ๊ทํ
์ฌ๊ธฐ์ ๋ ์กฐ์ ๊ฐ๋ฅํ ์จ๋(temperature) ํ์ดํผํ๋ผ๋ฏธํฐ์
๋๋ค.
- : ์ ๊ทํ๋ ์ ๋ขฐ๋๊ฐ ๊ท ์ผ ๋ถํฌ์ ์๋ ด โ ๊ธฐ์กด Self-Consistency์ ๋์ผ
- : Softmax๊ฐ argmax์ ์๋ ด โ ๊ฐ์ฅ ๋์ ์ ๋ขฐ๋์ ๋จ์ผ ์๋ต๋ง ์ ํ
- ์ ์ ํ : ๋น๋ ์ ๋ณด์ ์ ๋ขฐ๋ ์ ๋ณด๋ฅผ ๊ท ํ ์๊ฒ ๊ฒฐํฉ
3๋จ๊ณ โ ๊ฐ์ค ๋ค์๊ฒฐ
๊ฐ์ ๋ต์ ๋ธ ๊ฒฝ๋ก๋ค์ ์ ๊ทํ ์ ๋ขฐ๋๋ฅผ ํฉ์ฐํ์ฌ ๊ฐ์ฅ ๋์ ์ดํฉ์ ๊ฐ์ง ๋ต์ ์ต์ข
์ ํํฉ๋๋ค.
์จ๋ T์ ์ญํ
๋ "๋น๋ vs ์ ๋ขฐ๋" ์ฌ์ด์ ๊ท ํ์ ์กฐ์ ํ๋ ํด๋น ์ํคํ
์ฒ์์ ์ ์ผํ๊ฒ ์กฐ์ ๊ฐ๋ฅํ ํ์ดํผํ๋ผ๋ฏธํฐ์
๋๋ค.
T๊ฐ ๋งค์ฐ ํฐ ๊ฒฝ์ฐ (T โ โ): cฬแตข โ 1/m (๋ชจ๋ ๊ฒฝ๋ก์ ๋์ผ ๊ฐ์ค์น) โ Self-Consistency์ ๋์ผํ๊ฒ ๋์ T๊ฐ ๋งค์ฐ ์์ ๊ฒฝ์ฐ (T โ 0): ๊ฐ์ฅ ๋์ cแตข๋ฅผ ๊ฐ์ง ๊ฒฝ๋ก ํ๋๋ง ์ ํ โ ๋น๋ ์ ๋ณด ์์ ํ ๋ฌด์, ์ํํ ์ ์์ ์ค์ ์ต์ T: 10% hold-out set์์ grid search๋ก ๊ฒฐ์ ๋ชจ๋ ๋ฐ์ดํฐ์ ์ ๊ฑธ์ณ ๋จ์ผ T๊ฐ ์ฌ์ฉ (๋ฐ์ดํฐ์ ๋น์์กด์ )
Confidence ์ถ์ถ ๋ฐฉ๋ฒ
1. Response Probability (Wang et al., 2022)
๋ชจ๋ธ์ด ์ ์ฒด ์๋ต ์ ์์ฑํ ๊ธธ์ด ์ ๊ทํ ํ๋ฅ :
- ๋ณ๋์ ํ๋กฌํํ ๋ถํ์ (์์ฑ ์ ์๋ ๊ณ์ฐ ๊ฐ๋ฅ)
- ์ถ๋ก ๊ฒฝ๋ก์ ๊ธธ์ด์ ์ํฅ์ ๋ฐ์ ์ ์์
2. Verbal Binary (Lin et al., 2022)
์์ฑ ์๋ฃ ํ ๋ชจ๋ธ์๊ฒ ์ ๋ขฐ๋๋ฅผ 0 ๋๋ 1๋ก ํ๊ฐํ๋๋ก ์์ฒญํฉ๋๋ค:
ํ๋กฌํํธ: "Now I will rate my confidence in the proposed answer as either 0 or 1. Proposed confidence: ("
- ๊ฐ์ฅ ๋จ์ํ ๋ฐฉ์, ์ด์ง ์ค์ผ์ผ์ด๋ฏ๋ก ์ธ๋ฐํ ๊ตฌ๋ถ์ด ์ด๋ ค์
3. Verbal 0-100 (Lin et al., 2022)
0-100 ์ค์ผ์ผ๋ก ์ ๋ขฐ๋๋ฅผ ํํํ๋๋ก ์์ฒญํฉ๋๋ค:
ํ๋กฌํํธ: "Now I will rate my confidence in the proposed answer on a scale of 0-100. Proposed confidence: ("
- Verbal Binary๋ณด๋ค ์ธ๋ฐํ ๊ตฌ๋ถ ๊ฐ๋ฅ
- ๋ชจ๋ธ์ ์ถ๋ ฅ์ด ์ค์ ํ๋ฅ ๊ณผ ์ ๊ต์ (calibrate)๋์ด ์์
4. P(True) (Kadavath et al., 2022)
Verbal Binary ํ๋กฌํํธ๋ฅผ ์ฌ์ฉํ๋, ๋ชจ๋ธ์ด "1" ํ ํฐ์ ๋ถ์ฌํ๋ ํ๋ฅ ๊ฐ ์์ฒด๋ฅผ ์ ๋ขฐ๋๋ก ์ฌ์ฉํฉ๋๋ค:
ํ๋กฌํํธ: Verbal Binary์ ๋์ผ ์ ๋ขฐ๋ = p_ฮธ("1" | q, r, a, e) (e = confidence extraction prompt)
- ์ถ๋ ฅ ํ ํฐ์ด ์๋๋ผ ํ ํฐ ํ๋ฅ ๋ถํฌ๋ฅผ ํ์ฉ
- ๊ฐ์ฅ ์ธ๋ฐํ ์ฐ์๊ฐ ์ ๋ขฐ๋๋ฅผ ์ ๊ณต
- ์คํ ๊ฒฐ๊ณผ ๊ฐ์ฅ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์
ํจ์จ์ ํ๋กฌํํ : Two-Step ๋ฐฉ์
CISC์ ๊ตฌํ์์ ํต์ฌ์ ์ธ ์ค๊ณ ๊ฒฐ์ ์ two-step prompting์
๋๋ค:
Step 1: ์ง๋ฌธ ํ๋กฌํํธ q๋ก ์ถ๋ก ๊ฒฝ๋ก (r, a) ์์ฑ Step 2: (q, r, a) ๋ค์ ์ ๋ขฐ๋ ์ถ์ถ ํ๋กฌํํธ e๋ฅผ ์ด์ด๋ถ์ฌ ๊ณ์ ์์ฑ ํต์ฌ: prefix (q, r, a)๊ฐ Step 1๊ณผ ๋์ผํ๋ฏ๋ก โ KV ์บ์ ์ฌํ์ฉ ๊ฐ๋ฅ โ ์ถ๊ฐ ๋น์ฉ = e ์ธ์ฝ๋ฉ (~20 ํ ํฐ) + 1 ํ ํฐ ์์ฑ
์ ๋ขฐ๋ ์ถ์ถ ํ๋กฌํํธ๋ ์ฝ 20 ํ ํฐ์ ๋ถ๊ณผํ๊ณ , ์ ๋ขฐ๋ ์์ฒด๋ ๋จ์ผ ํ ํฐ ์์ฑ์ด๋ฏ๋ก, ์ ์ฒด ์ถ๋ก ๊ฒฝ๋ก ๋๋น ๋ฌด์ํ ์ ์๋ ์์ค์ ์ถ๊ฐ ๋น์ฉ์
๋๋ค.
์ฃผ์ ๊ฒฐ๊ณผ
1. CISC๋ ๊ฑฐ์ ๋ชจ๋ ์ค์ ์์ Self-Consistency๋ฅผ ์ด๊น
P(True) ๋ฐฉ๋ฒ์ด ์๋์ ์ผ๋ก ์ฐ์ํฉ๋๋ค. Budget 10 ๊ธฐ์ค์ผ๋ก, Self-Consistency๊ฐ CISC์ ๋์ผํ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ ค๋ฉด ํ๊ท 18.6๊ฐ ์ํ์ด ํ์ํ๋ฉฐ, ์ด๋ 46%์ ๊ณ์ฐ ๋น์ฉ ์ ๊ฐ์ ํด๋นํฉ๋๋ค.
2. ๋ชจ๋ธ-๋ฐ์ดํฐ์ ๋ณ ์์ธ ๊ฒฐ๊ณผ
P(True) + Budget 10 ๊ธฐ์ค์ผ๋ก,
- ๊ฑฐ์ ๋ชจ๋ ๋ชจ๋ธ-๋ฐ์ดํฐ์ ์กฐํฉ์์ ์(+)์ Cost Reduction
- ์ผ๋ถ ์กฐํฉ์์๋ 30๊ฐ ์ํ์ SC๋ก๋ 10๊ฐ CISC์ ๋ฏธ์น์ง ๋ชปํ์ฌ 67%+ Cost Reduction ํ๊ธฐ
- Qwen 72B + BBH์์๋ง ์ ์ผํ๊ฒ -25%๋ก CISC๊ฐ ๋ถ๋ฆฌํ ๊ฒฐ๊ณผ (์ด ๋ชจ๋ธ์ด ํด๋น ๋ฐ์ดํฐ์ ์์ ์ด๋ฏธ ๋งค์ฐ ๋์ ์ ํ๋๋ฅผ ๋ณด์ด๊ธฐ ๋๋ฌธ์ผ๋ก ๋ถ์๋จ)
3. ์ ๊ทํ์ ํจ๊ณผ
์ค์ | Cost Reduction @ 10 |
P(True) - ์ ๊ทํ ์์ | 32% |
P(True) - Softmax T=1 | 30% |
P(True) - Softmax T=Tuned | 46% |
์ ๊ทํ ์์ด๋ ์๋นํ ํจ๊ณผ๊ฐ ์์ง๋ง, ์จ๋ ์กฐ์ ๋ Softmax ์ ๊ทํ๊ฐ ๋ชจ๋ ์ ๋ขฐ๋ ๋ฐฉ๋ฒ์์ ์ผ๊ด๋๊ฒ ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฝ๋๋ค. ๋จ, Softmax T=1 (์จ๋๋ฅผ ์กฐ์ ํ์ง ์๋ ์ผ์ด์ค)์ ์คํ๋ ค ์ ๊ทํ ์๋ ๊ฒ๋ณด๋ค ๋๋น ์ง ์ ์์ผ๋ฏ๋ก, ๋ฐ๋์ ํ๋์ด ์๋ฐ๋์ด์ผ ํฉ๋๋ค.
4. Ablation
๋ฐฉ๋ฒ | Cost Reduction (Budget 5) | Cost Reduction (Budget 10) |
Max (์ต๊ณ ์ ๋ขฐ๋ ๋ต๋ง ์ ํ) | -11% | -84% |
Tie (๋์ ์์๋ง CISC ์ ์ฉ) | 27% | 28% |
CISC (๊ฐ์ค ๋ค์๊ฒฐ) | 41% | 46% |
- Max ์ ๋ต์ ์คํ๋ ค ์ฑ๋ฅ์ ํฌ๊ฒ ์ ํ์ํต๋๋ค โ ๋น๋ ์ ๋ณด๋ฅผ ์์ ํ ๋ฌด์ํ๋ฉด ์ ๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
- Tie ์ ๋ต๋ ์๋ฏธ ์๋ ๊ฐ์ ์ ๋ณด์ด์ง๋ง, ์ ์ฒด ๊ฐ์ค ๋ค์๊ฒฐ์๋ ๋ฏธ์น์ง ๋ชปํฉ๋๋ค.
- ๋น๋์ ์ ๋ขฐ๋์ ๊ท ํ ์๋ ๊ฒฐํฉ์ด ํต์ฌ์ ๋๋ค.
Within-Question Discrimination (WQD)
๋ฌธ์ ์ ๊ธฐ: ์ ๊ฐ์ฅ ์ ๊ต์ ๋ ์ ๋ขฐ๋๊ฐ CISC์๋ ๊ฐ์ฅ ๋นํจ๊ณผ์ ์ธ๊ฐ?
์ ๋ขฐ๋ ๋ฐฉ๋ฒ | ECE-t (โ ์ข์) | Brier-t (โ ์ข์) | CISC Cost Reduction |
Verbal Binary | 0.005 | 0.187 | 10% |
Verbal 0-100 | 0.046 | 0.173 | 30% |
Response Prob. | 0.090 | 0.192 | 31% |
P(True) | 0.030 | 0.182 | 46% |
Verbal Binary๊ฐ ECE/Brier Score์์ ๊ฐ์ฅ ์ฐ์ํ๋ฐ, CISC์์๋ ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๋ณด์
๋๋ค. ๊ธฐ์กด Calibration ๋ฉํธ๋ฆญ์ ์ง๋ฌธ ๊ฐ(between-question) ๋ณ๋ณ๋ ฅ์ ์ธก์ ํ๋๋ฐ, CISC์ ํ์ํ ๊ฒ์ ๋์ผ ์ง๋ฌธ ๋ด(within-question) ์ ๋ต๊ณผ ์ค๋ต์ ๊ตฌ๋ถ ๋ฅ๋ ฅ์ด๊ธฐ ๋๋ฌธ์
๋๋ค.
์ฌ๊ณ ์คํ
๋ชจ๋ธ M์ด ๋ ์ ํ์ ์ง๋ฌธ์ ์ง๋ฉด, - "์ฌ์ด" ์ง๋ฌธ: 95% ํ๋ฅ ๋ก ์ ๋ต - "์ด๋ ค์ด" ์ง๋ฌธ: 5% ํ๋ฅ ๋ก ์ ๋ต ์ ๋ขฐ๋ ๋ฐฉ๋ฒ A: ์ฌ์ด ์ง๋ฌธ์ ๋ชจ๋ ๋ต โ ์ ๋ขฐ๋ 0.95 ์ด๋ ค์ด ์ง๋ฌธ์ ๋ชจ๋ ๋ต โ ์ ๋ขฐ๋ 0.05 Calibration: ์๋ฒฝ! (ECE = 0) CISC ์ ์ฉ์ฑ: ์ ๋ก. ๊ฐ์ ์ง๋ฌธ์ ์ ๋ต/์ค๋ต์ ๋์ผํ ์ ์๋ฅผ ๋ถ์ฌํ๋ฏ๋ก ๊ฐ์ค์น๊ฐ ์๋ฏธ ์์.
์ ์ฑ์ ๋ถ์ (Qualitative Analysis)
์ธ๊ฐ ํ๊ฐ ์ค๊ณ
- MMLU-Pro ๋ฐ์ดํฐ์ ์์ 3๊ฐ ๋ชจ๋ธ(Qwen2.5 3B, Gemma2 9B, Mistral Large 123B) ์ฌ์ฉ
- ๊ฐ ์ง๋ฌธ๋น 3๊ฐ ์๋ต ์ํ๋ง
- NLP ๋ฐ์ฌ๊ณผ์ 2๋ช ์ด 90๊ฐ ์๋ต์ ํ๊ฐ (๋ชจ๋ธ ์ ๋ขฐ๋, ์ ๋ต ์ฌ๋ถ๋ฅผ ๋ชจ๋ฅด๋ ๋ธ๋ผ์ธ๋ ์ํ)
- ํ๊ฐ ๊ธฐ์ค: "์ ํ์ง ์ถ๋ก ํจํด" ์๋ณ
๊ฒฐ๊ณผ
๋ชจ๋ธ์ด ์๋์ ์ผ๋ก ๋ฎ์ ์ ๋ขฐ๋๋ฅผ ๋ถ์ฌํ ์๋ต: โ 67%์์ ์ธ๊ฐ ํ๊ฐ์๋ ์ ํ์ง ์งํ ๋ฐ๊ฒฌ ๋ชจ๋ธ์ด ์๋์ ์ผ๋ก ๋์ ์ ๋ขฐ๋๋ฅผ ๋ถ์ฌํ ์๋ต: โ 33%์์๋ง ์ ํ์ง ์งํ ๋ฐ๊ฒฌ (2๋ฐฐ์ ์ฐจ์ด โ ๊ฐํ ์๊ด๊ด๊ณ)
์ ํ์ง ์ถ๋ก ์ 3๊ฐ์ง ์ ํ
์ ํ | ์ค๋ช
| ์ ์ ๋ขฐ๋ ๋น์จ | ๊ณ ์ ๋ขฐ๋ ๋น์จ |
No Choice | ์ ํ์ง์ ์๋ ๋ต์ ๋์ถ | 38% | 13% |
Incomplete Calculations | ๊ณ์ฐ์ ๋๊น์ง ์ํํ์ง ์์ | 22% | 2% |
Multiple Candidates | ์ฌ๋ฌ ๋ต ํ๋ณด๋ฅผ ํ์๋ง ํ๊ณ ํ์ ํ์ง ๋ชปํจ | 11% | 16% |
"No Choice"์ "Incomplete Calculations"๋ ๋ชจ๋ธ์ ์ ์ ๋ขฐ๋์ ๊ฐํ ์๊ด๊ด๊ณ๋ฅผ ๋ณด์
๋๋ค. ๋ฐ๋ฉด "Multiple Candidates"๋ ์ ๋ขฐ๋์ ๋ช
ํํ ์๊ด์ด ์๋๋ฐ, ์ด๋ ๋ชจ๋ธ์ด ์ฌ๋ฌ ๊ฒฝ๋ก๋ฅผ ํ์ํ๋ ํ์ ์์ฒด๋ ํ์ง ์ ํ ์ ํธ๊ฐ ์๋ ์ ์์์ ์์ฌํฉ๋๋ค.
ํ๊ณ ๋ฐ ํฅํ ๋ฐฉํฅ
ํ๊ณ
- ํ ํฐ ํ๋ฅ ์ ๊ทผ ํ์: ์ต์ ์ P(True) ๋ฐฉ๋ฒ์ ๋ชจ๋ธ์ ์ถ๋ ฅ ํ๋ฅ ์ ์ ๊ทผํด์ผ ํ๋ฉฐ, ๋ชจ๋ ๋ฐฐํฌ ํ๊ฒฝ์์ ๊ฐ๋ฅํ์ง ์์ต๋๋ค.
- ์์ ํ์ ํ์คํฌ ๋ฏธ์ง์: Self-Consistency์ ๊ทผ๋ณธ์ ์ ์ฝ์ ๊ณต์ ํ๋ฉฐ, ์ด์ฐ์ ๋ต์ด ์ ์๋์ง ์๋ ํ์คํฌ(์์ฝ, ๋ํ ๋ฑ)์๋ ์ง์ ์ ์ฉ์ด ์ด๋ ต์ต๋๋ค.
- ์ธ๊ฐ ํ๊ฐ์ ์ ํ๋ ๋ฒ์: ์ ์ฑ ๋ถ์์ด MMLU-Pro ๋ฐ์ดํฐ์ ์๋ง ์ํ๋์์ผ๋ฉฐ, ๋ค๋ฅธ ๋๋ฉ์ธ์ผ๋ก์ ์ผ๋ฐํ ๊ฒ์ฆ์ด ํ์ํฉ๋๋ค.
- Zero-shot๋ง ์คํ: Few-shot ํ๋กฌํํ ์์์ ํจ๊ณผ๋ ๊ฒ์ฆ๋์ง ์์์ต๋๋ค.
ย
![[Paper Review] Confidence Improves Self-Consistency in LLMs](/_next/image?url=https%3A%2F%2Fwww.notion.so%2Fimage%2Fattachment%253A09d83811-a62a-4a78-bc5c-55ae48e4f5e0%253A%25E1%2584%2589%25E1%2585%25B3%25E1%2584%258F%25E1%2585%25B3%25E1%2584%2585%25E1%2585%25B5%25E1%2586%25AB%25E1%2584%2589%25E1%2585%25A3%25E1%2586%25BA_2026-03-10_%25E1%2584%258B%25E1%2585%25A9%25E1%2584%2592%25E1%2585%25AE_12.07.07.png%3Ftable%3Dblock%26id%3D31fe642e-de97-80ba-b6ad-c404bef4ac80%26cache%3Dv2&w=3840&q=75)