๋ฌธ์
Self-consistency ๊ธฐ๋ฐ ๋ณ๋ ฌ ์ถ๋ก ์์, ํธ๋ ์ด์ค ์๋ฅผ ๋๋ ค๋ ์ฑ๋ฅ์ด ํฌํ๋๊ฑฐ๋ ํ๋ฝํ๋ฉฐ, ์ ํ์ง ํธ๋ ์ด์ค๊ฐ ์ ๋ต์ ๋ํ ํฌํ๋ฅผ ํฌ์์ํต๋๋ค.
๋ฐฉ์
๋ชจ๋ธ์ด ์์ฒด์ ์ผ๋ก ์์ฑํ๋ token-level confidence๋ฅผ ํ์ฉํ์ฌ,
(1) ์คํ๋ผ์ธ์์๋ ์์ฑ๋ ํธ๋ ์ด์ค๋ฅผ ํํฐ๋ง/๊ฐ์ค ํฌํํ๊ณ
(2) ์จ๋ผ์ธ์์๋ ์์ฑ ๋์ค ์ ํ์ง ํธ๋ ์ด์ค๋ฅผ ์กฐ๊ธฐ ์ข
๋ฃํฉ๋๋ค.
์ฃผ์ ๊ธฐ์ฌ
- ๊ธฐ์กด ํ๊ท ํธ๋ ์ด์ค confidence๋ณด๋ค ์ฐ์ํ ์ธ๋ถํ๋ confidence ์ธก์ ์งํ ์ ์ (Group Confidence, Bottom-10% Confidence, Tail Confidence)
- Confidence ๊ธฐ๋ฐ ํํฐ๋ง + ๊ฐ์ค ํฌํ ์คํ๋ผ์ธ ํ์ดํ๋ผ์ธ ์ค๊ณ
- ์์ฑ ์ค Early Stopping ๊ธฐ๋ฐ ์จ๋ผ์ธ ์๊ณ ๋ฆฌ์ฆ, DeepConf-low/high ์ ์
- ์ถ๊ฐ ํ์ต ์์ด DeepSeek-8B์์ AIME 2025 ๊ธฐ์ค 99.9% ์ ํ๋ ๋ฌ์ฑ full parallel thinking ๋๋น ํ ํฐ ์ต๋ 84.7% ์ ๊ฐ
๋ฐฐ๊ฒฝ ๋ฐ ๋๊ธฐ
๊ธฐ์กด ๋ฐฉ๋ฒ์ ์ ๊ทผ
Self-Consistency + Majority Voting์ LLM ์ถ๋ก ์ test-time scaling ๋ฐฉ๋ฒ์
๋๋ค.
์์๋ก Qwen3-8B ๋ชจ๋ธ์์ AIME 2025๋ฅผ ํ ๋, majority voting์ ์ ์ฉํ๋ฉด ๋จ์ผ ์ํ ๋๋น pass@1 ์ ํ๋๊ฐ 65.1%์์ 82.6%๊น์ง ์์นํฉ๋๋ค.
๋ฌธ์ ์ ๋ฐ ๋ณ๋ชฉ
1. Diminishing Returns
ํธ๋ ์ด์ค ์๋ฅผ ๋๋ฆด์๋ก ์ฑ๋ฅ ๊ฐ์ ํญ์ด ๊ธ๊ฒฉํ ์ค์ด๋ญ๋๋ค.
- Qwen3-8B ๊ธฐ์ค 512๊ฐ ํธ๋ ์ด์ค๋ก majority voting โ 100M ์ถ๊ฐ ํ ํฐ ์์ฑ
- ํ์ง๋ง pass@1 ๋๋น ์ ํ๋ ๊ฐ์ ์ ์ฝ 17%p์ ๋ถ๊ณผ
- ํธ๋ ์ด์ค ์๋ฅผ 64โ512๋ก 8๋ฐฐ ๋๋ ค๋ ์ ํ๋ ๊ฐ์ ์ 2~3%p ์์ค
2. ์ ํ์ง ํธ๋ ์ด์ค์ ํฌํ ์ค์ผ
๋ชจ๋ ํธ๋ ์ด์ค๋ฅผ ๋๋ฑํ๊ฒ ์ทจ๊ธํ๋ฉด, ํ๋ฆฐ ๋ต์ ๋ด๋ ํธ๋ ์ด์ค๊ฐ ์ ๋ต ํฌํ๋ฅผ ํฌ์์ํต๋๋ค.
3. ๊ณ์ฐ ๋น์ฉ์ ๋นํจ์จ์ฑ
์์ฑ๋ ํธ๋ ์ด์ค ์ค ์๋น์๋ ์ฒ์๋ถํฐ ์๋ชป๋ ๋ฐฉํฅ์ผ๋ก ์ถ๋ก ํ์ฌ, ์๋ฃ๊น์ง ๊ธฐ๋ค๋ฆด ํ์๊ฐ ์์ต๋๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ ๊ธฐ์กด ๋ฐฉ๋ฒ์ ๋ชจ๋ ํธ๋ ์ด์ค๋ฅผ ๋๊น์ง ์์ฑํ ํ์์ผ ํ๋จ์ด ๊ฐ๋ฅํฉ๋๋ค.
๋ณ๋ชฉ์ ์์ธ์?
๊ธฐ์กด majority voting์ ํธ๋ ์ด์ค์ ํ์ง ์ฐจ์ด๋ฅผ ๋ฌด์ํฉ๋๋ค. ํํธ LLM์ ์ถ๋ก ๊ณผ์ ์์ ์์ฒด์ ์ผ๋ก token-level log-probability ๊ธฐ๋ฐ confidence ์ ํธ๋ฅผ ์์ฑํ๊ณ ์์ผ๋ฉฐ, ์ด ์ ํธ๊ฐ ํธ๋ ์ด์ค์ ์ ํ์ฑ๊ณผ ๊ฐํ ์๊ด๊ด๊ณ๋ฅผ ๋ณด์
๋๋ค. ์ด๋ฅผ ์ด์ฉํ์ฌ Voting ๊ณผ์ ์ ํตํฉํ๋ฉด ์ ํ๋์ ํจ์จ์ฑ์ ๋ชจ๋ ๋์ผ ์ ์์ต๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ
Confidence ์ธก์ ์งํ ์ค๊ณ
DeepConf์์ ์ฃผ์ํ๊ฒ ๋ด์ผํ ์งํ๋ ์ด๋ค confidence ์งํ๊ฐ ์ ๋ต/์ค๋ต ํธ๋ ์ด์ค๋ฅผ ๊ฐ์ฅ ์ ๊ตฌ๋ถํ๋๊ฐ์
๋๋ค.
1. Token Confidence
2. Average Trace Confidence
3. Group Confidence (๊ทธ๋ฃน ์์ค) โ DeepConf ์ ์
ํ ํฐ์ ์ฌ๋ผ์ด๋ฉ ์๋์ฐ๋ก ๊ทธ๋ฃนํํ์ฌ ๊ตญ์์ confidence๋ฅผ ํฌ์ฐฉํฉ๋๋ค.
- : ๊ฐ์ ์ฐ์ ํ ํฐ์ผ๋ก ๊ตฌ์ฑ๋ ๊ทธ๋ฃน (์: ๋๋ )
- ์ธ์ ๊ทธ๋ฃน๊ณผ ๊ฒน์น๋ ์ฌ๋ผ์ด๋ฉ ์๋์ฐ ๋ฐฉ์
- ์ถ๋ก ์ค๊ฐ์ confidence๊ฐ ๊ธ๊ฒฉํ ๋จ์ด์ง๋ ๊ตฌ๊ฐ(์: "wait", "however", "think again" ๊ฐ์ ํ ํฐ)์ ์ ํํ ํฌ์ฐฉ
4. Bottom-10% Group Confidence โ DeepConf ์ ์
๋ชจ๋ ๊ทธ๋ฃน confidence ์ค ํ์ 10%์ ํ๊ท ์ ํธ๋ ์ด์ค ํ์ง ์งํ๋ก ์ฌ์ฉํฉ๋๋ค.
- : ํ์ 10% confidence ๊ทธ๋ฃน์ ์งํฉ
- ์ง๊ด์ ์๋ฏธ: "์ถ๋ก ๊ณผ์ ์์ ๊ฐ์ฅ ๋ถํ์คํ๋ ๊ตฌ๊ฐ์ด ์ผ๋ง๋ ๋ถํ์คํ๋๊ฐ"
- ํ์ ๊ตฌ๊ฐ ํ๋๋ผ๋ ์ฌ๊ฐํ๊ฒ ๋ถํ์คํ๋ฉด, ๊ทธ ํธ๋ ์ด์ค๋ ์ ์ฒด์ ์ผ๋ก ์์ฌ์ค๋ฌ์
5. Lowest Group Confidence โ DeepConf ์ ์
๊ฐ์ฅ ๋ฎ์ ๋จ์ผ ๊ทธ๋ฃน confidence๋ง์ ์ฌ์ฉํฉ๋๋ค.
- : ํธ๋ ์ด์ค ๋ด ๋ชจ๋ ๊ทธ๋ฃน์ ์งํฉ
- Bottom-10%์ ๊ทน๋จ์ ๋ณํ์ผ๋ก, ์ต์ ์ ๊ตฌ๊ฐ ํ๋๋ง์ผ๋ก ํ๋จ
- ์จ๋ผ์ธ ์๋๋ฆฌ์ค์์ ํนํ ์ ์ฉ: ์์ฑ ์ค ํ์ฌ ๊ทธ๋ฃน์ confidence๋ง ํ์ธํ๋ฉด ๋จ
6. Tail Confidence โ DeepConf ์ ์
ํธ๋ ์ด์ค์ ๋ง์ง๋ง ๊ตฌ๊ฐ๋ง์ confidence๋ฅผ ์ธก์ ํฉ๋๋ค.
- : ๊ผฌ๋ฆฌ ํ ํฐ ์ (์: 2048๊ฐ)
- ์ํ ๋ฌธ์ ์์ ์ต์ข ๋ต์ ๋์ถํ๋ ๋ง์ง๋ง ๋จ๊ณ์ ํ์ ๋๊ฐ ์ ์ฒด ์ ํ์ฑ๊ณผ ๋์ ์๊ด
- ์ฒ์์ ํ์ ์๊ฒ ์์ํ์ง๋ง ๊ฒฐ๋ก ์์ ํ๋ค๋ฆฌ๋ ํธ๋ ์ด์ค๋ฅผ ํฌ์ฐฉ
์งํ ๊ฐ ์ฑ๋ฅ ๋น๊ต
Offline Thinking with Confidence
์์ฑ๋ ํธ๋ ์ด์ค๋ค์ ๋ํด ์ฌํ์ ์ผ๋ก confidence๋ฅผ ํ๊ฐํ๊ณ , ํฌํ๋ฅผ ์ ์ ํ๋ ๋ฐฉ์์
๋๋ค.
Confidence-Weighted Majority Voting
๊ฐ ํธ๋ ์ด์ค์ ํฌํ๋ฅผ confidence๋ก ๊ฐ์คํฉ๋๋ค.
- : ํธ๋ ์ด์ค ์ confidence
- ๋์ confidence ํธ๋ ์ด์ค์ ํ๊ฐ ๋ ํฐ ์ํฅ๋ ฅ์ ๊ฐ์ง
- ๋จ์ majority voting๊ณผ ๋ฌ๋ฆฌ, ํ์ ๋์ ์์ ํธ๋ ์ด์ค๊ฐ ๋ถํ์คํ ๋ค์๋ฅผ ์ด๊ธธ ์ ์์
Confidence Filtering
ํฌํ ์ ์ low-confidence ํธ๋ ์ด์ค๋ฅผ ์์ ํ ์ ๊ฑฐํฉ๋๋ค.
- Top 10% ํํฐ (): ๊ฐ์ฅ confidentํ ์์ 10%๋ง ์ฌ์ฉ. ์์ ํธ๋ ์ด์ค๋ก๋ ๋์ ์ ํ๋. ํ์ง๋ง ๊ฐ๋ ๊ณผ์ (overconfident) ์ค๋ต์ ์ทจ์ฝ
- Top 90% ํํฐ (): ๊ฐ์ฅ ๋ฎ์ 10%๋ง ์ ๊ฑฐ. ๋ณด์์ ์ด์ง๋ง ์์ ์
์คํ์ Top 90%๊ฐ ์์ ์ฑ ๋ฉด์์ ์ฐ์, Top 10%๊ฐ ์ต๊ณ ์ ํ๋๋ฅผ ๋ณด์ด๋ ๊ฐ๋ ์ฑ๋ฅ์ด ๋จ์ด์ง๋ ๊ฒฝ์ฐ๊ฐ ์์ต๋๋ค.
Online Thinking with Confidence
์์ฑ ๋์ค์ confidence๋ฅผ ํ์ธํ๊ณ , ์ ํ์ง ํธ๋ ์ด์ค๋ฅผ ์กฐ๊ธฐ ์ข
๋ฃํ๋ ๋ฐฉ์์ผ๋ก, ์ด๋ฅผ ํตํด ๋ถํ์ํ ํ ํฐ ์์ฑ์ ๊ทผ๋ณธ์ ์ผ๋ก ์ค์
๋๋ค.
DeepConf-low vs DeepConf-high
๊ตฌ๋ถ | DeepConf-low | DeepConf-high |
ํํฐ๋ง ๋น์จ ฮท | 10% (์์ 10% ๊ธฐ์ค) | 90% (์์ 90% ๊ธฐ์ค) |
stopping threshold | ๋์ (์๊ฒฉ) | ๋ฎ์ (๊ด๋) |
ํ ํฐ ์ ๊ฐ๋ฅ | ๋์ (43~84%) | ์ค๊ฐ (16~59%) |
์ ํ๋ ์์ ์ฑ | ๊ฐ๋ 1~2%p ํ๋ฝ ๊ฐ๋ฅ | majority voting๊ณผ ๊ฑฐ์ ๋์ผ |
์ ํฉ ์๋๋ฆฌ์ค | ํจ์จ ์ต์ฐ์ | ์ ํ๋ ์ต์ฐ์ |
Adaptive Sampling
๋ฌธ์ ๋์ด๋์ ๋ฐ๋ผ ํธ๋ ์ด์ค ์์ฑ ์๋ฅผ ๋์ ์ผ๋ก ์กฐ์ ํฉ๋๋ค.
# ํฉ์ ๋น์จ(consensus ratio)๋ก ๋์ด๋ ์ถ์ consensus = V(รข) / ฮฃ_a V(a) # ์ฌ์ด ๋ฌธ์ : ์์ ํธ๋ ์ด์ค๋ก๋ ๋์ ํฉ์ โ ์กฐ๊ธฐ ์ข ๋ฃ # ์ด๋ ค์ด ๋ฌธ์ : ํฉ์ ๋ฎ์ โ ์์ฐ๊น์ง ๊ณ์ ์์ฑ if consensus >= ฯ: # ฯ = 0.95 ๊ธฐ๋ณธ๊ฐ stop_generation() else: continue_generating()
์ด ๋ฉ์ปค๋์ฆ ๋๋ถ์ ์ฌ์ด ๋ฌธ์ ์์๋ ์์์ ํธ๋ ์ด์ค๋ง ์์ฑํ๊ณ , ์ด๋ ค์ด ๋ฌธ์ ์ ๊ณ์ฐ ์์์ ์ง์ค ๋ฐฐ๋ถํ ์ ์์ต๋๋ค.
์ Lowest Group Confidence๊ฐ ์จ๋ผ์ธ ์๋๋ฆฌ์ค์ ์ ํฉํ๊ฐ?
์์ฑ ์ค ์ค์๊ฐ์ผ๋ก ํ๋จํ๋ ค๋ฉด, ํธ๋ ์ด์ค ์ ์ฒด๋ฅผ ๊ธฐ๋ค๋ฆด ์ ์์ต๋๋ค. Lowest Group Confidence๋ ํ์ฌ๊น์ง ์์ฑ๋ ๊ตฌ๊ฐ์ ์ต์ confidence๋ง ํ์ธํ๋ฉด ๋๋ฏ๋ก, ์คํธ๋ฆฌ๋ฐ ๋ฐฉ์์ผ๋ก ๊ณ์ฐ ๊ฐ๋ฅํฉ๋๋ค.
ํธ๋ ์ด์ค ์์ฑ ์งํ: [๊ทธ๋ฃน1: C=0.85] [๊ทธ๋ฃน2: C=0.72] [๊ทธ๋ฃน3: C=0.41] โ ์๊ณ๊ฐ 0.55 ๋ฏธ๋ง! โ ์ฆ์ ์ค๋จ Lowest Group Conf = min(0.85, 0.72, 0.41) = 0.41 < s โ ์ด ํธ๋ ์ด์ค๋ "์ถ๋ก ์ด ํ ๋ฒ์ด๋ผ๋ ์ฌ๊ฐํ๊ฒ ํ๋ค๋ฆผ" โ ์๋ฃ๊น์ง ๊ธฐ๋ค๋ฆด ๊ฐ์น ์์
![[Paper Review] Deep Think with Confidence](/_next/image?url=https%3A%2F%2Fwww.notion.so%2Fimage%2Fattachment%253Ad8297b79-5458-44a0-9dcc-44811d83f1a4%253A%25E1%2584%2589%25E1%2585%25B3%25E1%2584%258F%25E1%2585%25B3%25E1%2584%2585%25E1%2585%25B5%25E1%2586%25AB%25E1%2584%2589%25E1%2585%25A3%25E1%2586%25BA_2026-03-10_%25E1%2584%258B%25E1%2585%25A9%25E1%2584%258C%25E1%2585%25A5%25E1%2586%25AB_3.27.26.png%3Ftable%3Dblock%26id%3D31ee642e-de97-8001-ad99-dd7f8410517e%26cache%3Dv2&w=3840&q=75)