๋ฌธ์
Sampling ๊ธฐ๋ฐ test-time scaling์์ SC์ PPL ๋ชจ๋ ์ด๋ก ์ ํ๊ณ๊ฐ ์กด์ฌํ๋ฉฐ, ์ด๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ ํ๋ ์์ํฌ๊ฐ ๋ถ์ฌํฉ๋๋ค.
๋ฐฉ์
Reasoning error๋ฅผ Estimation Error + Model Error๋ก ๋ถํดํ๋ ์ด๋ก ํ๋ ์์ํฌ๋ฅผ ์๋ฆฝํ๊ณ , LLM ๋ด๋ถ ํ๋ฅ ์ SC ํ๋ ์์ํฌ์ Perplexity Consistencyํ ๋ค ์ ํ๋ฅ ์ถ๋ก ๊ฒฝ๋ก๋ฅผ Reasoning Pruningํ๋ RPC ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
์ฃผ์ ๊ธฐ์ฌ
- Sampling ๊ธฐ๋ฐ test-time scaling์ confidence estimation ๊ด์ ์์ ๋ถ์ํ๋ ์ต์ด์ ์ด๋ก ํ๋ ์์ํฌ ์ ์
- SC์ PPL ๊ฐ๊ฐ์ ํ๊ณ๋ฅผ Estimation Error / Model Error ๊ด์ ์์ ์ ๋์ ์ผ๋ก ๊ท๋ช
- ๋ ๋ฐฉ๋ฒ์ ์ฅ์ ์ ๊ฒฐํฉํ RPC ์ ์ โ ์ถ์ ์ค์ฐจ ์๋ ด์ ์ ํ์์ ์ง์์ ์ผ๋ก ๊ฐ์ํ๋ฉด์ ๋ชจ๋ธ ์ค์ฐจ๋ฅผ ๋ฎ๊ฒ ์ ์ง
๋ฐฐ๊ฒฝ ๋ฐ ๋๊ธฐ
๊ธฐ์กด ๋ฐฉ๋ฒ์ ์ ๊ทผ
Consistency ๊ธฐ๋ฐ ๋ฐฉ๋ฒ (Ex, Self-Consistency)
- ๋์ผํ ๋ฌธ์ ์ ๋ํด n๊ฐ์ reasoning path๋ฅผ ์ํ๋ง
- Majority vote๋ก ๊ฐ์ฅ ๋น๋ฒํ ๋ต์ ์ ํ
- Monte Carlo ์ถ์ ์ผ๋ก confidence๋ฅผ ๊ณ์ฐ
Probability ๊ธฐ๋ฐ ๋ฐฉ๋ฒ (Ex, Perplexity)
- LLM์ด ์์ฑํ ๊ฐ reasoning path์ ๋ด๋ถ ํ๋ฅ ์ ์ง์ ํ์ฉ
- ํ๋ฅ ์ด ๋์ path๋ฅผ ๋ ์ ๋ขฐํ ๋งํ ๊ฒ์ผ๋ก ๊ฐ์ฃผ
๋ฌธ์ ์ ๋ฐ ๋ณ๋ชฉ
1. Self-Consistency์ ๋๋ฆฐ ์๋ ด
- Monte Carlo ์ถ์ ์ ์์กดํ๊ธฐ ๋๋ฌธ์ ์ถ์ ์ค์ฐจ๊ฐ ์ผ๋ก๋ง ๊ฐ์ํฉ๋๋ค
- ์ํ ์๊ฐ ์ ์ ๋ ์ฑ๋ฅ์ด ๋ถ์์ ํฉ๋๋ค
- ์: ์ถฉ๋ถํ ์ฑ๋ฅ์ ๋ด๋ ค๋ฉด 64~128๊ฐ์ ์ํ์ด ํ์ํ๋ฐ, ์ด๋ ๋น์ฉ์ด ํฝ๋๋ค
2. Perplexity์ ๋์ ๋ชจ๋ธ ์ค์ฐจ
- LLM ๋ด๋ถ ํ๋ฅ ์ ์ง์ ์ฌ์ฉํ์ง๋ง, ์ด ํ๋ฅ ์์ฒด๊ฐ ์ ๋ต ํ๋ฅ ๊ณผ ๊ดด๋ฆฌ๊ฐ ์์ต๋๋ค
- ํนํ ํ๋ฅ ๊ฐ์ด ๋งค์ฐ ๋ฎ์ reasoning path์์ ์๋ ด ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ degradationํฉ๋๋ค
3. ๋ ๋ฐฉ๋ฒ ๋ชจ๋ ๊ฐ์ ์ฌ์ง ์กด์ฌ
- SC: ์๋ ด์ ๋๋ฆฌ์ง๋ง ๋ชจ๋ธ ์ค์ฐจ๊ฐ ๋ฎ์ต๋๋ค
- PPL: ์๋ ด์ ๋น ๋ฅด์ง๋ง ๋ชจ๋ธ ์ค์ฐจ๊ฐ ๋์ต๋๋ค
- ๋ ์ฅ์ ์ ๋์์ ๋ฌ์ฑํ๋ ๋ฐฉ๋ฒ์ด ๊ฐ๋ฅํ ๊ฒ์ด๋ผ๋ ์ด๋ก ์ ๊ทผ๊ฑฐ๊ฐ ์์ต๋๋ค
๊ทผ๋ณธ ์์ธ
๋ ๋ฐฉ๋ฒ์ ํ๊ณ๋ confidence estimation ์ ๋ต์ ๊ทผ๋ณธ์ ์ฐจ์ด์์ ๋น๋กฏ๋ฉ๋๋ค. SC๋ ์์ ํ ๋น๋ ๊ธฐ๋ฐ์ด๋ผ ์ ๋ณด๋ฅผ ์ถฉ๋ถํ ํ์ฉํ์ง ๋ชปํ๊ณ , PPL์ ํ๋ฅ ์ ์ง์ ์ฐ์ง๋ง ๊ด์ธก๋์ง ์์ path์ ๋ํ ์ฒ๋ฆฌ๊ฐ ๋ถ์ฌํฉ๋๋ค. ์ต์ ์ ๋ฐฉ๋ฒ์ ๋น ๋ฅธ ์ถ์ ์ค์ฐจ ์๋ ด๊ณผ ๋ฎ์ ๋ชจ๋ธ ์ค์ฐจ๋ฅผ ๋์์ ๋ฌ์ฑํด์ผ ํฉ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ
์ด๋ก ํ๋ ์์ํฌ: Reasoning Error ๋ถํด
์ด ๋
ผ๋ฌธ์ ์ด๋ก ์ ํ ๋๋ reasoning error๋ฅผ ๋ ๊ฐ์ ๋
๋ฆฝ์ ์ฑ๋ถ์ผ๋ก ๋ถํดํ๋ ๊ฒ์
๋๋ค.
๋ฌธ์ ์ ์
์ถ๋ก ๋ฌธ์ ์์ ๋ ์
๋ ฅ ์ฟผ๋ฆฌ, ๋ ์ ๋ต์
๋๋ค. LLM์ reasoning path ์ ์์ฐจ์ ์ผ๋ก ์์ฑํ๋ฉฐ, ์ถ์ถ ํจ์ ์ด ์ต์ข
๋ต ๋ฅผ ๋์ถํฉ๋๋ค.
Confidence: reasoning path ์ ์์ฑ ํ๋ฅ , ๋๋ ๋ต ์ ํ๋ฅ
์ค์ ๋ก๋ ๋ชจ๋ ๊ฐ๋ฅํ path๋ฅผ ์ด๊ฑฐํ ์ ์์ผ๋ฏ๋ก, ๊ฐ์ ์ํ ์ผ๋ก confidence๋ฅผ ์ถ์ ํฉ๋๋ค.
Proposition 1: Error Decomposition (ํต์ฌ ์ ๋ฆฌ)
์์์ ์
๋ ฅ , ์ ๋ต , ๊ฐ๋ฅํ ๋ต ์ ๋ํด, reasoning error ๋ ๋ค์๊ณผ ๊ฐ์ด ๋ถํด๋ฉ๋๋ค:
๊ฐ ํญ์ ์๋ฏธ:
- Estimation Error: ์ถ์ ๋ confidence ์ ์ค์ ํ๋ฅ ์ฌ์ด์ ์ฐจ์ด. ์ํ ์ ๊ณผ ์ถ์ ์ ๋ต์ ์์กดํฉ๋๋ค.
- Model Error: LLM์ด ๋ถ์ฌํ ์ค์ ํ๋ฅ ์ ์ ๋ต ์ง์ํจ์ ์ฌ์ด์ ์ฐจ์ด. LLM์ ์ถ๋ก ๋ฅ๋ ฅ ์์ฒด์ ์์กดํ๋ฉฐ, ์ํ๋ง๊ณผ ๋ฌด๊ดํฉ๋๋ค.
๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ํ๊ณ๋ฅผ ๊ฐ๊ฐ ์ด๋ค ์ค์ฐจ ์ฑ๋ถ ๋๋ฌธ์ธ์ง ์์ธํ๊ฒ ์ง๋จํ ์ ์๊ฒ ํด์ฃผ๊ธฐ ๋๋ฌธ์ ๋ถํด๊ฐ ์ค์ํฉ๋๋ค.
SC์ ์ด๋ก ์ ๋ถ์
Proposition 2: SC Reasoning Error Decomposition
SC์ confidence ์ถ์ :
ํต์ฌ ๊ด์ฐฐ:
- Estimation Error๊ฐ โ ์ฆ ์ ํ์ ์ผ๋ก๋ง ๊ฐ์ํฉ๋๋ค
- ์ํ ์๋ฅผ 2๋ฐฐ ๋๋ ค์ผ ์ค์ฐจ๊ฐ ์ ๋ฐ์ด ๋๋, ํจ์จ์ด ๋ฎ์ ๊ตฌ์กฐ์ ๋๋ค
- ๋ค๋ง Model Error๋ SC์ consistency function ํน์ฑ์ ์๋์ ์ผ๋ก ๋ฎ์ต๋๋ค
PPL์ ์ด๋ก ์ ๋ถ์
Proposition 3: PPL Reasoning Error Decomposition
PPL์ confidence ์ถ์ :
ํต์ฌ ๊ด์ฐฐ:
- Estimation Error์ ํญ์ด ํฌํจ๋์ด ์ง์์ ์ผ๋ก ๊ฐ์ํฉ๋๋ค
- ํ์ง๋ง ์ด๋ฉด ์ด ๋์ด ์๋ ด์ด ํดํํฉ๋๋ค
- Model Error๊ฐ SC๋ณด๋ค ์ผ๋ฐ์ ์ผ๋ก ํฌ๋ฉฐ, path-level ํ๋ฅ ๊ณผ ์ ๋ต ์ฌ๋ถ์ ๊ดด๋ฆฌ๊ฐ ์์ธ์ ๋๋ค
์ ์ฒด ์ํคํ ์ฒ: RPC ๋ฐฉ๋ฒ
์ ๋ ฅ ๋ฌธ์ x โ LLM Sampling: n๊ฐ์ reasoning path ์์ฑ โ Reasoning Pruning (RP): ์ ํ๋ฅ path ์ ๊ฑฐ โ Perplexity Consistency (PC): ๋จ์ path๋ก confidence ์ถ์ โ ์ต์ข ๋ต ์ ํ
๋ชจ๋ 1: Perplexity Consistency (PC)
LLM ๋ด๋ถ ํ๋ฅ ์ SC ํ๋ ์์ํฌ์ ํตํฉํ์ฌ, PPL์ ๋น ๋ฅธ ์๋ ด๊ณผ SC์ ๋ฎ์ ๋ชจ๋ธ ์ค์ฐจ๋ฅผ ๋์์ ๋ฌ์ฑํฉ๋๋ค.
ํต์ฌ ๊ณต์
๊ณ ์ ํ reasoning path ์งํฉ ์ ๋ํด, ์์์ ๋ต ์ ์ถ์ ํ๋ฅ ,
SC์์ ์ฐจ์ด์ ์ ๋ช
ํํ ํ๋ฉด,
- SC: ๋ต์ด ์ธ path์ ๊ฐ์๋ฅผ ์ธ์ ์ผ๋ก ๋๋๋๋ค (๋น๋ ๊ธฐ๋ฐ)
- PC: ๋ต์ด ์ธ path์ ํ๋ฅ ์ ํฉ์ฐํฉ๋๋ค (ํ๋ฅ ๊ฐ์ค)
Theorem 4: PC Reasoning Error Decomposition
(๋ต์ด ์ธ ๊ณ ์ path ์), ๋ก ์ ์ํ๋ฉด:
PC์ ์ด์ :
- Estimation Error ์๋ ด์จ: ์ผ๋ก ์ง์์ ์๋ ด โ PPL๊ณผ ๋๊ธ
- Model Error: SC์ ๋์ผํ ํํ โ SC์ ๋๊ธ
์ฆ, PC๋ PPL์ ๋น ๋ฅธ ์๋ ด๊ณผ SC์ ๋ฎ์ ๋ชจ๋ธ ์ค์ฐจ๋ฅผ ๋ชจ๋ ๋ฌ์ฑํฉ๋๋ค.
์๋ ด ํดํ ๋ฌธ์ ์กด์ฌ.
๋ชจ๋ 2: Reasoning Pruning (RP)
์ ํ๋ฅ reasoning path๋ฅผ ์ฌ์ ์ ์ ๊ฑฐํ์ฌ PC์ ์๋ ด ํดํ ๋ฌธ์ ๋ฅผ ๋ฐฉ์งํฉ๋๋ค.
๊ธฐ๋ณธ ์์ด๋์ด
ํ๋ฅ ๊ฐ ๋งค์ฐ ๋ฎ์ ๋ต ๋ ์ ๋ต์ผ ๊ฐ๋ฅ์ฑ์ด ํฌ๋ฐํฉ๋๋ค. ์ด๋ฐ path์ ์กด์ฌ๊ฐ PC์ ์๋ ด ์๋๋ฅผ ๋์ด๋ด๋ฆฌ๋ฏ๋ก, threshold ์ดํ์ ๋์ ํ๋ฅ ์ ๊ฐ์ง ๋ต์ ์ ๊ฑฐํฉ๋๋ค:
Theorem 7: Pruning์ ํจ๊ณผ ๋ณด์ฅ
์ต์ threshold (์ ๋ต์ ์ค์ ํ๋ฅ )๋ก ์ค์ ํ๋ฉด, RP๋ ๋ค์ ํ๋ฅ ์ด์์ผ๋ก ์ต์ ์ ์ค์ฐจ ๊ฐ์๋ฅผ ๋ฌ์ฑํฉ๋๋ค:
์ฌ๊ธฐ์ ๋ ๋ต์ด ์ธ ์ํ ์์
๋๋ค.
์ด๋ model error ์์ฒด๋ ํจ๊ณผ์ ์ผ๋ก ๊ฐ์์ํต๋๋ค. ์๋ชป๋ ๋ต์ ํ ๋น๋ ํ๋ฅ ์ ์ ๊ฑฐํ๊ธฐ ๋๋ฌธ์
๋๋ค.
์๋ Threshold ๊ฒฐ์ : Weibull Mixture Model
์ธ ๋ฐฉ๋ฒ์ ์ด๋ก ์ ๋น๊ต ์์ฝ
์ธก๋ฉด | Self-Consistency (SC) | Perplexity (PPL) | RPC (PC + RP) |
Estimation Error ์๋ ด | ์ ํ | ์ง์์ | ์ง์์ |
Model Error | ๋ฎ์ | ๋์ | ๋ฎ์ (SC ์์ค) |
์ ํ๋ฅ path ๋์ | ์์ฐ ์ฒ๋ฆฌ | ์๋ ด ํดํ | RP๋ก ์ ๊ฑฐ |
Confidence ํด์ | ๋น๋ ๊ธฐ๋ฐ (์ง๊ด์ ) | ํ๋ฅ ๊ธฐ๋ฐ (ํธํฅ ๊ฐ๋ฅ) | ํ๋ฅ ๊ฐ์ค ๋น๋ (๊ท ํ์ ) |
ํ์ ์ํ ์ | ๋ง์ (64-128) | ์ ์ | SC ๋๋น 50% ์ดํ |
์คํ ๋ถ์
1. ํจ์จ์ฑ (RQ1): ์ํ๋ง ๋น์ฉ 50% ์ด์ ์ ๊ฐ
MathOdyssey์์๋ 71.4%์ ์ํ๋ง ์ ๊ฐ์ด ์ด๋ฃจ์ด์ก์ต๋๋ค. ์ด๋ ์ด๋ก ์์ ์์ธกํ PC์ ์ง์์ ์๋ ด ์๋๊ฐ ์ค์ ๋ก ์๋ํจ์ ๋ณด์ฌ์ค๋๋ค.
2. ์ฑ๋ฅ (RQ2): ๋์ผ ์ํ ์์์ ์ต๊ณ ์ ํ๋
ย
RPC๋ ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ํ๊ท 1.29% ํฅ์์ ๋ฌ์ฑํ์ผ๋ฉฐ, ๋ชจ๋ ๋ฐ์ดํฐ์
์์ ์ต๊ณ ์ฑ๋ฅ์ ๊ธฐ๋กํ์ต๋๋ค.
3. ์ ๋ขฐ์ฑ (RQ3): ECE(Expected Calibration Error) ๊ฐ์
๋ฐฉ๋ฒ | MATH ECE | MathOdyssey ECE | OlympiadBench ECE | AIME ECE | ํ๊ท ECE |
PPL | 48.99 | 67.70 | 86.90 | 88.98 | 73.14 |
VERB | 47.46 | 69.92 | 84.68 | 86.29 | 72.09 |
SC | 6.71 | 12.23 | 20.20 | 14.35 | 13.37 |
RPC | 6.41 | 9.87 | 18.86 | 14.32 | 12.37 |
RPC์ confidence ์ถ์ ์ด ์ค์ ์ ๋ต๋ฅ ๊ณผ ๋ ์ calibration ๋์ด ์์ต๋๋ค.
4. ์ฝ๋ ์์ฑ ํ์คํฌ์์๋ ์ ํจ
Deepseek-Coder 33B ๋ชจ๋ธ๋ก ์ฝ๋ ์์ฑ ๋ฒค์น๋งํฌ์์๋ RPC๊ฐ ์ต๊ณ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ฌ, ์ํ ์ถ๋ก ์ ๊ตญํ๋์ง ์๋ ๋ฒ์ฉ์ฑ์ ํ์ธํ์ต๋๋ค.
ํ๊ณ
- Bernoulli ๊ฐ์ ์์กด: ์ด๋ก ๋ถ์์ด LLM ์ํ๋ง์ด Bernoulli ๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค๋ ๊ฐ์ ์ ๊ธฐ๋ฐํฉ๋๋ค. ์ค์ LLM ์์ฑ์ ๋ ๋ณต์กํ ๋ถํฌ๋ฅผ ๋ณด์ผ ์ ์์ต๋๋ค.
- Weibull Mixture ํผํ ๋ถ์์ : ์ํ ์๊ฐ ๋งค์ฐ ์ ์ ๋(n < 16) mixture model ํผํ ์ด ๋ถ์์ ํด์ง ๊ฐ๋ฅ์ฑ์ด ์์ผ๋ฉฐ, Truncated Mean์ผ๋ก ์ํํ์ง๋ง ๊ทผ๋ณธ์ ํด๊ฒฐ์ ์๋๋๋ค.
- ๊ธด reasoning chain์์์ ํ๋ฅ ์ถ์ : path๊ฐ ๋งค์ฐ ๊ธธ์ด์ง๋ฉด ๋ด๋ถ ํ๋ฅ ์ ๊ฐ์ด ๊ทน๋๋ก ์์์ ธ, ์์น์ ์์ ์ฑ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์์ต๋๋ค.
ย
![[Paper Review] A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning](/_next/image?url=https%3A%2F%2Fwww.notion.so%2Fimage%2Fattachment%253Ab02fbc5c-932e-4f38-b5bd-19cc10a32f85%253A%25E1%2584%2589%25E1%2585%25B3%25E1%2584%258F%25E1%2585%25B3%25E1%2584%2585%25E1%2585%25B5%25E1%2586%25AB%25E1%2584%2589%25E1%2585%25A3%25E1%2586%25BA_2026-03-10_%25E1%2584%258B%25E1%2585%25A9%25E1%2584%2592%25E1%2585%25AE_12.33.20.png%3Ftable%3Dblock%26id%3D31fe642e-de97-80d5-ba58-c67cb3f7b4a9%26cache%3Dv2&w=3840&q=75)