[Paper Review] How to Train Your Advisor : 경량 모델이 Black-Box LLM을 컨트롤하는 방법론

UC Berkeley에서 발표한 ADVISOR MODELS 논문을 리뷰합니다. Black-Box 모델(GPT-5, Claude 등)을 파인튜닝 없이 개인화하고 도메인 적응시키는 방법을 제안하는 논문입니다.

최근 LLM을 사용하면서 이런 고민을 해본 적 있지 않나요? 🤔

"GPT-5가 아무리 똑똑해도, 내 스타일대로 글을 쓰게 만들 수가 없네..."

"특정 도메인 지식을 가르치고 싶은데, API로만 접근 가능하니 파인튜닝이 불가능해..."

"프롬프트 엔지니어링? 매번 수동으로 조정하는 건 한계가 있어..."

이 논문의 핵심 아이디어는 놀랍게도 단순합니다:

💡

3B, 7B 모델과 같은 작은 오픈소스 모델을 훈련시켜서, 큰 Black-Box 모델에게 instance별로 맞춤 조언을 생성하게 하자

이러한 조언 방식이 실제로 효과가 있을지에 대해 정리해보겠습니다.

들어가며: Black-Box 모델의 딜레마

문제 상황

GPT-5, Claude 4.1 같은 프론티어 모델들은 API로만 접근 가능합니다. 모델 가중치를 직접 수정할 수 없으니, 커스터마이징 옵션이 제한적이죠.

현재 가능한 방법들의 한계를 살펴보면:

1. 정적 프롬프트 최적화 (Static Prompt Optimization)

DSPy, GEPA 같은 도구로 "최적의 프롬프트"를 자동으로 탐색하는 방법입니다.


[고정된 시스템 프롬프트] + [사용자 입력] → [Black-Box 모델] → [출력]

문제점: 하나의 고정된 프롬프트는 모든 상황에 맞지 않습니다.

예를 들어, "짧게 써줘"라는 프롬프트가:

10단어 리뷰를 원하는 Matei에게도 적용되고

1000단어 리뷰를 원하는 Alex에게도 동일하게 적용됨

사용자마다, 입력마다 다른 지시가 필요한데, 정적 프롬프트로는 이를 해결할 수 없습니다.

2. 파라미터 효율적 파인튜닝 (LoRA, QLoRA 등)

모델 가중치의 일부만 학습하는 방법입니다.

문제점: 모델 가중치에 접근 가능해야 함. GPT-5, Claude 같은 API 전용 모델에는 적용 불가능합니다.

3. Few-shot 프롬프팅

예시를 몇 개 넣어서 원하는 출력을 유도하는 방법입니다.

문제점: 컨텍스트 길이 한계, 일관성 부족, 복잡한 패턴 학습 불가능.

ADVISOR MODELS의 핵심 질문

"입력마다 다른 조언을 생성하는 모델을 학습시킬 수는 없을까?"

이 질문에서 ADVISOR MODELS가 시작됩니다.

ADVISOR MODELS: 프레임워크 설계

전체 아키텍처

ADVISOR MODELS의 구조는 다음과 같습니다:


┌─────────────────────────────────────────────────────────────────┐
│                      ADVISOR MODELS 시스템                        │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  [사용자 입력]                                                    │
│       │                                                         │
│       ▼                                                         │
│  ┌──────────────┐                                               │
│  │ Advisor Model │  ← 작은 오픈소스 모델 (Qwen2.5-7B)              │
│  │  (학습 가능)   │     GRPO로 RL 훈련                             │
│  └──────────────┘                                               │
│       │                                                         │
│       ▼ [자연어 조언]                                             │
│  ┌──────────────┐                                               │
│  │ Black-Box    │  ← 프론티어 모델 (GPT-4o mini, GPT-5 등)         │
│  │ Student Model│     가중치 동결 (Frozen)                        │
│  └──────────────┘                                               │
│       │                                                         │
│       ▼                                                         │
│  [최종 출력] ──────────────────┐                                  │
│                              │                                  │
│                              ▼                                  │
│                       [보상 함수]                                 │
│                              │                                  │
│                              │ (보상 신호)                        │
│                              ▼                                  │
│                    Advisor 가중치 업데이트                         │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

핵심 구성요소:

구성요소	역할	예시
Advisor Model	입력별 맞춤 조언 생성	Qwen2.5-7B-Instruct
Student Model	조언을 참고하여 최종 답변 생성	GPT-4o mini, GPT-5
보상 함수	최종 출력의 품질 측정	길이 일치도, 정확도 등

왜 작은 모델이 큰 모델을 "가르칠" 수 있을까?

처음 이 아이디어를 봤을 때 솔직히 의문이 들었습니다.

"7B 모델이 수백 B 파라미터의 GPT-5한테 뭘 가르쳐 줄 수 있지?"

논문의 핵심 통찰은 이렇습니다:

"Advisor는 Student보다 똑똑할 필요가 없다. Advisor는 환경과의 상호작용을 통해 배운 패턴을 전달하는 역할이다."

마치 코치와 선수의 관계와 비슷합니다:

코치가 선수보다 운동을 잘할 필요는 없음

하지만 "이 상황에서는 이렇게 해"라는 상황별 전략은 줄 수 있음

코치는 수많은 경기 경험에서 패턴을 학습

Advisor도 마찬가지입니다:

"이 사용자(Matei)에게는 짧은 리뷰를 추천하니까 보상이 높았네"

"이 유형의 번역 문제에서는 이런 힌트가 효과적이었어"

이 학습된 **환경 지식(environment latents)**을 자연어로 Student에게 전달하는 거죠.

GRPO: Advisor 훈련 알고리즘

Advisor는 **Group Relative Policy Optimization (GRPO)**으로 훈련됩니다.

왜 GRPO인가?

일반적인 지도학습이나 PPO와 달리, GRPO는:

Black-box Student에서 그래디언트를 받을 수 없는 상황에 적합

오직 보상 신호만으로 학습 가능

GRPO 작동 방식:

샘플링: 같은 입력에 대해 Advisor가 여러 조언 생성

보상 수집: 각 조언 → Student 실행 → 최종 출력 → 보상 계산

상대적 비교: 그룹 내에서 어떤 조언이 더 좋았는지 ranking

정책 업데이트: 좋은 조언을 더 자주 생성하도록 학습

훈련 하이퍼파라미터 (논문 Appendix A):

파라미터	값
Training Epochs	10
Train Batch Size	16
Policy Mini-batch Size	4
Learning Rate	1.0 × 10⁻⁶
Max Prompt Length	8,192
Max Generation Length	16,384
Temperature	1.0

실험 1: 숨겨진 선호도 학습 (Hidden Latents)

가장 인상적인 실험입니다. 사용자의 명시되지 않은 선호도를 Advisor가 학습할 수 있을까?

실험 설정: Review Writing

태스크: 사용자별 맞춤 리뷰 작성

데이터: FSPO 데이터셋 500개 프롬프트 (학습 450개, 평가 50개)

핵심 설정:

각 사용자(Matei, Alex 등)는 숨겨진 리뷰 길이 선호도가 있음

Matei: 10단어 리뷰 선호

Alex: 1000단어 리뷰 선호

프롬프트에는 선호도가 명시되지 않음

Advisor는 오직 보상 신호만으로 이 선호도를 발견해야 함

보상 함수 (Review Length):

$$ \text{Reward} = \frac{1}{1 + \frac{|\text{실제 길이} - \text{선호 길이}|}{\text{선호 길이}}} $$

정확히 맞추면 Reward = 1

선호 길이에서 벗어날수록 0에 가까워짐

상대적 오차를 사용하므로, 10단어 선호자에게 20단어나 1000단어 선호자에게 2000단어나 동일한 페널티

비교 대상:

Baseline: 조언 없이 Student만 사용

GEPA: 최신 정적 프롬프트 최적화 (ADVISOR MODELS와 동일한 API 호출 횟수 허용)

ADVISOR MODELS: 제안 방법

결과: ADVISOR MODELS의 압도적 승리

방법	Review Length	Review Level	Math Solutions
Baseline	0.472 ± 0.05	58.0%	0.424 ± 0.04
GEPA	0.460 ± 0.05	58.0%	0.430 ± 0.04
ADVISOR MODELS	0.932 ± 0.02	100%	0.946 ± 0.02

결과를 보고 정말 놀랐습니다. 😊

핵심 발견:

GEPA는 베이스라인과 통계적으로 차이가 없음

Review Length: 0.472 vs 0.460 (신뢰구간 겹침)

정적 프롬프트로는 instance별 선호도 학습이 불가능

ADVISOR MODELS는 거의 완벽하게 학습

Review Length: 0.932/1.0 (93.2% 최적)

Review Level: 100% 정확도

Math Solutions: 0.946/1.0

정적 vs 동적의 명확한 차이

GEPA: 모든 사용자에게 같은 프롬프트 → 일부만 만족

ADVISOR: 사용자별 다른 조언 → 거의 모든 사용자 만족

학습 전후 조언 비교: 실제 예시

논문 Appendix C에 나온 실제 예시를 보면 더 인상적입니다.

예시 1: Matei (10단어 리뷰 선호)

시점	생성된 조언
학습 전 (Step 0)	"Given Matei's preference for detailed analysis and a blend of personal critique and factual information... ensure your review is around 500-600 words, exploring the book's historical context, its impact on the genre..."
학습 후	"Given Matei's preference for concise and straightforward communication, focus on a very brief review. Keep the review around 10-15 words to directly convey your opinion. For example: 'Frankenstein is a well-crafted horror book that is easy to read.'"

학습 전에는 Matei가 상세한 분석을 좋아한다고 **환각(hallucination)**을 일으킵니다. 500-600단어라니, 실제 선호(10단어)와 정반대죠!

학습 후에는 정확히 10-15단어를 추천합니다. Advisor가 보상 신호만으로 Matei의 숨겨진 선호도를 발견한 겁니다.

예시 2: Alex (1000단어 리뷰 선호)

시점	생성된 조언
학습 전 (Step 0)	"For Alex, consider focusing on the emotional depth... in your 3-4 sentence review. Since Alex appreciates detailed storytelling..."
학습 후	"Given Alex's preference for detailed analysis, focus on discussing the plot, character development, and themes of the movie. Since Alex enjoys longer, more in-depth reviews, write a 1000-word review that explores not just the plot, but also the film's impact and its relevance today."

학습 전에는 3-4문장을 추천했지만, 학습 후에는 정확히 1000단어를 추천합니다.

Ablation: 초기화 프롬프트의 영향

Advisor 프롬프트를 어떻게 초기화하느냐도 중요합니다.

Strong Initialization (논문에서 사용):


You are a review writing advisor. Provide specific guidance for writing
a review that matches the person's preferences. Consider the length
preferences and style that would work best for the target person.

Weak Initialization (대조군):


You are a review writing advisor. Provide specific guidance for writing
a review.

결과 (Review Length):

초기화	5 Epochs	30 Epochs
Strong	0.932	-
Weak	0.749	0.932

인사이트:

Strong initialization이 학습 속도를 6배 가속

하지만 충분한 훈련 시간이 있다면 Weak로도 동일한 성능 도달 가능

실무에서는 "어떤 축으로 조언해야 하는지" 대략적인 힌트를 주는 게 효율적

실험 2: 복잡한 추론 태스크

단순 선호도 학습을 넘어, 추론 + 도메인 지식이 필요한 태스크에서는 어떨까요?

2-1. MTOB: 저자원 언어 번역

태스크: Kalamang (인도네시아 저자원 언어) → 영어 번역

왜 어려운가?

LLM이 Kalamang을 거의 학습하지 않음

프롬프트에 일부 단어/구문 번역 예시만 제공

언어적 추론 + 도메인 지식이 모두 필요

데이터: 200개 학습, 50개 테스트

평가 지표: chrF (문자 n-gram F-score)

결과:

방법	chrF Score
Baseline	28.1
ADVISOR + Student	43.7

15.6점 향상! 상당한 개선입니다.

Advisor가 학습한 것으로 추정되는 패턴:

"이 Kalamang 접미사는 영어에서 이런 의미로 번역됨"

"이 문맥에서는 직역보다 의역이 적합함"

2-2. RuleArena: 복잡한 규칙 따르기

태스크: 미국 세금 계산 시나리오

입력:

개인 프로필 (나이, 소득, 투자, 부양가족, 결혼 상태 등)

완전한 세금 코드 지침

요구사항:

수십 페이지의 세금 코드에서 관련 부분 식별

복잡한 계산 수행

정확한 납부액/환급액 도출

데이터: 75개 학습, 25개 테스트

모델 변경: 태스크 복잡도로 인해 더 강한 모델 사용

Advisor: Qwen3-8B-Instruct (기존 Qwen2.5-7B 대신)

Student: GPT-4.1 mini (기존 GPT-4o mini 대신)

결과:

방법	Accuracy
Baseline	56%
ADVISOR + Student	72%

16% 향상! 복잡한 규칙 적용에서도 효과적입니다.

2-3. 순수 수학 추론: 한계 발견

태스크: MATH-500 벤치마크 (수학 문제 풀이)

결과:

방법	Accuracy
Baseline	62%
ADVISOR + Student	65%

3%만 향상. 다른 태스크에 비해 미미합니다.

왜 수학에서는 효과가 적을까?

논문의 분석:

"An advisor struggles to 'teach' general reasoning in the same way it can convey a specific fact unknown to the black-box model"

Advisor가 잘하는 것:

도메인 지식 전달: "Kalamang에서 이 접미사는 이런 의미야"

숨겨진 선호도 학습: "Matei는 짧은 리뷰를 좋아해"

Advisor가 어려워하는 것:

순수 논리적 추론 개선: "수학 문제를 더 잘 푸는 일반적 방법"

수학은 도메인 지식보다 추론 능력 자체가 중요한 태스크이기 때문입니다.

Over-Advising 현상

복잡한 추론 태스크에서 흥미로운 현상이 발견되었습니다.

Over-Advising: Advisor가 "조언"만 주는 게 아니라, 문제를 직접 풀어버리는 현상

예를 들어:

수학: Advisor가 전체 풀이를 제시 → Student가 복사

MTOB: Advisor가 여러 번역 후보 제시 → Student가 선택

RuleArena: Advisor가 세금 계산을 직접 수행 → Student가 확인

처음에는 문제처럼 보이지만, 논문은 이를 새로운 기회로 해석합니다:

"ADVISOR MODELS has great potential in enabling the optimization of systems with strong target performance while retaining general capability."

즉, RL로 작은 모델을 도메인 전문가로 키우고, Student는 일반 능력을 유지하는 하이브리드 시스템이 가능합니다.

실험 3: 전이성과 견고성

ADVISOR MODELS의 가장 매력적인 특성 중 하나는 모듈성입니다.

3-1. Cross-Student Transfer

GPT-4o mini로 훈련한 Advisor를 다른 Student 모델에 적용하면?

실험: Review Length 태스크에서 훈련된 Advisor

Student Model	Eval Reward
GPT-4o mini (훈련 시 사용)	0.93
GPT-5	0.88
Claude 4 Sonnet	0.90

거의 동일한 성능입니다! 😊

실용적 의미:

훈련 비용 절감

RL 훈련 시 Student API 호출 필요 (논문 기준 ~64,000 콜)

GPT-4o mini로 훈련 ≈ $10

GPT-5로 훈련하면 비용 급증

해결책: 저렴한 모델로 훈련 → 비싼 모델에 적용

배포 유연성

하나의 Advisor로 여러 Student 지원

Student 업그레이드 시 Advisor 재훈련 불필요

왜 Transfer가 잘 될까?

Advisor가 생성하는 것은 자연어 조언입니다. 자연어는 모델에 무관하게 이해 가능하므로, 훈련된 패턴이 다른 모델에서도 유효합니다.

3-2. Capability Retention (능력 보존)

가장 중요한 질문: Advisor가 이상한 조언을 해서 Student의 원래 능력이 망가지면?

기존 파인튜닝의 고질적 문제인 Catastrophic Forgetting이 ADVISOR MODELS에서도 발생할까요?

실험 설계:

In-Domain Advisor: Math Solutions 선호도로 훈련 → 수학 정답률 측정

Out-of-Domain Advisor: Review Length로 훈련 (완전히 다른 태스크) → 수학 정답률 측정

설정	수학 정답률
Baseline (Advisor 없음)	64.0%
Advisor (math_solutions 훈련)	64.0%
Advisor (review_length 훈련)	59.0%

95% 신뢰구간 내에서 통계적으로 유의미한 차이가 없습니다!

핵심 인사이트:

완전히 다른 태스크(리뷰 길이)로 훈련한 Advisor의 조언이 수학 능력을 망가뜨리지 않았습니다.

이유는 명확합니다: Student 모델 가중치가 전혀 변하지 않기 때문입니다.

기존 파인튜닝과 비교:

파인튜닝: 모델 가중치 직접 수정 → 다른 태스크 능력 손상 위험

ADVISOR MODELS: Student 가중치 동결 → 원래 능력 100% 보존

ADVISOR MODELS vs 기존 방법 비교

정량적 비교 (Table 2에서 발췌)

태스크	지표	Baseline	GEPA	ADVISOR
Review Length	Reward	0.472	0.460	0.932
Review Level	Accuracy	58%	58%	100%
Math Solutions	Reward	0.424	0.430	0.946
MTOB	chrF	28.1	-	43.7
RuleArena	Accuracy	56%	-	72%

정성적 비교

특성	정적 프롬프트 (GEPA)	파인튜닝 (LoRA)	ADVISOR MODELS
Black-Box 지원	✅	❌	✅
Instance별 적응	❌	❌	✅
능력 보존	✅	❌ (Forgetting)	✅
Student 전이	N/A	❌	✅
해석 가능성	높음	낮음	높음 (자연어)

기술적 세부사항

Advisor 프롬프트 템플릿 (Appendix D)

System Prompt (Strong Initialization):


You are a review writing advisor. Provide specific guidance for
writing a review that matches the person's preferences. Consider
the length preferences and style that would work best for the
target person.

Instruction Template:


You need to provide advice for writing a review for {person}.
The task is: {prompt}
Provide specific advice about the review that would work best
for {person}. Think carefully about the length of the review
in your advice. Keep your advice to 3-4 sentences.

Student 프롬프트 템플릿

System Prompt:


You are a review writer. Based on the prompt and advisor guidance,
write a review that follows the guidance provided. Write a clear,
well-structured review.

Instruction Template:


Review Prompt: {prompt}
Advisor Guidance:
{advice}
Write a review following the advisor's guidance.

3-Step Variant (복잡한 추론 태스크용)

수학, MTOB, RuleArena 같은 복잡한 태스크에서는 3단계 변형을 사용합니다:


Step 1: Student가 초기 답변 생성 (Advisor 없이)
Step 2: Advisor가 초기 답변을 보고 조언 생성
Step 3: Student가 조언을 참고하여 최종 답변 수정

장점:

Advisor가 빈 상태에서 조언하는 것보다, 초기 답변을 보고 개선점 제안하는 게 더 쉬움

Advisor의 역할이 **생성자 → 검증자(Verifier)**로 변환

해로운 조언의 위험 감소

ADVISOR MODELS가 주는 3가지 교훈

1. 작은 모델도 "가르치는 역할"은 할 수 있다

7B 모델이 GPT-5를 가르친다? 처음엔 황당하게 들렸지만, 실험 결과는 명확합니다.

핵심은 역할의 분리입니다:

Advisor: 환경에서 배운 패턴을 자연어로 전달

Student: 강력한 추론 능력으로 실행

코치가 선수보다 잘할 필요 없듯이, Advisor가 Student보다 똑똑할 필요 없습니다.

2. 동적 조언 > 정적 프롬프트 (개인화 태스크에서)

GEPA 같은 SOTA 정적 프롬프트 최적화가 완전히 실패한 태스크에서 ADVISOR MODELS가 거의 완벽하게 성공했습니다.

왜?

정적 프롬프트: 모든 입력에 같은 지시

동적 조언: 입력마다 다른 맞춤 지시

개인화, 사용자 적응 같은 태스크에서 instance-specific 조언이 필수적이라는 걸 보여줍니다.

3. 모듈형 설계의 힘

ADVISOR MODELS의 가장 큰 장점은 모듈성입니다:

Advisor 교체: 다른 도메인용 Advisor로 쉽게 교체 가능

Student 교체: GPT-4o → GPT-5 → Claude로 유연하게 전환

Capability 보존: Student의 원래 능력 완벽 유지

기존 파인튜닝의 단점(Catastrophic Forgetting, 모델 종속성)을 모두 해결합니다.

한계와 미래 방향

솔직히 말하면, 아직 해결되지 않은 문제들도 있습니다.

1. 순수 추론 태스크에서의 제한적 효과

수학에서 62% → 65%로 미미한 개선. "일반적인 추론 능력"을 조언으로 가르치기는 어렵습니다.

Advisor가 잘하는 것: 도메인 지식 전달, 선호도 학습 Advisor가 어려워하는 것: 순수 논리적 추론 개선

2. 훈련 비용

RL 훈련 중 Student API를 많이 호출해야 합니다:

논문 기준: 400 × 20 × 8 ≈ 64,000 API 콜

GPT-4o mini 기준: ~$10

프론티어 모델로 직접 훈련 시 비용 급증

해결책: Cross-student transfer 활용 (저렴한 모델로 훈련 → 비싼 모델에 적용)

3. Over-Advising

복잡한 태스크에서 Advisor가 "조언"이 아닌 "정답"을 제공하는 경향.

의도된 설계와 다르지만, 오히려 이를 활용하여 도메인 전문가 소형 모델 + 일반 능력 대형 모델 하이브리드 시스템 구축 가능.

4. 도메인 일반화

현재는 특정 태스크(리뷰, 번역, 세금)에서만 검증. 다른 도메인으로의 일반화는 추가 연구 필요.

마무리하며

ADVISOR MODELS는 Black-Box LLM을 커스터마이징하는 새로운 패러다임을 제시합니다.

핵심 인사이트 정리:

✅ 작은 모델이 큰 모델에게 조언 가능 - 역할의 분리가 핵심 ✅ 동적 조언이 정적 프롬프트보다 효과적 - 개인화/적응 태스크에서 필수 ✅ 모듈형 설계로 유연성과 견고성 확보 - Catastrophic Forgetting 방지 ✅ Cross-student Transfer - 훈련 비용 절감 및 배포 유연성

개인적으로 이 논문이 흥미로운 이유는, **"AI가 AI를 가르친다"**는 컨셉이 실제로 동작한다는 걸 실험적으로 보여줬기 때문입니다.

앞으로 이 방법이 더 발전하면, API 접근만 있어도 파인튜닝 수준의 커스터마이징이 가능해질지도 모르겠네요. 우리 각자에게 맞춤화된 AI 비서를 만드는 게 현실이 될 수도 있겠다는 생각이 듭니다. 😊

나도 이 방향으로 더 공부해봐야겠다는 생각이 드네요. 특히 개인화 AI나 도메인 적응 쪽에서 ADVISOR MODELS 프레임워크를 적용해볼 수 있을 것 같습니다.

참고 자료

논문: How to Train Your Advisor: Steering Black-Box LLMs with ADVISOR MODELS

arXiv: https://arxiv.org/abs/2510.02453

GitHub: https://github.com/az1326/advisor-models

저자: UC Berkeley (Parth Asawa*, Alan Zhu*, Matei Zaharia, Alexandros G. Dimakis, Joseph E. Gonzalez)

감사합니다! 😊