논문 리뷰 | NLP | Query Expansion by Prompting Large Language Models

study

논문 리뷰 | NLP | Query Expansion by Prompting Large Language Models

서연☘️ 2025. 2. 27. 17:36

이번 겨울 NLP 프로젝트를 진행하면서 Query Expansion을 수행한 경험이 있는데요. 이후 IR에 관심이 생겨 Query Expansion by Prompting Large Language Models 논문을 읽어보았습니다. 이 논문은 검색 성능을 높이기 위해 Query Expansion을 수행할 때 LLM을 활용하는 방법을 제시하고 있습니다.

0. Abstract

Query Expansion이 검색 시스템에서 recall, 즉 재현율을 향상시키기 위해 사용됨
- recall = 재현율 = (검색된 관련 문서 개수) / (전체 관련 문서 개수)
기존 전통적인 접근법: Pseudo-Relevance Feedback (PRF)
- 쿼리를 확장하기 위해 좋은 pseudo-relevant 문서 세트에 의존함
본 논문의 접근법: LLM
- LLM의 생성적, 창의적 능력에 의존하고, 모델에 내재된 지식을 활용함
- 다양한 프롬프트로 실험함
  - zero-shot
  - few-shot
  - CoT → 가장 유용했음 (모델이 쿼리를 단계별로 분해하도록 함 → 원래 쿼리와 관련된 많은 용어를 제공)
실험은 MS-MARCO 와 BEIR 로 진행 → LLM에 의해 생성된 query expansion이 기존 방식보다 강력함
- MS-MARCO: 실제 웹 검색 환경을 반영한 대규모 정보 검색 데이터셋 (일반적인 웹 검색에 가까움)
- BEIR: 다양한 도메인(과학, 의료, 법률 등)의 검색 환경을 평가할 수 있는 다양한 벤치마크 데이터셋

1. Introduction

Query Expansion (쿼리 확장)
- 검색 시스템의 recall(재현율)을 향상시키는 중요한 기술
- 원래 쿼리에 추가적인 검색어를 포함하여 더 많은 관련 문서를 검색할 수 있도록 함
전통적인 Query Expansion 방식: Pseudo-Relevance Feedback (PRF)
- 기존 검색 결과 중 일부를 "의사 관련 문서(Pseudo-Relevant Documents)"로 간주하고,
- 해당 문서에서 추가적인 검색어를 추출하여 쿼리를 확장하는 방식
- 하지만 초기 검색된 문서가 정확하지 않다면, 확장된 쿼리도 부정확할 위험이 있음
- 특히 짧거나 애매한 쿼리에서는 효과가 떨어질 가능성이 큼
LLM을 활용한 새로운 Query Expansion 접근법 제안
- 기존 PRF 방식과 달리, 검색된 문서에 의존하지 않고도 쿼리를 확장할 수 있음
- LLM의 생성(generative) 능력과 내재된 지식(knowledge) 활용
- 다양한 프롬프트 기법 실험 → 쿼리 확장을 수행하는 최적의 방법 찾기
주요 실험 목표
- Zero-shot, Few-shot, Chain-of-Thought (CoT) 프롬프트를 비교하여 어떤 방식이 가장 효과적인지 분석
- CoT 프롬프트가 가장 효과적
  - 모델이 쿼리를 단계적으로 분석하도록 유도 → 보다 풍부한 연관 검색어를 생성
- 다양한 LLM 크기(Flan-T5, Flan-UL2)에서 실험하여 모델 크기에 따른 성능 차이 분석
논문의 주요 기여
1. 다양한 프롬프트(Zero-shot, Few-shot, CoT)를 활용한 Query Expansion 방식 실험
2. LLM 기반 Query Expansion과 기존 PRF 방식의 성능 비교 (MS-MARCO, BEIR 데이터셋 활용)
3. LLM 크기에 따른 성능 분석 (60M~20B 파라미터 모델 실험)

2. Related Works

Query Expansion
- 검색 시스템의 쿼리를 확장하여 더 많은 관련 문서를 검색할 수 있도록 하는 기술
- 기존 연구들은 크게 Lexical Knowledge Base, Pseudo-Relevance Feedback (PRF), Neural Query Expansion 방식으로 나뉨
전통적인 Query Expansion 방법
1. 어휘 지식 기반(Query Expansion with Lexical Knowledge Bases)
  - WordNet 같은 사전 구축된 어휘 데이터베이스를 활용하여 유사어 및 관련 개념을 기반으로 쿼리를 확장
  - 문제점:
    - 정적인 데이터베이스이므로 맥락을 반영하지 못할 가능성이 큼
2. Pseudo-Relevance Feedback (PRF) 방식
  - 초기 검색된 문서를 기반으로 확장된 검색어를 추출하는 방식
  - 문제점:
    - 검색된 문서가 부정확하면 잘못된 검색어를 확장할 위험이 있음
    - 짧거나 애매한 쿼리에서는 효과가 떨어질 수 있음
3. 신경망 기반 쿼리 확장(Neural Query Expansion)
  - Word2Vec, BERT 기반 모델을 활용하여 의미적으로 연관된 단어를 예측하여 쿼리를 확장하는 방식
  - 문제점:
    - 특정 데이터에 맞춰 모델을 훈련하거나 미세 조정(Fine-tuning)해야 하므로, 일반적인 검색 시스템에 적용하기 어려울 수 있음
    - ⇒ 본 논문의 방법론은 학습이나 미세 조정 없이도 general-purpose LLM에 내재된 능력을 활용할 수 있음
LLM을 활용한 쿼리 확장 연구
- 최근 연구에서는 대형 언어 모델(LLM, Large Language Models)을 활용하여 쿼리 확장을 수행하는 방법이 연구됨
- 대표적인 연구: Query2Doc [31]
  - LLM을 활용하여 쿼리를 전체 문서 형식으로 변환(Query-to-Document)
  - 검색 엔진이 보다 풍부한 문맥을 이해하도록 함
  - 문제점: 기존 연구에서는 Few-shot 프롬프트만 실험하거나, 전체 문서를 생성하는 방식에 집중함
본 논문의 차별점
- 기존 연구들은 특정 프롬프트(Few-shot)만 실험하거나, 전체 문서 생성을 목표로 함
- 반면, 본 논문은 Zero-shot, Few-shot, CoT(Chain-of-Thought) 등 다양한 프롬프트를 비교하여 최적의 Query Expansion 방법을 탐색
- 또한 검색된 문서(Top-3 PRF 문서)를 활용하는 방식(CoT/PRF)도 실험하여 추가적인 성능 향상을 분석

3. Methodology

Query Expansion 문제 정의

주어진 쿼리 $q$에 대해 확장된 쿼리 $q′$을 생성하는 문제로 정의
- 확장된 쿼리 $q′$는 원래 쿼리보다 더 많은 관련 문서를 검색할 수 있도록 도움
LLM을 활용하여 쿼리 확장을 수행하며, 확장된 쿼리는 다음과 같이 구성됨:
- $$ q' = \text{Concat}(q, q, q, q, q, \text{LLM}(\text{prompt}_q)) $$
- Concat 연산: 원래 쿼리를 5번 반복하여 중요도를 높이고, LLM이 생성한 확장된 검색어를 추가
- Prompt: LLM이 쿼리 확장을 수행할 수 있도록 주어지는 입력 텍스트

사용된 프롬프트 유형 (Prompts for Query Expansion)

다양한 프롬프트 기법을 실험하여 최적의 쿼리 확장 방식 탐색
총 8가지 프롬프트 유형을 사용

(1)	Q2D (Query-to-Document)	• 쿼리를 기반으로 관련 문서를 생성하도록 유도하는 프롬프트 • 기존 연구 Query2Doc [31]에서 사용된 방식
	Q2D/ZS	Q2D + 추가 예제 없이 실행
	Q2D/PRF	Q2D + 검색된 PRF 문서를 추가하여 문맥 정보를 반영
(2)	Q2E (Query-to-Expansion)	• 쿼리를 기반으로 확장된 키워드 목록을 생성하도록 유도하는 프롬프트
	Q2E/ZS (Zero-shot)	Q2E + 추가 예제 없이 실행
	Q2E/PRF	Q2E + PRF 문서를 추가하여 확장 키워드 생성
(3)	CoT (Chain-of-Thought)	• 쿼리를 단계적으로 분석하며 확장된 키워드를 생성하는 방식 • CoT는 LLM이 추론 과정을 설명하면서 쿼리를 확장하도록 유도
	CoT/PRF	CoT + PRF 문서를 추가하여 더욱 정교한 확장 가능

4. Experiments

실험 목표
- LLM 기반 쿼리 확장이 기존 Pseudo-Relevance Feedback (PRF) 방식보다 성능이 뛰어난지 검증
- Zero-shot, Few-shot, Chain-of-Thought (CoT) 프롬프트를 비교하여 최적의 쿼리 확장 방식 분석
- LLM 모델 크기에 따라 성능 차이가 있는지 확인

4.1 Baselines

BM25 (기본 검색)
- 쿼리 확장 없이 원래 쿼리만 사용
Pseudo-Relevance Feedback (PRF) 방식
- 검색된 문서에서 추가적인 검색어를 추출하여 쿼리를 확장
- 사용된 PRF 방법:
  - Bo1: Bose-Einstein 1 가중치 방식
  - Bo2: Bose-Einstein 2 가중치 방식
  - KL: Kullback-Leibler 발산 기반 방식
- PRF 방식은 Recall 향상에는 효과적이지만, 검색 상위 문서 품질(MRR, NDCG)이 저하될 가능성이 있음

4.2 Language Models

다양한 크기의 Flan-T5 및 Flan-UL2 모델을 실험
- Flan-T5-Small (60M parameters)
- Flan-T5-Base (220M parameters)
- Flan-T5-Large (770M parameters)
- Flan-T5-XL (3B parameters)
- Flan-T5-XXL (11B parameters)
- Flan-UL2 (20B parameters)

LLM 크기가 커질수록 쿼리 확장 성능이 얼마나 향상되는지 분석
소형 모델에서도 효과적인 쿼리 확장 방법이 존재하는지 확인

4.3 Metrics

Recall@1K
- 검색된 상위 1,000개 문서 중에서 실제 관련 문서가 포함된 비율
- Recall(재현율)이 높을수록 검색된 문서 안에 더 많은 정답이 포함됨
- 첫 번째 검색 단계(First-Stage Retrieval)에서 중요한 지표
MRR@10 (Mean Reciprocal Rank @10)
- 정답 문서가 검색 결과에서 얼마나 빠르게 발견되는지 평가
- 정확한 문서가 상위에 나올수록 높은 점수
$$ MRR = \frac{1}{|Q|} \sum_{i=1}^{|Q|} \frac{1}{rank_i} $$
- $rank_i$: 정답 문서가 등장한 첫 번째 순위
- 상위 랭킹 문서의 품질을 측정하는 지표
NDCG@10 (Normalized Discounted Cumulative Gain @10)
- 검색된 문서의 순위를 고려한 성능 평가
- 상위 10개 검색 결과에서 높은 순위에 중요한 문서가 포함될수록 점수가 높아짐
- 검색된 문서의 "순위 품질"을 평가하는 지표

5. Results

5.1 MS-MARCO Passage Ranking

PRF 방식(Bo1, Bo2, KL)은 Recall@1K를 향상시키지만, MRR@10과 NDCG@10은 감소하는 경향이 있음 (검색 품질 저하)
LLM 기반 쿼리 확장은 Recall@1K뿐만 아니라 MRR@10과 NDCG@10도 향상됨
- CoT(Chain-of-Thought) 기반 확장이 가장 높은 성능을 기록
- PRF 문서를 추가한 CoT/PRF 방식이 최상의 성능을 보임

5.2 BEIR

PRF 방식은 특정 도메인(의료, 과학 논문 등)에서는 효과적이지만, 전반적인 성능은 불안정
LLM 기반 확장은 다양한 도메인에서도 균일한 성능을 유지
- 특히 질문-답변 스타일(Query-to-Answer) 데이터셋에서 LLM 확장이 강력한 성능을 보임
- Q2D/PRF와 CoT 방식이 가장 높은 Recall@1K 성능을 기록

5.3 The Impact of Model Size

모델이 클수록 성능이 향상되는 경향이 있음
CoT 방식은 비교적 작은 모델(3B)에서도 기존 PRF를 뛰어넘는 성능을 보임
PRF 문서를 추가하면(CoT/PRF) 작은 모델에서도 더 안정적인 성능을 낼 수 있음
- 실제 검색 시스템에서 활용하려면 가장 현실적인 대안
- CoT 방식을 경량 모델에서도 최적화하는 연구가 필요

6. Limitations & Future Works

(1) Sparse Retrieval (BM25) 중심 연구

본 연구는 BM25 기반 희소 검색(Sparse Retrieval) 시스템에서 실험을 진행
최근 Dense Retrieval (BERT, DPR, ColBERT 등) 방식이 부상하고 있음
- Dense Retrieval에서는 어휘 격차(vocabulary gap) 문제를 덜 겪기 때문에, Query Expansion의 효과가 제한적일 가능성
- Dense Retrieval 모델에서도 LLM 기반 Query Expansion의 효과 검증 필요

(2) 특정 LLM 모델(FLAN-T5, FLAN-UL2) 중심 연구

본 연구에서는 FLAN-T5 및 FLAN-UL2 모델에 초점을 맞춰 실험을 진행
하지만, 최근 GPT-4, Claude, LLaMA 등 다양한 LLM이 등장하고 있음
- 다른 LLM에서도 같은 프롬프트 기법이 효과적인지 검증 필요
- 오픈소스 LLM vs. 상용 API 기반 LLM(GPT-4) 간 성능 차이 분석

(3) 프롬프트 최적화 연구 부족

본 연구에서는 사전에 정의된 몇 가지 프롬프트(Zero-shot, Few-shot, CoT 등)만 실험
하지만 프롬프트 최적화(AutoPrompt, Prompt Tuning, Instruction Tuning 등)를 수행하면 성능이 향상될 가능성이 있음
- 자동화된 프롬프트 최적화(AutoPrompt, Instruction Tuning) 연구 필요
- 쿼리 유형(FAQ, 법률, 의료 등)에 따라 맞춤형 프롬프트 적용 연구

(4) LLM 기반 Query Expansion의 실시간 적용 문제

LLM을 활용한 쿼리 확장은 일반적인 검색 시스템에서 실시간 적용이 어려울 가능성이 있음
기존 PRF 방식은 단순한 키워드 매칭이므로 빠르게 실행되지만,→ LLM을 활용한 확장은 계산 비용이 크고, 응답 시간이 길어질 수 있음
- LLM의 Distillation(지식 증류) 기법을 활용하여, 경량화된 모델로 Query Expansion 수행
- 대형 LLM(20B 모델)에서 생성한 확장 쿼리를 작은 모델(770M~3B)에서 활용하는 방법 연구

7. Conclusion

본 논문에서는 LLM 기반 Query Expansion 방법을 연구함.
- 기존 PRF 기반 Query Expansion과 달리, LLM은 초기 검색된 문서에 제한되지 않으며, 기존 방법으로 찾기 어려운 확장 키워드를 생성할 수 있음.
- 제안된 방법은 간단하며, LLM에 쿼리를 입력하고 모델이 생성한 확장 키워드를 원래 쿼리에 추가하는 방식.
CoT(Chain-of-Thought) 프롬프트가 특히 효과적인 Query Expansion 방식으로 확인됨.
- CoT 프롬프트는 모델이 상세한 설명을 생성하도록 유도하며, 이를 통해 더 다양한 키워드를 포함할 수 있음.
- PRF 문서를 포함하면 검색 성능이 향상되며, 특히 작은 모델에서도 더 안정적인 성능을 보임.
IR(Information Retrieval) 과제인 Query Expansion이 LLM의 도움을 받을 수 있음을 실험적으로 입증함.
- LLM 기술이 발전할수록 IR 분야에서도 그 활용 가능성이 더욱 확대될 것으로 기대됨.
- 이는 검색 시스템 연구자와 실무자 모두에게 흥미로운 발전 방향을 제시함.

'study' 카테고리의 다른 글

논문 리뷰 \| NLP \| Query2doc: Query Expansion with Large Language Models (1)	2025.03.08
논문 리뷰 \| 추천시스템 \| Wide & Deep Learning for Recommender Systems (5)	2024.08.12

현재글논문 리뷰 | NLP | Query Expansion by Prompting Large Language Models

ssseoyneee

이것저것 공부한 걸 올려요 ✏️

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

ssseoyneee

논문 리뷰 | NLP | Query Expansion by Prompting Large Language Models

0. Abstract

1. Introduction

2. Related Works

3. Methodology

Query Expansion 문제 정의

사용된 프롬프트 유형 (Prompts for Query Expansion)

4. Experiments

4.1 Baselines

4.2 Language Models

4.3 Metrics

5. Results

5.1 MS-MARCO Passage Ranking

5.2 BEIR

5.3 The Impact of Model Size

6. Limitations & Future Works

7. Conclusion

'study' 카테고리의 다른 글

'study'의 다른글

티스토리툴바

논문 리뷰 | NLP | Query Expansion by Prompting Large Language Models

0. Abstract

1. Introduction

2. Related Works

3. Methodology

Query Expansion 문제 정의

사용된 프롬프트 유형 (Prompts for Query Expansion)

4. Experiments

4.1 Baselines

4.2 Language Models

4.3 Metrics

5. Results

5.1 MS-MARCO Passage Ranking

5.2 BEIR

5.3 The Impact of Model Size

6. Limitations & Future Works

7. Conclusion

'study' 카테고리의 다른 글

'study'의 다른글

관련글

티스토리툴바