이번 겨울 NLP 프로젝트를 진행하면서 Query Expansion을 수행한 경험이 있는데요. 이후 IR에 관심이 생겨 Query Expansion by Prompting Large Language Models 논문을 읽어보았습니다. 이 논문은 검색 성능을 높이기 위해 Query Expansion을 수행할 때 LLM을 활용하는 방법을 제시하고 있습니다.
0. Abstract
- Query Expansion이 검색 시스템에서 recall, 즉 재현율을 향상시키기 위해 사용됨
- recall = 재현율 = (검색된 관련 문서 개수) / (전체 관련 문서 개수)
- 기존 전통적인 접근법: Pseudo-Relevance Feedback (PRF)
- 쿼리를 확장하기 위해 좋은 pseudo-relevant 문서 세트에 의존함
- 본 논문의 접근법: LLM
- LLM의 생성적, 창의적 능력에 의존하고, 모델에 내재된 지식을 활용함
- 다양한 프롬프트로 실험함
- zero-shot
- few-shot
- CoT → 가장 유용했음 (모델이 쿼리를 단계별로 분해하도록 함 → 원래 쿼리와 관련된 많은 용어를 제공)
- 실험은 MS-MARCO 와 BEIR 로 진행 → LLM에 의해 생성된 query expansion이 기존 방식보다 강력함
- MS-MARCO: 실제 웹 검색 환경을 반영한 대규모 정보 검색 데이터셋 (일반적인 웹 검색에 가까움)
- BEIR: 다양한 도메인(과학, 의료, 법률 등)의 검색 환경을 평가할 수 있는 다양한 벤치마크 데이터셋
1. Introduction
- Query Expansion (쿼리 확장)
- 검색 시스템의 recall(재현율)을 향상시키는 중요한 기술
- 원래 쿼리에 추가적인 검색어를 포함하여 더 많은 관련 문서를 검색할 수 있도록 함
- 전통적인 Query Expansion 방식: Pseudo-Relevance Feedback (PRF)
- 기존 검색 결과 중 일부를 "의사 관련 문서(Pseudo-Relevant Documents)"로 간주하고,
- 해당 문서에서 추가적인 검색어를 추출하여 쿼리를 확장하는 방식
- 하지만 초기 검색된 문서가 정확하지 않다면, 확장된 쿼리도 부정확할 위험이 있음
- 특히 짧거나 애매한 쿼리에서는 효과가 떨어질 가능성이 큼
- LLM을 활용한 새로운 Query Expansion 접근법 제안
- 기존 PRF 방식과 달리, 검색된 문서에 의존하지 않고도 쿼리를 확장할 수 있음
- LLM의 생성(generative) 능력과 내재된 지식(knowledge) 활용
- 다양한 프롬프트 기법 실험 → 쿼리 확장을 수행하는 최적의 방법 찾기
- 주요 실험 목표
- Zero-shot, Few-shot, Chain-of-Thought (CoT) 프롬프트를 비교하여 어떤 방식이 가장 효과적인지 분석
- CoT 프롬프트가 가장 효과적
- 모델이 쿼리를 단계적으로 분석하도록 유도 → 보다 풍부한 연관 검색어를 생성
- 다양한 LLM 크기(Flan-T5, Flan-UL2)에서 실험하여 모델 크기에 따른 성능 차이 분석
- 논문의 주요 기여
- 다양한 프롬프트(Zero-shot, Few-shot, CoT)를 활용한 Query Expansion 방식 실험
- LLM 기반 Query Expansion과 기존 PRF 방식의 성능 비교 (MS-MARCO, BEIR 데이터셋 활용)
- LLM 크기에 따른 성능 분석 (60M~20B 파라미터 모델 실험)
2. Related Works
- Query Expansion
- 검색 시스템의 쿼리를 확장하여 더 많은 관련 문서를 검색할 수 있도록 하는 기술
- 기존 연구들은 크게 Lexical Knowledge Base, Pseudo-Relevance Feedback (PRF), Neural Query Expansion 방식으로 나뉨
- 전통적인 Query Expansion 방법
- 어휘 지식 기반(Query Expansion with Lexical Knowledge Bases)
- WordNet 같은 사전 구축된 어휘 데이터베이스를 활용하여 유사어 및 관련 개념을 기반으로 쿼리를 확장
- 문제점:
- 정적인 데이터베이스이므로 맥락을 반영하지 못할 가능성이 큼
- Pseudo-Relevance Feedback (PRF) 방식
- 초기 검색된 문서를 기반으로 확장된 검색어를 추출하는 방식
- 문제점:
- 검색된 문서가 부정확하면 잘못된 검색어를 확장할 위험이 있음
- 짧거나 애매한 쿼리에서는 효과가 떨어질 수 있음
- 신경망 기반 쿼리 확장(Neural Query Expansion)
- Word2Vec, BERT 기반 모델을 활용하여 의미적으로 연관된 단어를 예측하여 쿼리를 확장하는 방식
- 문제점:
- 특정 데이터에 맞춰 모델을 훈련하거나 미세 조정(Fine-tuning)해야 하므로, 일반적인 검색 시스템에 적용하기 어려울 수 있음
- ⇒ 본 논문의 방법론은 학습이나 미세 조정 없이도 general-purpose LLM에 내재된 능력을 활용할 수 있음
- 어휘 지식 기반(Query Expansion with Lexical Knowledge Bases)
- LLM을 활용한 쿼리 확장 연구
- 최근 연구에서는 대형 언어 모델(LLM, Large Language Models)을 활용하여 쿼리 확장을 수행하는 방법이 연구됨
- 대표적인 연구: Query2Doc [31]
- LLM을 활용하여 쿼리를 전체 문서 형식으로 변환(Query-to-Document)
- 검색 엔진이 보다 풍부한 문맥을 이해하도록 함
- 문제점: 기존 연구에서는 Few-shot 프롬프트만 실험하거나, 전체 문서를 생성하는 방식에 집중함
- 본 논문의 차별점
- 기존 연구들은 특정 프롬프트(Few-shot)만 실험하거나, 전체 문서 생성을 목표로 함
- 반면, 본 논문은 Zero-shot, Few-shot, CoT(Chain-of-Thought) 등 다양한 프롬프트를 비교하여 최적의 Query Expansion 방법을 탐색
- 또한 검색된 문서(Top-3 PRF 문서)를 활용하는 방식(CoT/PRF)도 실험하여 추가적인 성능 향상을 분석
3. Methodology
Query Expansion 문제 정의
- 주어진 쿼리 $q$에 대해 확장된 쿼리 $q′$을 생성하는 문제로 정의
- 확장된 쿼리 $q′$는 원래 쿼리보다 더 많은 관련 문서를 검색할 수 있도록 도움
- LLM을 활용하여 쿼리 확장을 수행하며, 확장된 쿼리는 다음과 같이 구성됨:
- $$ q' = \text{Concat}(q, q, q, q, q, \text{LLM}(\text{prompt}_q)) $$
- Concat 연산: 원래 쿼리를 5번 반복하여 중요도를 높이고, LLM이 생성한 확장된 검색어를 추가
- Prompt: LLM이 쿼리 확장을 수행할 수 있도록 주어지는 입력 텍스트
사용된 프롬프트 유형 (Prompts for Query Expansion)
- 다양한 프롬프트 기법을 실험하여 최적의 쿼리 확장 방식 탐색
- 총 8가지 프롬프트 유형을 사용
(1) | Q2D (Query-to-Document) | • 쿼리를 기반으로 관련 문서를 생성하도록 유도하는 프롬프트 • 기존 연구 Query2Doc [31]에서 사용된 방식 |
Q2D/ZS | Q2D + 추가 예제 없이 실행 | |
Q2D/PRF | Q2D + 검색된 PRF 문서를 추가하여 문맥 정보를 반영 | |
(2) | Q2E (Query-to-Expansion) | • 쿼리를 기반으로 확장된 키워드 목록을 생성하도록 유도하는 프롬프트 |
Q2E/ZS (Zero-shot) | Q2E + 추가 예제 없이 실행 | |
Q2E/PRF | Q2E + PRF 문서를 추가하여 확장 키워드 생성 | |
(3) | CoT (Chain-of-Thought) | • 쿼리를 단계적으로 분석하며 확장된 키워드를 생성하는 방식 • CoT는 LLM이 추론 과정을 설명하면서 쿼리를 확장하도록 유도 |
CoT/PRF | CoT + PRF 문서를 추가하여 더욱 정교한 확장 가능 |
4. Experiments
- 실험 목표
- LLM 기반 쿼리 확장이 기존 Pseudo-Relevance Feedback (PRF) 방식보다 성능이 뛰어난지 검증
- Zero-shot, Few-shot, Chain-of-Thought (CoT) 프롬프트를 비교하여 최적의 쿼리 확장 방식 분석
- LLM 모델 크기에 따라 성능 차이가 있는지 확인
4.1 Baselines
- BM25 (기본 검색)
- 쿼리 확장 없이 원래 쿼리만 사용
- Pseudo-Relevance Feedback (PRF) 방식
- 검색된 문서에서 추가적인 검색어를 추출하여 쿼리를 확장
- 사용된 PRF 방법:
- Bo1: Bose-Einstein 1 가중치 방식
- Bo2: Bose-Einstein 2 가중치 방식
- KL: Kullback-Leibler 발산 기반 방식
- PRF 방식은 Recall 향상에는 효과적이지만, 검색 상위 문서 품질(MRR, NDCG)이 저하될 가능성이 있음
4.2 Language Models
- 다양한 크기의 Flan-T5 및 Flan-UL2 모델을 실험
- Flan-T5-Small (60M parameters)
- Flan-T5-Base (220M parameters)
- Flan-T5-Large (770M parameters)
- Flan-T5-XL (3B parameters)
- Flan-T5-XXL (11B parameters)
- Flan-UL2 (20B parameters)
- LLM 크기가 커질수록 쿼리 확장 성능이 얼마나 향상되는지 분석
- 소형 모델에서도 효과적인 쿼리 확장 방법이 존재하는지 확인
4.3 Metrics
- Recall@1K
- 검색된 상위 1,000개 문서 중에서 실제 관련 문서가 포함된 비율
- Recall(재현율)이 높을수록 검색된 문서 안에 더 많은 정답이 포함됨
- 첫 번째 검색 단계(First-Stage Retrieval)에서 중요한 지표
- MRR@10 (Mean Reciprocal Rank @10)
- 정답 문서가 검색 결과에서 얼마나 빠르게 발견되는지 평가
- 정확한 문서가 상위에 나올수록 높은 점수
- $rank_i$: 정답 문서가 등장한 첫 번째 순위
- 상위 랭킹 문서의 품질을 측정하는 지표
- NDCG@10 (Normalized Discounted Cumulative Gain @10)
- 검색된 문서의 순위를 고려한 성능 평가
- 상위 10개 검색 결과에서 높은 순위에 중요한 문서가 포함될수록 점수가 높아짐
- 검색된 문서의 "순위 품질"을 평가하는 지표
5. Results
5.1 MS-MARCO Passage Ranking
- PRF 방식(Bo1, Bo2, KL)은 Recall@1K를 향상시키지만, MRR@10과 NDCG@10은 감소하는 경향이 있음 (검색 품질 저하)
- LLM 기반 쿼리 확장은 Recall@1K뿐만 아니라 MRR@10과 NDCG@10도 향상됨
- CoT(Chain-of-Thought) 기반 확장이 가장 높은 성능을 기록
- PRF 문서를 추가한 CoT/PRF 방식이 최상의 성능을 보임
5.2 BEIR
- PRF 방식은 특정 도메인(의료, 과학 논문 등)에서는 효과적이지만, 전반적인 성능은 불안정
- LLM 기반 확장은 다양한 도메인에서도 균일한 성능을 유지
- 특히 질문-답변 스타일(Query-to-Answer) 데이터셋에서 LLM 확장이 강력한 성능을 보임
- Q2D/PRF와 CoT 방식이 가장 높은 Recall@1K 성능을 기록
5.3 The Impact of Model Size
- 모델이 클수록 성능이 향상되는 경향이 있음
- CoT 방식은 비교적 작은 모델(3B)에서도 기존 PRF를 뛰어넘는 성능을 보임
- PRF 문서를 추가하면(CoT/PRF) 작은 모델에서도 더 안정적인 성능을 낼 수 있음
- 실제 검색 시스템에서 활용하려면 가장 현실적인 대안
- CoT 방식을 경량 모델에서도 최적화하는 연구가 필요
6. Limitations & Future Works
(1) Sparse Retrieval (BM25) 중심 연구
- 본 연구는 BM25 기반 희소 검색(Sparse Retrieval) 시스템에서 실험을 진행
- 최근 Dense Retrieval (BERT, DPR, ColBERT 등) 방식이 부상하고 있음
- Dense Retrieval에서는 어휘 격차(vocabulary gap) 문제를 덜 겪기 때문에, Query Expansion의 효과가 제한적일 가능성
- Dense Retrieval 모델에서도 LLM 기반 Query Expansion의 효과 검증 필요
(2) 특정 LLM 모델(FLAN-T5, FLAN-UL2) 중심 연구
- 본 연구에서는 FLAN-T5 및 FLAN-UL2 모델에 초점을 맞춰 실험을 진행
- 하지만, 최근 GPT-4, Claude, LLaMA 등 다양한 LLM이 등장하고 있음
- 다른 LLM에서도 같은 프롬프트 기법이 효과적인지 검증 필요
- 오픈소스 LLM vs. 상용 API 기반 LLM(GPT-4) 간 성능 차이 분석
(3) 프롬프트 최적화 연구 부족
- 본 연구에서는 사전에 정의된 몇 가지 프롬프트(Zero-shot, Few-shot, CoT 등)만 실험
- 하지만 프롬프트 최적화(AutoPrompt, Prompt Tuning, Instruction Tuning 등)를 수행하면 성능이 향상될 가능성이 있음
- 자동화된 프롬프트 최적화(AutoPrompt, Instruction Tuning) 연구 필요
- 쿼리 유형(FAQ, 법률, 의료 등)에 따라 맞춤형 프롬프트 적용 연구
(4) LLM 기반 Query Expansion의 실시간 적용 문제
- LLM을 활용한 쿼리 확장은 일반적인 검색 시스템에서 실시간 적용이 어려울 가능성이 있음
- 기존 PRF 방식은 단순한 키워드 매칭이므로 빠르게 실행되지만,→ LLM을 활용한 확장은 계산 비용이 크고, 응답 시간이 길어질 수 있음
- LLM의 Distillation(지식 증류) 기법을 활용하여, 경량화된 모델로 Query Expansion 수행
- 대형 LLM(20B 모델)에서 생성한 확장 쿼리를 작은 모델(770M~3B)에서 활용하는 방법 연구
7. Conclusion
- 본 논문에서는 LLM 기반 Query Expansion 방법을 연구함.
- 기존 PRF 기반 Query Expansion과 달리, LLM은 초기 검색된 문서에 제한되지 않으며, 기존 방법으로 찾기 어려운 확장 키워드를 생성할 수 있음.
- 제안된 방법은 간단하며, LLM에 쿼리를 입력하고 모델이 생성한 확장 키워드를 원래 쿼리에 추가하는 방식.
- CoT(Chain-of-Thought) 프롬프트가 특히 효과적인 Query Expansion 방식으로 확인됨.
- CoT 프롬프트는 모델이 상세한 설명을 생성하도록 유도하며, 이를 통해 더 다양한 키워드를 포함할 수 있음.
- PRF 문서를 포함하면 검색 성능이 향상되며, 특히 작은 모델에서도 더 안정적인 성능을 보임.
- IR(Information Retrieval) 과제인 Query Expansion이 LLM의 도움을 받을 수 있음을 실험적으로 입증함.
- LLM 기술이 발전할수록 IR 분야에서도 그 활용 가능성이 더욱 확대될 것으로 기대됨.
- 이는 검색 시스템 연구자와 실무자 모두에게 흥미로운 발전 방향을 제시함.
'study' 카테고리의 다른 글
논문 리뷰 | NLP | Query2doc: Query Expansion with Large Language Models (1) | 2025.03.08 |
---|---|
논문 리뷰 | 추천시스템 | Wide & Deep Learning for Recommender Systems (5) | 2024.08.12 |