[SOSP'25] HedraRAG: Co-Optimizing Generation and Retrieval for Heterogeneous RAG Workflows
·
[ Laboratory ]/Paper review
HedraRAG: Coordinating LLM Generation and Database Retrieval in Heterogeneous RAG Servinghttps://dl.acm.org/doi/10.1145/3731569.3764806https://sigops.org/s/conferences/sosp/2025/schedule.html summaryLLM이 답변을 제공하기 위해서는 검색과 생성의 단계를 거치게 되는데 검색과 생성은 각각 CPU와 GPU를 사용하기 때문에 작업 단계마다 사용하는 하드웨어 자원이 다르다. 작업이 단순했던 과거와 달리 점점 더 다단계 추론이 복잡해지고 목적에 따라 워크플로우의 구조가 다양해지기 때문에 리소스를 효율적으로 사용하기 어렵다. 또한 LLM은 토큰을 조금씩 생성해..