인덱스 압축1 [Information Retrieval] 정보 검색 5. Index compression 1. Types of Compression Techniques압축은 크게 손실 허용 압축과 손실 비허용 압축이 있음- 손실 비허용 압축은 모든 정보를 보존함- 손실 허용 압축은 일부 정보는 버리는 방법으로 더 나은 압축 비율을 달성할 수 있음 * 손실 압축의 예시 - 케이스 폴딩 : 대소문자 통일- 불용어 제거 : 의미가 없는 문법적인 역할을 단어를 제거해서 핵심만 남김- 어간 추출 : stemming. 단어의 어근을 추출해서 유사어의 의미를 단순화 * RCV1 데이터셋에 전처리 적용 - non positional postings : 텀이 등장하는 빈도 수 정보- postitional postings : 텀이 등장하는 위치 정보를 포함 - unfiltered 전처리 안 한 원본 - no number .. 2024. 10. 31. 이전 1 다음 728x90