Tokenization1 [Information Retrieval] 정보 검색 2. The term vocabulary and postings lists 1. Term * Tokenization“Friends, Romans and Countrymen” 라는 input이 들어오면토큰화된 결과인 토큰들이 아웃풋으로 나온다friends, romans, countrymen normalization 정규화 = 각 토큰은 index entry의 후보가 되고 데이터 검색할 때 중요한 term으로 저장되는 것들을 의미함소문자로 변환하거나 특정 문자를 제거하는 등 표준화 토큰화 과정에서 의미 없는 단어를 제거하기 위해불용어 리스트를 사용함 * Tokenization - 문서 단위- 인덱싱에 사용되는 단위 문서를 정의함- indexing granularity = 인덱싱의 세분화 - 책 전체를 하나의 문서로 간주할지, 각 챕터를 개별 문서로 간주할지 결정문서가 커질수록 재.. 2024. 10. 27. 이전 1 다음 728x90