bsbi1 [Information Retrieval] 정보 검색 4. Index construction 해당 포스팅은 필자의 시험 대비 목적으로 업로드하여 생략된 내용, 온전하지 못한 부분이 포함되어 있습니다 1. Reuters RCV1- 1996년부터 1997년까지 일 년 동안의 뉴스 기사를 모은 데이터셋- 80 만개의 문서로 구성되어 있고 총 텍스트 용량은 1GB = 인덱스 유무 효율성 테스트 - 문서 개수 800000개- 각 문서당 평근 토큰 개수는 200개- 테스트 데이터셋에 포함된 고유 텀 개수 400000개= 중복 제거하고 남은 고유 텀 40만 개- 토큰당 평균 6바이트(공백 포함), 4.5바이트(공백 제거)- 평균적으로 7.5바이트- non-positional postings= 모든 문서에서 텀의 등장 빈도만 기록한 총 항목의 수 1억 개 = 모든 문서에서 단어가 등장한 총 횟수 1억 .. 2024. 10. 30. 이전 1 다음 728x90