[ Computer Science ]/Information Retrieval

1. Problems with Boolean Search - 결과가 너무 많음단순히 포함한다는 조건만으로 너무 많이 도출. 사용성 악화- 조건을 충족하거나 충족하지 않는 이분법적 방식결과의 순위 매기기 불가능. 중요한 결과와 덜 중요한 결과 구분 불가 2. 순위 기반 검색의 기초 - Scoring* 순위 기반 검색 장점- 검색 결과가 많더라도 정렬해서 보여줄 수 있음- 사용자도 더 중요한 문서를 쉽고 찾게 확인 가능 * 순서 부여 방법- 특정 쿼리와 문서가 얼마나 잘 일치하는지 문서마다 점수 부여 [0,1]- 점수가 높을수록 관련성 높은 문서 * 쿼리와 문서의 매칭 점수 계산- (쿼리, 문서) 쌍에 점수를 부여해서 그 점수 기반으로 관련성 계산- 쿼리 텀이 문서에 없다면 점수는 0점- 쿼리 텀이 문서 안..
1. Types of Compression Techniques압축은 크게 손실 허용 압축과 손실 비허용 압축이 있음- 손실 비허용 압축은 모든 정보를 보존함- 손실 허용 압축은 일부 정보는 버리는 방법으로 더 나은 압축 비율을 달성할 수 있음 * 손실 압축의 예시 - 케이스 폴딩 : 대소문자 통일- 불용어 제거 : 의미가 없는 문법적인 역할을 단어를 제거해서 핵심만 남김- 어간 추출 : stemming. 단어의 어근을 추출해서 유사어의 의미를 단순화  * RCV1 데이터셋에 전처리 적용 - non positional postings : 텀이 등장하는 빈도 수 정보- postitional postings : 텀이 등장하는 위치 정보를 포함 - unfiltered  전처리 안 한 원본 - no number ..
해당 포스팅은 필자의 시험 대비 목적으로 업로드하여 생략된 내용, 온전하지 못한 부분이 포함되어 있습니다   1. Reuters RCV1- 1996년부터 1997년까지 일 년 동안의 뉴스 기사를 모은 데이터셋-  80 만개의 문서로 구성되어 있고 총 텍스트 용량은 1GB  = 인덱스 유무 효율성 테스트 - 문서 개수 800000개- 각 문서당 평근 토큰 개수는 200개- 테스트 데이터셋에 포함된 고유 텀 개수 400000개= 중복 제거하고 남은 고유 텀 40만 개- 토큰당 평균 6바이트(공백 포함), 4.5바이트(공백 제거)- 평균적으로 7.5바이트- non-positional postings= 모든 문서에서 텀의 등장 빈도만 기록한 총 항목의 수 1억 개 = 모든 문서에서 단어가 등장한 총 횟수 1억 ..
1. dictionary data structure사전에는 term , document frequency, postings list 를 저장하고 있음brutus 라는 단어는 1, 2, 4, 11, 31 등의 문서에서 나오고 단어가 등장하는 문서의 id는 postings list에 저장함 * a simple dictionary각 단어에 대해 구조체를 정의하고 구조체 내에 term 단어, docFreq 문서 빈도, postings 포스팅 리스트를 저장함 검색할 때 요소를 빠르게 찾기 위해서 메모리에 효율적으로 저장해야하고그 방법으로는 해시 테이블과 트리가 있음 * hash table각 단어를 고유한 정수로 변환하는 해싱을 통해 얻은 그 정수를 인덱스로 데이터를 저장 장점 - 트리보다 더 빠르게 검색 가능 단..
1. Term * Tokenization“Friends, Romans and Countrymen” 라는 input이 들어오면토큰화된 결과인 토큰들이 아웃풋으로 나온다friends, romans, countrymen  normalization 정규화 = 각 토큰은 index entry의 후보가 되고 데이터 검색할 때 중요한 term으로 저장되는 것들을 의미함소문자로 변환하거나 특정 문자를 제거하는 등 표준화 토큰화 과정에서 의미 없는 단어를 제거하기 위해불용어 리스트를 사용함 * Tokenization - 문서 단위- 인덱싱에 사용되는 단위 문서를 정의함- indexing granularity = 인덱싱의 세분화 - 책 전체를 하나의 문서로 간주할지, 각 챕터를 개별 문서로 간주할지 결정문서가 커질수록 재..
정보 검색- 대규모 정보 컬렉션에서 정보 요구 사항을 충족하는 비구조화된 자료를 찾는 것 1996 주로 텍스트 위주인 비정형 데이터의 양이 더 많았으나 효율적인 활용이 어려웠음당시 기업들의 비즈니스 관련 시스템은 정형 데이터 기반이라 정형에 더 큰 가치를 둠 2006 웹 기반 정보가 대량 생성되면서 비정형 데이터 양도 늘었다비정형 데이터의 시장 가치도 급상승. 검색 엔진 회사들이 비정형 데이터도 효율적으로 검색 활용할 수 있도록 했기 때문이다 비정형 데이터를 다루는 기술의 가진 그룹들의 등장과 임팩트 유닉스에서 파일에 등장하는 키워드를 찾기 위해 사용할 수 있는 것은 grepgrep 명령은 파일에서 패턴을 검색하고 일치하는 각 줄을 표준 출력에 기록-v 옵션을 추가해서 중복 제외 가능- 현재 디렉토리의 ..
dev charlotte
'[ Computer Science ]/Information Retrieval' 카테고리의 글 목록