본문 바로가기

[ Computer Science ]67

[Information Retrieval] 정보 검색 6. Scoring, Term Weighting, and the Vector Space Model 1. Problems with Boolean Search - 결과가 너무 많음단순히 포함한다는 조건만으로 너무 많이 도출. 사용성 악화- 조건을 충족하거나 충족하지 않는 이분법적 방식결과의 순위 매기기 불가능. 중요한 결과와 덜 중요한 결과 구분 불가 2. 순위 기반 검색의 기초 - Scoring* 순위 기반 검색 장점- 검색 결과가 많더라도 정렬해서 보여줄 수 있음- 사용자도 더 중요한 문서를 쉽고 찾게 확인 가능 * 순서 부여 방법- 특정 쿼리와 문서가 얼마나 잘 일치하는지 문서마다 점수 부여 [0,1]- 점수가 높을수록 관련성 높은 문서 * 쿼리와 문서의 매칭 점수 계산- (쿼리, 문서) 쌍에 점수를 부여해서 그 점수 기반으로 관련성 계산- 쿼리 텀이 문서에 없다면 점수는 0점- 쿼리 텀이 문서 안.. 2024. 10. 31.
[Information Retrieval] 정보 검색 5. Index compression 1. Types of Compression Techniques압축은 크게 손실 허용 압축과 손실 비허용 압축이 있음- 손실 비허용 압축은 모든 정보를 보존함- 손실 허용 압축은 일부 정보는 버리는 방법으로 더 나은 압축 비율을 달성할 수 있음 * 손실 압축의 예시 - 케이스 폴딩 : 대소문자 통일- 불용어 제거 : 의미가 없는 문법적인 역할을 단어를 제거해서 핵심만 남김- 어간 추출 : stemming. 단어의 어근을 추출해서 유사어의 의미를 단순화  * RCV1 데이터셋에 전처리 적용 - non positional postings : 텀이 등장하는 빈도 수 정보- postitional postings : 텀이 등장하는 위치 정보를 포함 - unfiltered  전처리 안 한 원본 - no number .. 2024. 10. 31.
[Information Retrieval] 정보 검색 4. Index construction 해당 포스팅은 필자의 시험 대비 목적으로 업로드하여 생략된 내용, 온전하지 못한 부분이 포함되어 있습니다   1. Reuters RCV1- 1996년부터 1997년까지 일 년 동안의 뉴스 기사를 모은 데이터셋-  80 만개의 문서로 구성되어 있고 총 텍스트 용량은 1GB  = 인덱스 유무 효율성 테스트 - 문서 개수 800000개- 각 문서당 평근 토큰 개수는 200개- 테스트 데이터셋에 포함된 고유 텀 개수 400000개= 중복 제거하고 남은 고유 텀 40만 개- 토큰당 평균 6바이트(공백 포함), 4.5바이트(공백 제거)- 평균적으로 7.5바이트- non-positional postings= 모든 문서에서 텀의 등장 빈도만 기록한 총 항목의 수 1억 개 = 모든 문서에서 단어가 등장한 총 횟수 1억 .. 2024. 10. 30.
[SW Engineering] 소프트웨어 공학의 모든 것 연습문제 6장 서술형 소프트웨어 공학의 모든 것  ,  최은만  , 생능6장 설계 원리연습문제 서술형  1. 설계 작업은 기본구조설계와 상세설계로 나눌 수 있다. 각 단계에서 하는 일을 나누어 설명하라 (단계별 설계 작업 설명)    설계 작업은 기본구조설계와 상세설계로 나눠지며, 각 단계는 다음과 같은 작업을 수행한다.    - 기본구조설계: 시스템의 전반적인 아키텍처를 정의하는 단계로, 시스템의 주요 컴포넌트와 그들 간의 상호작용을 결정한다. 예를 들어, 시스템을 구성하는 모듈을 나누고 각 모듈의 역할을 정의하며, 모듈 간의 의존 관계와 데이터 흐름을 설정하는 작업을 포함한다.    - 상세설계: 기본구조설계를 바탕으로 각 모듈의 내부 구조와 세부 구현을 정의하는 단계이다. 각 모듈의 알고리즘과 데이터 구조를 설계하며, .. 2024. 10. 28.
[SW Engineering] 소프트웨어 공학의 모든 것 연습문제 5장 서술형 소프트웨어 공학의 모든 것  ,  최은만  , 생능5장 요구 모델링연습문제 서술형 1. 모델링은 어떤 작업이며 모델링 작업과 도메인 지식의 관계는 무엇인가 (모델링 작업과 도메인 지식)    모델링은 현실 세계의 문제 영역을 추상화하여 시각적 또는 수학적 표현으로 시스템을 설계하고 분석하는 작업이다. 모델링 작업에서는 도메인 지식이 매우 중요한데, 도메인 지식은 특정 문제 영역에 대한 전문적 이해와 관련된 정보를 의미한다. 이를 통해 모델링 작업이 문제를 정확히 반영하고 적합한 해결 방안을 제시할 수 있도록 한다. 모델링은 도메인 지식을 바탕으로 요구사항을 정리하고 시스템의 구조와 동작을 구체화하여, 결과적으로 프로젝트 이해 관계자들이 문제를 명확히 이해하고 해결 방안을 효과적으로 구현할 수 있도록 돕는.. 2024. 10. 28.
[SW Engineering] 소프트웨어 공학의 모든 것 연습문제 4장 서술형 소프트웨어 공학의 모든 것  ,  최은만  , 생능4장 요구 분석연습문제 서술형 1. 기능 요구와 비기능 요구는 무엇인지 그 차이점 위주로 설명하라 (차이점 설명)    기능 요구는 시스템이 수행해야 할 특정 동작이나 작업을 정의하는 요구사항으로, 사용자가 원하는 기능적 동작을 명시한다. 예를 들어, “사용자가 상품을 검색할 수 있어야 한다는 기능 요구에 해당한다. 반면, 비기능 요구는 시스템의 성능, 품질, 사용성, 안정성 등을 규정하여 시스템이 어떻게 동작해야 하는지를 나타낸다. 예를 들어, “응답 시간은 2초 이내여야 한다”는 비기능 요구이다. 주요 차이점은 기능 요구는 시스템의 무엇을 수행할지를 다루는 반면, 비기능 요구는 **어떻게** 수행할지를 다룬다는 점이다. 2. 기능 요구 종류를 나열하고.. 2024. 10. 28.
728x90