개념정리/화일처리및응용

화일 처리 및 응용 공부#20 (텍스트를 위한 화일)

한반가 2021. 6. 30. 14:51

2021.06.23 - [이론공부/화일처리및응용] - 화일처리 및 응용 공부 #19 (직접화일2)


텍스트를 위한 화일

  • 텍스트를 데이터로 구성된 문서를 포함하고 있는 레코드 검색에 이용할 수 있는 화일
    - ex) 학생의 자기소개, 신문 기사, 사전의 용어, 인터넷 사이트에 대한 설명정보
  • 키워드 : 텍스트 데이터에 대한 탐색 키 값
  • 하나의 레코드를 식별하기 위하여 텍스트 필드는 여러 개의 키워드가 사용될 수 있다.
    -ex) 학번이 123456인 학생의 레코드의 자기소개 필드에 "데이터베이스 시스템과 질의어에 대한 지식을 보유하고 있다" 라고 기술되어 있다고 가정하면
    - "데이터베이스" "시스템" "질의어" 라는 키워드로 학번이 123456인 학생 레코드를 검색할 수 있다.
  • 응용분야
    - digital office filing, digital library, image database, 기사 검색
    - 인터넷 검색엔진의 핵심기술 이다.

 

역 리스트 화일

  • 텍스트 필드를 지원하는 대표적 화일 구조

  • 역 리스트 화일에서는 인덱스 엔트리가 여러개의 포인터를 포함 할 수 있을 뿐 아니라, 하나의 레코드에 대한 포인터가 상이한 인덱스 엔트리에 중복해서 여러번 포함 가능하다

    - 역 화일 에서는 인덱스 엔트리가 여러 개의 포인터를 포함 할 수 있지만 화일내에서 이 포인터들은 상이하다

역 리스트 화일 구조

 

 

 

역 리스트 화일의 검색

근접도 계산에 가중치가 사용된다

 

시그니처 화일

  • 시그니처 화일
    • 기본 아이디어는 개략적 필터 방싱에 기반
    • 부적격 데이터를 우선적으로 제외
    • 전체 화일의 내용을 순차적으로 검색하지 않고, 화일의 내용을 코드화해서 작은 공간을 차지하는 후보데이타를 걸러낸 뒤에 이들을 검사해서 목표 데이터를 검색하는 방법
  • 접근 방법
    1. 문서들을 텍스트 화일에 순차적으로 저장
    2. 이 문서들에 대한 문서 시그니처, 해시 코드된 비트 패던들을 시그니처 화일에 저장
    3. 질의문 처리시 시그니처 화일을 먼저 검사해서 부적격 문서를 걸러냄
    4. 나머지 문서들을 검사해서 결과를 생성

  • 시그니처는 일반적으로 중첩 코딩 방법을 이용하여 생성함

 

중첩 코딩 생성 방법

중첩 코딩 생성과정
논리연산식 이해 자료

자료구조, 기타 다른 수업에서 들었을 것이기해 간단하게 논리 연산식 내용은 이미지 자료로 대체 

 

중첩 코딩 예시 m은 1 비트의 갯수 D 는 문서 수, F는 시그니처 비트 개수

 

시그니처 화일을 이용한 검색

시그니처 화일의 장단점

풀텍스트 검색보다 빠름, 대규모 DB에서는 연산과정등의 이유로 속도저하가 발생함

 

 

시그니처 화일 구조

 

수업 시간 부족으로 생략된 내용

더보기

 

검색 과정

성능향상을 위한 방법

 

시그니처 화일 성능 향상 방안