텍스트를 데이터로 구성된 문서를 포함하고 있는 레코드 검색에 이용할 수 있는 화일 - ex) 학생의 자기소개, 신문 기사, 사전의 용어, 인터넷 사이트에 대한 설명정보
키워드 : 텍스트 데이터에 대한 탐색 키 값
하나의 레코드를 식별하기 위하여 텍스트 필드는 여러 개의 키워드가 사용될 수 있다. -ex) 학번이 123456인 학생의 레코드의 자기소개 필드에 "데이터베이스 시스템과 질의어에 대한 지식을 보유하고 있다" 라고 기술되어 있다고 가정하면 - "데이터베이스" "시스템" "질의어" 라는 키워드로 학번이 123456인 학생 레코드를 검색할 수 있다.
응용분야 - digital office filing, digital library, image database, 기사 검색 - 인터넷 검색엔진의 핵심기술 이다.
역 리스트 화일
텍스트 필드를 지원하는 대표적 화일 구조
역 리스트 화일에서는 인덱스 엔트리가 여러개의 포인터를 포함 할 수 있을 뿐 아니라, 하나의 레코드에 대한 포인터가 상이한 인덱스 엔트리에 중복해서 여러번 포함 가능하다
- 역 화일 에서는 인덱스 엔트리가 여러 개의 포인터를 포함 할 수 있지만 화일내에서 이 포인터들은 상이하다
역 리스트 화일 구조
역 리스트 화일의 검색
근접도 계산에 가중치가 사용된다
시그니처 화일
시그니처 화일
기본 아이디어는 개략적 필터 방싱에 기반
부적격 데이터를 우선적으로 제외
전체 화일의 내용을 순차적으로 검색하지 않고, 화일의 내용을 코드화해서 작은 공간을 차지하는 후보데이타를 걸러낸 뒤에 이들을 검사해서 목표 데이터를 검색하는 방법
접근 방법 1. 문서들을 텍스트 화일에 순차적으로 저장 2. 이 문서들에 대한 문서 시그니처, 해시 코드된 비트 패던들을 시그니처 화일에 저장 3. 질의문 처리시 시그니처 화일을 먼저 검사해서 부적격 문서를 걸러냄 4. 나머지 문서들을 검사해서 결과를 생성
시그니처는 일반적으로 중첩 코딩 방법을 이용하여 생성함
중첩 코딩 생성 방법
중첩 코딩 생성과정논리연산식 이해 자료
자료구조, 기타 다른 수업에서 들었을 것이기해 간단하게 논리 연산식 내용은 이미지 자료로 대체