컴퓨터 보조 기억 장치에 저장되어 있는 같은 종류의 레코드들의 집합을 파일이라고 한다. 따라서 파일 설계의 목적은 개요설계단계에서 정해진 필요한 파일의 저장장소 및 매체를 결정하고 파일에 수룩되는 데이터의 항목과 길이 그리고 그 성격을 결정하는데 있다.
파일 설계의 기본은 파일은 특정한 업무를 위해 구성된 레코드들의 집합체로 하나의 파일에 있는 레코드들은 성격과 구조가 같다. 파일은 시스템의 처리 요건을 만족하고 경제성, 효율성 등을 고려하여 파일 매체나 편성 방법을 결정해야 한다. 이러한 파일 설계는 일반적으로 컴퓨터를 바탕으로 한 정보처리 시스템 구축시에는 반드시 거쳐야 할 과정이다.
파일의 구성요소는 컴퓨터 내에서 정보를 2진수로 표현하기 위해서는 일정한 자릿수의 2진수를 이용하고 2진수의 각 자리를 몇 개씩 묶어 특정 단위에 명칭을 붙여서 사용하고 있다. 따라서 우선 파일을 구성하고 있는 기본적인 요소들을 알아보도록 하자.
비트는 컴퓨터에서 사용되는 모든 문자들은 2진수로 기호화되어 기억장치에 표시되는데, 2진수는 0과 1의 두 가지 상태만을 나타내므로 많은 문자를 표시하기 위해서는 여러 개의 2진수가 있어야 한다. 2진수의 두 가지 상태를 나타내는 기억소자를 개념적으로 비트라고 하며, 비트는 컴퓨터에서 취급하는 자료의 최소단위이다.
바이트는 하나의 문자를 표현하기 위한 기본 단위로서 여러 개의 비트가 필요하며 일반적으로 8개의 비트를 묶어 하나의 바이트로 사용하고 있다.
바이트가 여러 개 모여 하나의 단어를 형성하는데 이러한 바이트의 모임을 워드라고 한다. 그러므로 일정한 수의 바이트 조합에 따라 2바이트를 Half Word, 4바이트를 Full Word, 8바이트를 Double Word라고 한다.
항목이란 일정한 의미를 갖는 하나의 자료 값으로 보통 필드라는 용어로도 많이 스이며, 자료 구성의 기본 단위가 된다.
레코드는 서로 관련 있는 항목의 모임으로 프로그램에서 처리되는 자료의 기본 단위를 레코드라고 한다. 또한, 레코드의 물리적인 입출력 단위를 블록이라고 하며, 하나의 레코드, 또는 다수의 레코드로 구성된다.
[파일의 분류]
파일을 어떤 매체에 수록하느냐에 따른 분류로서 데이터를 기록한 매체에 따라 그 매체의 이름을 붙여서 분류하는 방법이다. 따라서 대표적인 파일 매체로는 자기테이프파일, 자기디스크 파일, 자기드럼파일, 플로피디스크파일 등이 있다.
(1)자기테이프 파일
자기테이프는 자성 물질이 입혀진 테이프에 정보를 기록하거나 읽는 매체로써 여기에 기록되는 파일을 자기테이프 파일이라고 한다. 따라서 자료의 순차적 처리만 가능하여 접근 시간이 많이 걸리고 번지가 없어 자료의 추가, 삭제, 변경이 어렵다.
(2)자기디스크 파일
자기디스크 파일은 순차적 처리 또는 임의처리가 가능하며 처리 속도가 빠르므로 가장 많이 이용되고 있다. 자기디스크 파일은 자기테이프 파일에 비해 테이프처럼 연속적으로 저장과 처리가 되면서 직접 접근이 가능하고 레코드들을 순서대로 처리할 필요가 없으며 신속하게 접근되고 변경될 수 있는 장점이 있는 반면, 연속처리 과정은 테이프를 사용할 때보다 느리고 비효율적이라는 단점이 있다.
[파일의 수행 기능에 따른 분류]
파일에 수록된 내용과 용도에 따라서 파일을 분류하는 방법으로 다음과 같은 것들을 들 수 있다.
마스터 파일은 전산 업무의 가장 기본적인 파일로서, 어느 한 시점에서 조직체의 사업에 관한 정적인 면을 나타내는 데이터의 집합체이다. 즉 전표 처리에서 쓰이는 원장 또는 대장적 성격을 지닌 파일이다. 다시 말하면 여러 작업과정에서 입력자료로서 사용하는 항상 일정한 정보 또는 최신 수정 정보를 포함하고 있는 데이터 파일로서 반영구적으로 보존되어 지는 파일이다. 예를 들어 급여 마스터 파일, 거래처 마스터 파일, 인사 마스터 파일, 재고 마스터 파일 등을 들 수 있다.
트랜잭션 파일은 마스터 파일의 내용을 변경시킬 변경 내용들의 집합이며, 마스터 파일에 새로운 레코드를 추가하거나 현존하는 레코드를 삭제, 수정하기 위한 테이터를 가지고 있다. 즉 마스터 파일보다 비교적 수명이 짧은 최신 정보를 가진 변동 데이터 파일을 말한다. 예를 들어, 급여 마스터 파일에 대한 잔업 시간 파일, 또는 재고 마스터 파일에 대한 입출고 내역, 인사 마스터 파일에 대한 개인의 승진, 부서 이동 등을 들 수 있다.
작업 파일은 임시 파일이라고도 하며, 프로그램 처리 중 임시로 생성되는 파일로서 마스터 파일과 같이 영구적 특성을 갖고 있는 것도 아니고, 트랜잭션이나 보고서 파일과 같이 입출력의 성격을 갖는 파일도 아니다. 즉 어떤 작업과정이 여러 단계의 처리과정을 거치게될 때 한 처리과정에서 만들어져 다른 처리 과정으로 보내기 위하여 작업 도중에 생성되어지는 임시 데이터 파일을 말한다. 따라서 작업 파일은 한 프로그램의 처리 과정에서 그 중간 결과를 기록하거나 어느 한 프로그램에서 생성된 데이터를 다른 프로그램의 입력으로 이전시키기 위한 일시적인 파일로서 정보처리 시스템에서 많이 이용되는 파일이다.
보고서 파일은 사용자에게 보여 주기 위한 일정한 양식을 갖춘 데이터를 포함하고 있다. 이 파일은 그대로 출력 용지에 하드 카피로 출력하거나 단말장치의 화면에 출력되기도 한다.
이력파일은 기록 파일이라고도 하며, 후일 통계 처리에 쓰여지거나 또는 사고가 생겼을 경우 데이터의 원상 복구용의 보존 파일 또는 예비 보관 파일이다. 따라서 과거의 마스타 파일이나 처리 파일을 보존하는 보존파일이다.
프로그램 파일은 주기억장치나 보조 기억 장치에 저장되어 있는 데이터를 처리하는 명령어들의 집단을 의미한다. 따라서 시스템의 운영체제 및 표준 프로그램 수집 파일들이 여기에 해당된다.
순차 파일은 순서 파일, 또는 순편성 파일이라고도 하며, 가장 단순한 방법으로 논리적 레코드를 순차적으로 저장하고 검색하도록 설계된 가장 기본적인 파일로서 SAM 파일이라고도 한다. 또한, 순차 파일의 레코드는 순차적으로 접근해야 하므로 대화식 처리보다는 일괄처리에 주로 이용된다.
직접파일은 일반적으로 랜덤파일이라고 부른다. 외부기억장치에 저장되어 있는 원하는 데이터 레코드들을 위치와 관계없이 필요한 데이터를 직접 접근할 수 있으므로 가장 빠르게 레코드를 읽어들일 수 있는 것이 직접 파일이며, DAM 또는 직접파일이라고도 한다. 직접접근저장장치의 대표적인 것으로 자기디스크가 있다. 따라서, 직접 파일은 각 레코드를 직접 접근할 수 있으며, 정렬되어 있지 않은 레코드에 대하여 삽입, 삭제, 수정, 검색이 많은 대용량 파일을 처리할 때 적합한 파일이다.
색인 순차 파일은 키 값에 따라 정렬된 레코드를 순차적으로 접근하거나, 주어진 키값에 따라 임의로 접근하는 두 가지 방법이 모두 사용되는 파일로서 ISAM 파일이라고도 한다. 순차 파일과 직접 파일의 장점을 이용한 것으로서 레코드는 키 순서대로 기억되어 있다. 즉, 색인 파일은 데이터를 기록하는 부분 외에 데이터 레코드 중의 키 항목만을 모아 기록하는 인덱스 부분을 만들고 이 인덱스를 이용하여 순차처리를 가능하게 한 파일이다. 또한, 색인 순차파일은 기본 데이터 구역, 오버 플로우 구역, 색인 구역 등 3개의 구역으로 구성된다.
리스트 파일은 관련되는 데이터 레코드들은 물리적으로 떨어져 있으나 데이터 레코드에 붙여 있는 포인터가 순차적으로 데이터의 레코드가 저장되어 있는 주소를 지시함으로써 관계를 유지하는 파일이다.