Основные операции и стандартные процедуры и функции для работы с текстовыми файлами.

Типизированные файлы с прямым доступом.

Последовательный доступ характерен тем, что поиск нужной компоненты в файле производится только путем последовательного их перебора от начала к концу и в том порядке, как они записаны на носителе. Каждый новый поиск необходимо начинать с 0-ой компоненты, а потому файл надо закрыть и затем вновь открыть. По этой причине, чтобы сократить время поиска, как правило, последовательные файлы предварительно сортируют, т.е. упорядочивают по ключевым признакам.

Прямой доступ предполагает непосредственный выход на нужную компоненту в файле. Для этого необходимо только увязать номер компоненты со значением реквизита-признака, по которому ведется поиск. Этот признак (или их совокупность) называют ключом поиска.

Чтобы реализовать прямой доступ к компонентам файла, необходимо его при создании сначала инициализировать. Т.е. осуществить его разметку путем занесения в физический файл фиктивных компонент (записей) с пустыми или нулевыми значениями полей. Чтобы облегчить работу с подобным файлом, рекомендуется отдельное поле выделить для указания номера компоненты (записи), который в дальнейшем будет выполнять функцию ключа поиска.

После инициализации достаточно обновить файл путем занесения в него требуемых информационных компонент в режиме прямого доступа с применением пары стандартных процедур SEEK и WRITE:

SEEK (< имя файловой переменной >,< номер компоненты (записи) >);

WRITE (< имя файловой переменной >,< имя компоненты (записи) >);

В этом случае сначала указатель устанавливается на нужную компоненту, а затем происходит ее наполнение заранее подготовленным конкретным содержанием.

Созданный таким образом файл можно обрабатывать как последовательным, так и прямым доступом.

При обработке информации в режиме прямого доступа чтение нужной компоненты (записи) по аналогии выполняется парой стандартных процедур SEEK и READ:

SEEK (< имя файловой переменной >,< номер компоненты (записи) >);

READ (< имя файловой переменной >,< имя компоненты (записи) >);

Режим прямого доступа позволяет буквально «бегать» по файлу из конца в конец, не производя по ходу работы процедур закрытия и открытия файла.

Замечание: файл с прямым доступом обеспечивает очень быстрый

выход на нужную компоненту. Однако он получается более

длинным, чем аналогичный файл с последовательным

доступом, т.к. включает компоненты с полезной

информацией и фиктивные. Поэтому использовать его

следует осторожно и тогда, когда количество фиктивных

компонент получается существенно меньше тех, которые

содержат конкретную информацию для обработки.

Кроме операции обработки информации, с использованием прямого доступа достаточно эффективно выполняются такие действия по коррекции файла, как:

- добавление в конец файла (обычным порядком);

- обновление (часть полей в записи меняет свое содержание);

- замена старых компонент на новые (меняется содержимое всей

компоненты);

- вставка новых компонент в середину файла (в нужном месте

фиктивные компоненты наполняются полезной информацией и

становятся новыми реальными компонентами);

- удаление (ненужные компоненты с полезной информацией

переводятся в статус фиктивных, т.е. заполняются пробелами и

нулями).

Текстовые файлы.

Эти файлы используются при обработке разнообразной текстовой информации: исходной и результатной. Их специфика – в следующем:

1. текстовый файл можно создавать программным способом или с

помощью текстового редактора, с клавиатуры.

2. содержимое текстового файла рассматривается как

последовательность строк переменной длины, но не более 128

символов;

3. строки разделяются специальным маркером <CR>-

<LF> («возврат каретки» - «прогон строки») или, иначе, признаком

EOLN (E nd O f L i N e - «конец строки»); при создании файла

программой он формируется процедурой WRITELN, а с

клавиатуры – нажатием клавиши «ENTER»;

4. конец файла обозначается признаком EOF (E nd O f F ile – «конец

файла»); при создании файла программой он формируется

процедурой CLOSE, а с клавиатуры – «Ctrl+Z»;

5. обработка текстового файла производится построчно и строго

последовательно, начиная с первой строки;

6. для одного текстового файла одновременно производить операции

ввода-вывода компонент (строк) нельзя. Для смены характера

работы с текстовым файлом следует заново открыть его.

Основные операции и стандартные процедуры и функции для работы с текстовыми файлами.

Операции открытия и закрытия выполняются обычным порядком, как и для типизированных файлов. При этом используются процедуры ASSIGN, RESET, REWRITE и CLOSE.

Кроме того, для открытия ранее созданного текстового файла применима процедура

APPEND (< имя файловой переменной >);

Ее специфика в том, что указатель устанавливается не в начало файла, а в его конец, делая возможным добавлять новые строки в конец уже существующего текстового файла.

Ввод-вывод компонент может производиться с помощью процедур READ и WRITE. Однако следует помнить, что при работе с текстовым файлом можно иметь дело только с символьной информацией. Поэтому при записи в текстовый файл значения других типов будут преобразовываться в символьное представление. А при чтении из текстового файла очередная часть текущей строки будет пониматься как символьное представление значения, тип которого определяется типом очередной переменной из процедуры READ. Разделителями символьных представлений значений служат пробелы и признаки конца строки или файла.

Дополнительно при работе с текстовыми файлами используются две модифицированные процедуры ввода-вывода:

READLN ([< имя файловой переменной >],< список ввода >);

Она идентична READ, но после считывания последней переменной из списка (символов, чисел, строк) оставшаяся часть строки до маркера EOLN пропускается, и новое чтение осуществляется с новой строки (курсор будет перемещен туда!).

WRITELN ([< имя файловой переменной >],< список вывода >);

Эта процедура идентична WRITE, но после записи последней переменной из списка записываемая строка помечается маркером <CR>-<LF> (EOLN), и производится переход к следующей строке текстового файла.

(Вспомним, процедура READ автоматически осуществляет переход к

следующей строке только после того, как текущая строка

будет исчерпана! Аналогично по WRITE.)

Для контроля конца файла обычным порядком может использоваться функция EOF, а для контроля конца текущей строки – специфическая функция:

EOLN [(< имя файловой переменной >)] – она возвращает TRUE, если обнаружен признак <CR> (EOLN – «конец строки»); иначе - возвращается FALSE.

При работе с текстовыми файлами не применима процедура SEEK, т.к. длина компонентов-строк – неопределенная. Но имеются альтернативные функции поиска конца или строки, или файла:

SEEKEOLN [(< имя файловой переменной >)] – она пропускает все символы-разделители (пробелы и символы табуляции) и ищет конец текущей строки: если обнаружен такой признак, то возвращается TRUE; если обнаружен любой значащий символ, то возвращается FALSE.

SEEKEOF [(< имя файловой переменной >)] – она также пропускает все символы-разделители и, дополнительно, признаки конца строк, но ищет конец файла; если он обнаружен – возвращается TRUE, иначе – FALSE.

Примечание: если указанные функции используются без имени в

скобках, то по умолчанию подразумевается

стандартный файл INPUT.

Нетипизированные файлы.

У подобных файлов не указывается тип компонент. Это делает их совместимыми с другими видами файлов.

Файлы без типа удобны для организации доступа к физическим файлам любой структуры, для которых важно лишь одно – величина (размер) компонент. Содержание – вне интереса. Поэтому чаще всего такие файлы применяют для быстрого обмена данными между физическим файлом и оперативной памятью, т.е. для копирования. Причем без использования буферной памяти, которая всегда требуется для файлов с типом. Это существенно повышает скорость, что имеет важное значение при больших объемах данных..

Нетипизированные файлы оперируют т.н. блоками записей. Они имеют номера, что позволяет реализовывать прямой доступ к записям. Стандартная длина блока – 128 байтов. Но ее можно изменить (максимально до 65535 байтов) при открытии файла, задав вторым параметром в RESET или REWRITE. Например:

RESET(…, 512);

Или REWRITE(…, 1024);

При организации быстрого обмена следует учитывать, что:

1. длина записи (компоненты) должна быть кратна размеру физического сектора диска, т.е. 512 байт; но надо помнить, что т.к. последняя запись может быть неполной, то весь файл гарантированно может быть скопирован только при размере записи, равной 1;

2. если учесть, что на деле обменная порция соизмеряется с т.н. кластером - 2-мя и более свободными смежными секторами (в зависимости от типа диска), то длину записи целесообразно приравнивать его длине; это ускорит скорость обмена данными между физическим файлом и оперативной памятью;

3. доступ к любой компоненте нетипизированного файла осуществляется известными стандартными процедурами SEEK, FILESIZE и FILEPOS; но чтение и запись компонент производится не по READ и по WRITE соответственно, а с помощью следующих высокоскоростных процедур:

BLOKREAD (< имя файловой переменной >,< имя буф. перем. >,N[,FZ]);

BLOKWRITE (< имя файловой переменной >,< имя буф. перем. >,N[,FZ]);

где: буф. перем. – буферная переменная в оперативной памяти для

обмена данными с дисками;

N – количество записей, которые читаются или записываются за

одно обращение к диску;

FZ – необязательный параметр, фиксирующий количество фактически прочитанных записей.

После каждого вызова этих процедур текущий указатель смещается на число записей, фактически участвующих в обмене.

За один вызов может быть передано N*RAZM байт, где RAZM – длина записи нетипизированного файла из RESET или REWRITE.

Надо заботится о том, чтобы физическая длина буферной переменной была достаточной для размещения всех N*RAZM байт. Если она меньше, то возникает ошибка ввода-вывода, которую можно предупредить указанием FZ.

Основные операции и стандартные процедуры и функции для работы с текстовыми файлами.

Поиск по сайту