Сортировка посредством слияния списков

Алгоритмы слияния имеют два существенных недостатка:

1. Большой расход памяти для вспомогательной рабочей области.

2. Необходимость большого числа перемещений записей.

Эти недостатки можно устранить, создав из сортируемого файла подобие связанного списка, для чего каждая запись R_i должна иметь “поле связи” L_i, в котором будет храниться № записи, следующей за данной записью в порядке возрастания ключей.

После сортировки L₀=№ записи с наименьшим ключом.

Алгоритм:

Предполагается, что записи R₁,…,R_N содержат ключи k₁,…,k_N и поля связи L₁,…,L_N, в которых могут храниться числа от -(N+1) до (N+1). В начале и в конце файла имеются искусственные записи R₀и R_N₊₁с полями связи L₀ и L_N₊₁. Этот алгоритм сортировки устанавливает поля связи таким образом, что записи оказываются связанными в возрастающем порядке.

После завершения сортировки L₀ указывает на запись с наименьшим ключом, при 1≤k≤N связь L_k указывает на запись, следующую за R_k, а если R_k – запись с наибольшим ключом, то L_k=0. В процессе выполнения этого алгоритма записи R₀ и R_N₊₁служат “головами” двух линейных списков, подсписки которых в данный момент сливаются.

Отрицательная связь означает конец подсписка, о котором известно, что он упорядочен; нулевая связь означает конец списка. Предполагается, что N≥2.

Через “|L_s|←p” обозначена операция присвоить L_s значение р или –p, сохранив прежний знак L_s.

L1. [Подготовить два списка]. Установить L₀←1, L_N₊₁←2, L_i← -(i+2)

при 1≤i≤N-2 и L_N_-1←L_N←0.

Мы создаём два списка, содержащие соответственно записи

R₁,R₃,R₅,… и R₂,R₄,R₆,... Отрицательные связи говорят о том,

что каждый упорядоченный “подсписок” состоит всего лишь из

одного элемента. Другой способ: выполнить этот шаг, извлекая пользу из

упорядоченности, которая могла присутствовать в исходных данных.

L2. [Начать новый просмотр.] Установить s←0, t←N+1, p←L_s, q←L_t.

Если q=0, то работа алгоритма завершена.

При каждом просмотре p и q пробегают по спискам, которые

подвергаются слиянию; s обычно указывает на последнюю

обработанную запись текущего подсписка, а t – на конец только

что выведенного подсписка.

L3. [Сравнить k_p: k_q]. Если k_p>k_q, то перейти к L6.

L4. [Продвинуть p]. Установить |L_s|←p, s←p, p←L_p. Если p>0, то

Возвратиться к шагу L3.

L5. [Закончить подсписок]. Установить L_s←q, s←t.

Затем установить t←q и q←L_q один или более раз, пока не станет

q≤0, после чего перейти к шагу L8.

L6. [Продвинуть q]. (Шаги L6 и L7 двойственны по отношению к L4 и

L5.) Установить |L_s|←q, s←q, q←L_q. Если q>0, то возвратиться к

Шагу L3.

L7. [Закончить подсписок]. Установить L_s ←p, s←t. Затем установить

t←p и p←L_p один или более раз, пока не станет p≤0.

L8. [Конец просмотра]. К этому моменту p≤0 и q≤0, так как оба

указателя подвинулись до конца соответствующих подсписков.

Установить p← -p, q← -q. Если q=0, то установить |L_s|←p, |L_t|←0 и воз- вратиться к шагу L2. В противном случае возвратиться к шагу L3.

9. Алгоритмы поиска данных. Последовательный, двоичный, блочный, интерполяционный, Фибоначчиев поиск

Последовательный поиск

Это наиболее простой и очевидный способ отыскания записи по заданному ключу К. Он состоит в последовательном просмотре всех записей и сравнении их ключей с заданным значением ключа. Последовательность записей R1, R2,..., Rn снабжены ключами К1, К2,..., Кn. Необходимо найти запись с заданным ключом К. На рис.5.6 приведена блок-схема алгоритма «Последовательный поиск», на рис.5.7 – блок-схема алгоритма «Быстрый последовательный поиск». Ускоряющий принцип во втором алгоритме – только одно сравнение во внутреннем цикле.

Существует способ сделать этот алгоритм поиска ещё быстрее. Если известно, что исходная последовательность расположена по возрастанию ключей, то алгоритм поиска можно сделать ещё более эффективным. На рис.5.8 представлена блок-схема алгоритма “Последовательный поиск в упорядоченной таблице”. Здесь отсутствие нужной записи обнаруживается примерно в два раза быстрее.

Бинарный поиск

С помощью этого алгоритма разыскивается аргумент К в таблице записей R1, R2,...,Rn, ключи которых расположены в возрастающем порядке (К1, К2,..., Кn).

Идея бинарного поиска заключается в следующем. Сначала нужно сравнить К со средним ключом в таблице. Результат сравнения позволит определить, в какой половине файла продолжать поиск, применяя к ней ту же процедуру, и т.д. После не более чем log2N сравнений ключ либо будет найден, либо будет установлено его отсутствие. Такая процедура иногда называется “Логарифмическим поиском” или “Методом деления пополам”, но наиболее употребительный термин – “Бинарный поиск”.

Одна из наиболее популярных реализаций метода использует два указателя: l и u, соответствующие верхней и нижней границам поиска. На рис.7.9 приведена блок-схема алгоритма бинарного поиска.

Рис 7.9. Бинарный поиск в упорядоченной матрице

Поиск Фибоначчи

Этот метод поиска основан на использовании чисел Фибоначчи, которые используются для построения бинарного дерева.

Алгоритм построения дерева поиска Фибоначчи:

1. Если k=0 или k=1, дерево сводится к 0.

2. Если k>=2, корнем является Fk; левое поддерево есть дерево Фибоначчи порядка k-1; правое поддерево есть дерево Фибоначчи порядка k-2 с числами в узлах, увеличенными на Fk.

Замечание.

Желательно, чтобы число ключей в таблице N удовлетворяло условию: N<Fk+1-1.

На рис.5 изображено дерево поиска Фибоначчи для N=12 и K=6. Здесь K – порядковый номер числа Фибоначчи (порядок дерева Фибоначчи).

k123456 7 8 9 1011

Fk 01123581321345569

Алгоритм поиска Фибоначчи.

Алгоритм представляется для поиска аргумента К в таблице записей

R1, R2,..., Rn, расположенных в порядке возрастания ключей

К1, К2,..., Кn.

Предлагается, что N+1 есть число Фибоначчи Fk+1. Подходящей начальной установкой данный метод можно сделать пригодным для любого N. В алгоритме переменные p и q – последовательные числа Фибоначчи.

Блок-схема алгоритма поиска Фибоначчи приведена на рис.6.

Рис.7.11 Поиск Фибоначчи

10. Хеширование, хеш-функции. Способы разрешения коллизий.

Идентификатор – атрибут, уникально определяющий запись.

Хеширование идентификатора – метод доступа, обеспечивающий прямую адресацию данных путем преобразования значения ключа в относительный или абсолютный физический адрес.

Алгоритм получения адреса называется функцией хеширования, или функцией преобразования ключа. При использовании хеш-функции возможно преобразование двух или более значений ключа в один и тот же физический адрес.

Коллизия – случай преобразования ключа в уже занятый собственный адрес.

Метод деления. Наиболее широко распространенная функция хеширования основывается на методе деления и определяется в виде

H(x) = x mod m + 1,

где m – делитель. Эта функция хеширования – одна из первых и наиболее используемых.

При отображении ключей в адреса методом деления до некоторой степени сохраняется существующая на множестве ключей равномерность распределения. Ключи с близкими значениями отображаются при этом в уникальные адреса. Например, при делителе, равном 101, такая функция отобразила бы ключи 2000, 2001, …, 2017 в адреса 82, 83, …, 99. К сожалению, если два скопления ключей или более отображаются в одни и те же адреса, то сохранение равномерности будет недостатком. Например, если имеются также ключи 3310, 3311, 3313, 3314, …, 3323, 3324, то при делителе 101 они будут отображены в адреса 79, 80, 82, 83, …, 92, 93, и с группой ключей, значение которых начинаются с 2000, произойдет много коллизий. Причина этого в том, что ключи из этих двух групп совпадают по модулю 101.

Вообще, если по модулю d совпадает много ключей, a m и d не являются взаимно простыми числами, то использование значения m в качестве делителя может привести к низкой эффективности хеширования, основанного на методе деления. Это показано в предыдущем примере, в котором m = d = 101. Возьмем другой пример: если все ключи в совокупности записи совпадают по модулю 5 и делителем является число 65, то значения ключей отображаются лишь в 13 различных позициях. Если m является большим простым числом, то обычно ключи не совпадают по модулю m, и поэтому в качестве делителя следует выбирать простое число. Исследования, однако, показывают, что удовлетворительные результаты получаются и при нечётном делителе, не имеющем множителей менее 20. В особенности следует избегать четных делителей, так как при этом четные и нечетные ключи отображаются соответственно в нечетные и четные адреса (в предположении, что адресное пространство имеет вид {1, 2, …, m}). При этом возникали бы трудности в организации таблиц, содержащих в основном четные или в основном нечетные ключи.

При хешировании по методу середины квадрата ключ умножается сам на себя, а адрес получается отсечением битов или цифр от обоих концов произведения, которое выполняется до тех пор, пока число оставшихся битов или цифр не станет равным требуемой длине адреса. Во всех получаемых произведениях при этом должны использоваться одни и те же позиции. В качестве примера рассмотрим шестизначный ключ 113586. При возведении его в квадрат получается 12901779396. Если требуется четырёхзначный адрес, могут быть выбраны позиции 5-8, дающие адрес 1779. Метод середины квадрата подвергался критике, но его применение к некоторым наборам ключей даёт хорошие результаты.

В методе свертывания ключ разбивается на части, каждая из которых имеет длину, равную длине требуемого адреса (кроме, возможно, последней части). Чтобы сформировать адрес, части затем складываются, при этом игнорируется перенос в старшем разряде. Если ключи представлены в двоичном виде, то вместо сложения может быть использована операция исключающего ИЛИ. Существуют различные вариации этого метода, которые лучше всего проиллюстрировать на конкретном примере ключа 187249653. В методе свертывания со сдвигом складываются 187, 249 и 653, при этом получается адрес 89.

В методе граничного свертывания инвертируются цифры в крайних частях ключа и, таким образом, в нашем примере складываются числа 781, 249 и 356, что даёт адрес 386. Свёртывание является функцией хеширования, удобной для сжатия многословных ключей и последующего перехода к другим функциям хеширования.

Преобразование системы счисления является методом хеширования, в котором делается попытка получить случайное распределение ключей по адресам в адресном пространстве. Ключ, представленный в системе счисления q (q обычно равно 2 или 10), рассматривается как число в системе счисления p, где p больше q, причем p и q – взаимно простые. Это число из системы счисления с основанием p переводится в систему счисления с основанием q и адрес формируется путём выбора правых цифр (или битов) нового числа или применением метода деления.

Например, ключ 530476₁₀, рассматриваемый как 530476₁₁, переводится в десятичную систему счисления с помощью следующих вычислений:

530476₁₁ = 5 * 11⁵ + 3 * 11⁴ + 4 * 11² + 7 * 11 + 6 = 849745₁₀.

Отсечение трех левых цифр в полученном числе дает адрес 745 в адресном пространстве {0, 1, …, 999}.

Мультипликативный метод. Весьма удобной является мультипликативная функция хеширования. Для неотрицательного целого ключа x и константы с такой, что 0<c<1, эта функция определяется в виде:

H(x) = └ m (cx mod 1) ┘ + 1.

Здесь выражение cx mod 1 обозначает дробную часть величины cx, а скобки └ ┘ - наибольшее целое, не превышающее значения заключённой между ними величины. Такая мультипликативная функция даёт хорошие результаты при правильном выборе константы c, что трудно сделать.

Повторное хеширование. Функция повторного хеширования h(p) имеет в качестве входа один индекс в массиве и выдает другой индекс. Если ячейка массива i = h(k) уже занята некоторой записью с другим ключом, то функция h(p) применяется к значению i для того, чтобы найти другую ячейку, куда может быть помещена эта запись.

Если ячейка hp(i) также занята, то хеширование выполняется еще раз, и проверяется ячейка hp(hp(i)).

Двойное хеширование. Первая функция хеширования h₁(x₁) = h₁(x₂) = i при x₁≠ x₂.

Вторая функция хеширования h₂(x₁) ≠ h₂₍x₂) при x₁ ≠ x₂

Методы разрешения коллизий

Для разрешения коллизий используются различные методы, которые в основном сводятся к методам цепочек и открытой адресации.

Методом цепочек называется метод, в котором для разрешения коллизий во все записи вводятся указатели, используемые для организации списков цепочек переполнения. В случае возникновения коллизии при заполнении таблицы в список для требуемого адреса хеш-таблицы добавляется еще один элемент.

Поиск в хеш-таблице с цепочками переполнения осуществляется следующим образом. Сначала вычисляется адрес по значению ключа. Затем осуществляется последовательный поиск в списке, связанном с вычисленным адресом.

Процедура удаления из таблицы сводится к поиску элемента и его удалению из цепочки переполнения.

Рис.8.4. Разновидности методов разрешение коллизий

Рис.8.5. Разрешение коллизий при добавлении элементов методом цепочек

Метод открытой адресации состоит в том, чтобы, пользуясь каким-либо алгоритмом, обеспечивающим перебор элементов таблицы, просматривать их в поисках свободного места для новой записи.

Рис.8.6. Разрешение коллизий при добавлении элементов методами открытой
адресации.

Линейное опробование сводится к последовательному перебору элементов таблицы с некоторым фиксированным шагом

a=h(key) + c* i,

где i номер попытки разрешить коллизию. При шаге равном единице происходит последовательный перебор всех элементов после текущего.

Квадратичное опробование отличается от линейного тем, что шаг перебора элементов не линейно зависит от номера попытки найти свободный элемент

a = h(key2) + c* i + d* i ²

Благодаря нелинейности такой адресации уменьшается число проб при большом числе ключей-синонимов.

Однако даже относительно небольшое число проб может быстро привести к выходу за адресное пространство небольшой таблицы вследствие квадратичной зависимости адреса от номера попытки.

Еще одна разновидность метода открытой адресации, которая называется двойным хешированием, основана на нелинейной адресации, достигаемой за счет суммирования значений основной и дополнительной хеш-функций

a=h1(key) + i *h2(key).

Сортировка посредством слияния списков

Поиск по сайту