Построение таблиц идентификаторов по методу цепочек.

III. Структуры, организация, хранение и поиск данных

Назначение и принципы организации таблиц идентификаторов

Коллизии.

Методы разрешения коллизий

4. Рехеширование (продолжение).

Алгоритм поиска элемента в таблице идентификаторов

· Вычислить значение хеш-функции n = h(A) для искомого элемента A.

· Если ячейка по адресу n пустая, то элемент не найден, алгоритм завершен, иначе – сравнить имя элемента в ячейке n с именем искомого элемента A: если они совпадают, то элемент найден и алгоритм завершен, иначе – i:=1 и перейти к шагу 3.

· Вычислить n_i = h_i(A). Если ячейка по адресу n_i пустая или n = n_i, то элемент не найден, и алгоритм завершен, иначе – сравнить имя элемента в ячейке n_i с именем искомого элемента A: если они совпадают, то элемент найден и алгоритм завершен, иначе – i:=i+1 и повторить шаг 3.

Алгоритмы размещения и поиска элемента схожи по выполняемым операциям, поэтому они имеют одинаковые оценки времени, необходимого для их выполнения.

При такой организации таблиц идентификаторов в случае возникновения коллизии алгоритм размещает элементы в пустых ячейках таблицы, выбирая их определенным образом: элементы могут попадать в ячейки с адресами, которые потом будут совпадать со значениями хеш-функции, что приведет к возникновению новых, дополнительных коллизий. Таким образом, количество операций, необходимых для поиска или размещения в таблице элемента, зависит от заполненности таблицы.

Для организации таблицы идентификаторов по методу рехеширования необходимо определить все хеш-функции h_i для всех i; функции h_i определяют как некоторые модификации хеш-функции h. Простым методом вычисления функции h_i(A) является ее организация в виде

h_i(A) = (h(A) + p_i) mod N_m

где p_i – некоторое вычисляемое целое число, N_m – максимальное значение из области значений хеш-функции h. При p_i = i h_i(A) = (h(A)+i) mod N_m

При совпадении значений хеш-функции для каких-либо элементов поиск свободной ячейки в таблице начинается последовательно от текущей позиции, заданной хеш-функцией h(A). Этот способ является не самым удачным (при совпадении хеш-адресов элементы в таблице начинают группироваться вокруг них, что увеличивает число необходимых сравнений при поиске и размещении), но достаточно эффективным при организации таблиц идентификаторов при неполном заполнении таблицы.

Среднее время на помещение одного элемента в таблицу и на поиск элемента в таблице можно снизить, если применить более совершенный метод рехеширования, например, использовать в качестве p_i для функции h_i(A)=(h(A)+p_i) mod N_m последовательности псевдослучайных целых чисел p₁, p₂, …, p_k. При хорошем выборе генератора псевдослучайных чисел длина последовательности k будет k=N_m.

Существуют также другие методы организации функций рехеширования h_i(A), основанные на квадратичных вычислениях или, например, на вычислении по формуле:

h_i(A) = (h(A)*i) mod N_m

если N_m – простое число.

Рехеширование позволяет добиться лучших результатов для эффективного поиска элемента в таблице, чем бинарный поиск и бинарное дерево, но эффективность метода очень зависит от заполненности таблицы идентификаторов и качества используемой хеш-функции – чем реже возникают коллизии, тем выше эффективность метода. Требование неполного заполнения таблицы ведет к неэффективному использованию объема доступной памяти.

Построение таблиц идентификаторов по методу цепочек.

Неполное заполнение таблицы идентификаторов при применении хеш-функций ведет к неэффективному использованию объема памяти, доступного компилятору; объем неиспользуемой памяти тем выше, чем больше информации хранится для каждого идентификатора. Этот недостаток можно избежать, если дополнить таблицу идентификаторов промежуточной хеш-таблицей.

В ячейках хеш-таблицы может храниться либо пустое значение, либо значение указателя на область памяти из основной таблицы идентификаторов, тогда хеш-функция вычисляет адрес, по которому происходит обращение сначала к хеш-таблице, а потом через нее по найденному адресу – к самой таблице идентификаторов. Если соответствующая ячейка таблицы идентификаторов пуста, то ячейка хеш-таблицы будет содержать пустое значение, и тогда не надо иметь в таблице идентификаторов ячейку для каждого возможного значения хеш-функции, т. е. таблицу можно сделать динамической – ее объем будет расти по мере заполнения (первоначально таблица идентификаторов не содержит ни одной ячейки, а все ячейки хеш-таблицы имеют пустое значение). Этот подход позволяет достичь следующего:

· нет необходимости заполнять пустыми значениями таблицу идентификаторов, поскольку это можно сделать только для хеш-таблицы;

· каждому идентификатору соответствует одна ячейка в таблице идентификаторов (не будет пустых неиспользуемых ячеек);

· пустые ячейки будут только в хеш-таблице, и объем неиспользуемой памяти не будет зависеть от объема информации, хранимой для каждого идентификатора (для каждого значения хеш-функции будет расходоваться только память, необходимая для хранения одного указателя на основную таблицу идентификаторов).

На основе этой схемы можно реализовать уже известный способ организации таблиц идентификаторов с помощью хеш-функций, называемый методом цепочек – в таблицу идентификаторов для каждого элемента добавляется еще одно поле, в котором может содержаться ссылка на любой элемент таблицы; первоначально это поле пустое (никуда не указывает); также необходимо иметь специальную переменную, которая всегда указывает на первую свободную ячейку основной таблицы идентификаторов (первоначально она указывает на начало таблицы).

Алгоритм работы метода цепочек.

· Во все ячейки хеш-таблицы поместить пустое значение, таблица идентификаторов — пуста, переменная HeapPtr (указатель первой свободной ячейки) указывает на начало таблицы идентификаторов; i:=1.

· Вычислить значение хеш-функции n_i для нового элемента A_i; если ячейка хеш-таблицы по адресу n_i — пустая, то поместить в нее значение переменной FreePtr и перейти к шагу 5; иначе – к шагу 3.

· j:=1; выбрать из хеш-таблицы адрес ячейки таблицы идентификаторов m_j и перейти к шагу 4.

· Для ячейки таблицы идентификаторов по адресу m_j проверить значение поля ссылки; если оно пустое, то записать в него адрес из переменной FreePtr и перейти к шагу 5; иначе – j:=j+1, выбрать из поля ссылки адрес m_j и повторить шаг 4.

· Добавить в таблицу идентификаторов новую ячейку, записать в нее информацию для элемента A_i (поле ссылки должно быть пустым), в переменную FreePtr поместить адрес за концом добавленной ячейки; если больше нет идентификаторов, которые надо разместить в таблице, то выполнение алгоритма закончено, иначе – i:=i+1 и перейти к шагу 2.

Алгоритм поиска элемента в таблице идентификаторов.

· Вычислить значение хеш-функции n=h(A) для искомого элемента A; если ячейка хеш-таблицы по адресу n — пустая, то элемент не найден и алгоритм завершен; иначе – j:=1, выбрать из хеш-таблицы адрес ячейки таблицы идентификаторов m_j.

· Сравнить имя элемента в ячейке таблицы идентификаторов по адресу m_j с именем искомого элемента A: если они совпадают, то искомый элемент найден и алгоритм завершен, иначе перейти к шагу 3.

· Проверить значение поля ссылки в ячейке таблицы идентификаторов по адресу m_j: если оно пустое, то искомый элемент не найден и алгоритм завершен; иначе – j:=j+1, выбрать из поля ссылки адрес m_j и перейти к шагу 2.

При такой организации таблиц идентификаторов в случае возникновения коллизии алгоритм размещает элементы в ячейках таблицы, связывая их друг с другом последовательно через поле ссылки; элементы не могут попадать в ячейки с адресами, которые потом будут совпадать со значениями хеш-функции. Таким образом, дополнительные коллизии не возникают. В итоге в таблице возникают своеобразные цепочки связанных элементов.

Метод цепочек является эффективным средством организации таблиц идентификаторов.

Достоинства метода цепочек:

· среднее время на размещение одного элемента и на поиск элемента в таблице для него зависит только от среднего числа коллизий, возникающих при вычислении хеш-функции;

· расходы памяти, связанные с необходимостью иметь одно дополнительное поле указателя в таблице идентификаторов на каждый ее элемент, считается оправданными;

· позволяет более экономно использовать память, но требует организации работы с динамическими массивами данных.

Построение таблиц идентификаторов по методу цепочек.

Поиск по сайту