Автоматизация индексирования документов




Комментарии: Базовые тезаурусы посвящены тематикам нормативных пособий по построению рабочих тезаурусов. Они содержат лишь соответствующие нормативные термины из этих пособий. Рабочие тезаурусы содержат термины из всех остальных книг (документов). Именно эти документы и ищутся соответствующей ИПС, к которой относятся эти тезаурусы.

Первоначально созданные информационно-поисковые системы не предполагали автоматизации индексирования, которое осуществлялось людьми - специально подготовленными специалистами-экспертами в предметной области ИПС.

Недостатки такого подхода:

- высокие накладные расходы на создание и ведение документальных ИПС, т.к. требуется наличие в организационном штате высококвалифицированных специалистов-индексаторов,

- человеческий фактор – субъективность поисковых образов одного документа, проиндексированного разными специалистами,

- ограничения на объем потока документов – при большом объеме документов, возникают трудности при индексировании.

Применение системы унитермов Тауба (рассматривать не будем) позволило снизить профессиональные требования к уровню квалификации индексаторов, за счет формализации процесса индексирования, но не решило всех проблем.

 


Рисунок 3.3. Автоматическое индексирование

В рамках Кренфилдского проекта, проводившегося в конце 1950-х – начале 1960-х годов, исследовалась эффективность систем на основе УДК (рассматривать не будем), системы унитермов, фасетной системы и некоторых их разновидностей. Результаты исследований выявили:

- при повышении полноты поиска на основе использования каких-либо семантических методов при индексировании происходит снижение точности поиска и наоборот (если мы дадим для поиска слово "трактор", то будет найдено огромное кол-во документов, следовательно, если точность поиска низкая, то полнота поиска высокая если - "трактор Беларусь", то документов станет меньше, следовательно, если точность поиска выше, то полнота поиска становится меньше).

- небольшое отличие в показателях эффективности поиска документов с развитой семантикой индексирования и в системах на основе неконтролируемой лексики. Поиск с учётом семантики большого эффекта не даёт по сравнению с поиском без учёта семантики.

Последний результат привлек внимание к более простым и дешевым дескрипторным системам с неконтролируемой или слабо контролируемой лексикой, практически без учёта семантики. Сформировалось два подхода к автоматизации индексирования (Рисунок 3.3).

Особенности полнотекстового индексирования будут рассмотрены в следующей главе. Индексирование при другом подходе осуществляется путем последовательного автоматического поиска в тексте документа каждого ключевого слова. На этой основе строится и поддерживается индекс системы, реализующий поисковое пространство документов. Применяется два вида образования индекса – прямой и инвертированный (Рисунок 3.4).

       
 
    Номера документов Термины
  с1 с2 с3 с4 с5
a1   x   x  
a2 x x x    
a3     x   x
a4 x     x x
Прямой тип организации индекса

 

 
Номера документов
Т е р м и н ы   a1 a2 a3 a4
c1   x   x
c2 x x    
c3   x x  
c4 x     x
c5     x x
Инвертированный тип организации индекса

 

 

 

 


Рисунок 3.4. Два вида образования индекса – прямой и инвертированный

В таблицах символ Х означает наличие данного термина в данном документе. Одна таблца из другой получается путём инверсии (транспонирования) - столбцы становятся строками и наоборот. В этом и состоит различие этих методов.

Прямой тип индекса строится по схеме "Документ – термины". Поисковое пространство в этом случае представлено в виде матрицы размерностью NxM (N – количество документов, M – количество ключевых слов). Строки этой матрицы представляют поисковые образы документов.

Инвертированный тип индекса строится по обратной схеме – "Термин – документ". Поисковое пространство представлено аналогичной матрицей в транспонированной форме. Поисковыми образами документов в этом случае являются столбцы.

На основе автоматического индексирования документов по ключевым терминам также могут решаться и задачи автоматической классификации документов. Принцип решения таких задач аналогичен информационному оповещению. Для конкретного класса документов (рубрик) строится поисковый образ в виде набора терминов или их сочетаний. Поисковые образы документов из внешних источников сравниваются по определенному критерию с поисковым образом рубрики, и на основе этого принимается решение о внесении документа в базу и отнесении его содержания к предметной области ИПС.

Комментарии: Пусть у нас есть специализированная ИПС, посвященная велосипедам. В индексе этой ИПС содержатся многочисленные ключевые слова из документов, уже охваченной этой ИПС. Эти документы проиндексированы. Появился новый документ. Как узнать, о велосипедах он или нет? - Компьютер собирает ключевые слова по этому новому документу и смотрит, есть ли эти ключевые слова в индексе нашей ИПС. Если большинство из этих слов там есть, следовательно, новый документ по тематике соответствует нашей ИПС. Тогда этот документ индексируется и добавляется к индексу нашей ИПС.

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-02-16 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: