ИНДЕКСИРОВАНИЕ ДОКУМЕНТА




ПЛАН

 

1. Общая характеристика процесса индексирования

2. Систематизация

3. Предметизация.

 

 

Общая характеристика процесса индексирования

 

Индексирование представляет собой выражение содержания и формы документов и запросов средствами информационно-поискового языка (ИПЯ).

Содержательное индексирование является сложным интеллектуальным процессом, требующим владения специальными умениями и навыками, а также (желательно) наличия у индексатора особых психических качеств: логичности мышления, хорошей смысловой памяти, внимательности, добросовестности, трудолюбия.

Объектом индексирования может быть отдельный документ, его составная часть или совокупность документов (далее - документ).

 

Индексирование следует проводить на основе непосредственного анализа документа с учетом характера информационно-поискового массива, элементом которого становится ПОД, характера информационных потребностей пользователей данной информационно-поисковой системы (ИПС), в соответствии с общими принципами индексирования и особенностями их применения в конкретной организации.

Процесс индексирования включает операции:

       
 
Анализ содержания индексируемого материала и выбор из него лексических единиц (ЛЕ) — слов или словосочетаний, выражающих смысловое содержание текста  
 
   
 
 

 


 

Поисковый образ документа – это выраженное в терминах формализованного ИПЯ основное смысловое содержание документа (а не вся информация, содержащаяся в документе), которое поставлено в однозначное соответствие этому документу, по которому производится отыскание данного документа в массиве других документов.

Поисковый образ запроса – это совокупность терминов индексирования, выражающих смысловое содержание запроса.

Индексирование означает кодирование по определенным правилам содержания документов для включения их в данную ИПС

ИПЯ строится на базе естественного языка. В состав ИПЯ входят множество лексических единиц и грамматические (парадигматические и синтагматические) отношения между ними.

Парадигматические отношения подчёркивают связи и размежевание между различными отделами и подотделами системы и фиксируются с помощью, например, иерархической структуры таблиц классификации, а также ссылочно-справочного аппарата предметизационного ИПЯ.

Синтагматические отношения – это например, между классификационными индексами в сложных и составных индексах, образованных в соответствии с классификационной формулой, или между ЛЕ в составе сложной предметной рубрики, образованной в соответствии с предметизационной формулой.

Грамматические отношения позволяют организовать ЛЕ в систему.

ИПЯ подчиняется некоторым обязательным требованиям. ИПЯ должен:

- полно и точно передавать содержание, а при необходимости - форму и назначение документа, отражаемого в данной ИПС;

- обеспечивать однозначное толкование терминов индексирования;

- допускать многоаспектное индексирование;

- допускать внесение изменений (дополнений и исправлений);

- обеспечивать достаточную простоту и удобство индексирования, информационного поиска и ведение данной ИПС;

- отражать современное состояние терминосистемы в данной области знания.

 

Качество индексирования определяется двумя показателями: глубиной и детальностью.

1. Глубина индексирования характеризует полноту раскрытия содержания документа в присвоенном ему поисковом образе. Глубину индексирования можно приблизительно оценить числом слов ИПЯ, включенных индексатором в поисковый образ.

2. Детальность индексирования характеризует точность (адекватностъ) отражения содержания документа в поисковом образе. Точность отражения определяется смысловой близостью ключевых слов, включенных в мысленную аннотацию, и слов ИПЯ, образовавших поисковый образ.

И глубина, и детальность являются относительными характеристиками, то есть можно говорить о большей или меньшей глубине или детальности индексирования, но измерить их в абсолютных цифровых величинах не представляется возможным.

Для отражения влияния психологических факторов на качество индексирования вводится понятие «непоследовательность (воспроизводимость) индексирования». Непоследовательность индексирования характеризуется расхождениями по глубине и детальности поисковых образов одного и того же документа, составленных различными индексаторами или одним и тем же индексатором в разное время. Причинами непоследовательности являются различия в знаниях и навыках различных индексаторов (общая эрудиция, ориентировка в данной отрасли знания, опыт работы, владение ресурсами ИПЯ и т.д.), а также психологические качества (память, внимательность, аккуратность и т.п.). Чтобы уменьшить непоследовательность, разрабатываются специальные анкеты, методики, алгоритмические предписания, которыми руководствуются индексаторы, однако при смысловой обработке информации человеком непоследовательность исключить невозможно.

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2020-11-04 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: