Коллекция информационных ресурсов.




МОДУЛЬ I. КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ ПОИСКА И ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ

Почасовая формула модуля I: 18 – 0 – 18 – 90 – 126

ТЕМА 1. ТЕХНОЛОГИЧЕСКИЕ ОСНОВЫИНТЕРНЕТА

Почасовая формула темы: 6 – 0 – 4 – 28 – 38

Лекция 1. Компьютерные сети

Лекция 2. Организация и функционирование Интернет а

Лекция 3. Архитектура Web-пространства

ТЕМА 2 ФИЛОЛОГИЧЕСКИЕ РЕСУРСЫИНТЕРНЕТ

Почасовая формула темы: 2 – 0 – 4 – 22 – 28

Лекция 4 Филологические ресурсы Интернета

ТЕМА 3 АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ.

Почасовая формула темы: 10 – 0 – 10 – 30 – 50

Лекция 5. Виды и свойства, направления исследования информации.

Лекция 6. Теоретические основы поиска информации.

Лекция 7. Ключевые понятия и термины описания массивов информации.

Лекция 8. Характеристика технологий автоматического извлечения информации.

Лекция 9. Извлечение информации из слабоструктурированных источников.

 

 

Именно поэтому лекция, имевшая ранее индекс «Лекция 3(4)» теперь будет иметь № 8. Конспект текста этой лекции и предлагаю Вам для ознакомления.

 


ЛЕКЦИЯ 8. ХАРАКТЕРИСТИКА ТЕХНОЛОГИЙ АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ.

План.

1. Информационные ресурсы.

1.1. Коллекция информационных ресурсов.

1.2. Электронные библиотеки.

1.3. Репозитории[1].

1.3.1. DSpace

1.3.2. EPrints

1.3.3 Fedora

1.3.4. Greenstone

1.4. Институциональный репозиторий.

2. Интеллектуальный анализ текстов.

2.1. Технологии выделения фактографической информации.

2.2. Фазы автоматизированного процесса извлечения информации.

2.3. Технологии, средства и способы первичной обработки информации

2.3.1. Объектно-ориентированный подход.

2.3.2. Полиморфизм и наследование.

2.4. Развитие методов и средств извлечения информации.

– 2.4.1. Основы технологии Text data mining.

– 2.4.2. Основы технологии TextMining.

2.5. Информационно-поисковые системы.

 

Информационные ресурсы

Одним из основных результатов созидательной, социальной и интеллектуальной человеческой деятельности является создание и накопление информационных ресурсов с целью их дальнейшего использования и недопущения утраты опыта предыдущих поколений. В широком смысле Информационные ресурсы – это совокупность данных, организованных для эффективного получения достоверной информации.

Проблемы создания информационных ресурсов и продуктов являются приоритетными направлениями развития многих стран, в том числе и в России, где эти проблемы отнесены к критическим направлениям развития общества. Информация является важнейшим стратегическим ресурсом и наибольший экономический и социальный успех сегодня сопутствует тем странам, которые активно используют современные средства компьютерных, информационных технологий и систем управления информационными ресурсами.

Основной целью повышения степени информированности общества в целом и каждого его члена в отдельности является формирование общественного сознания на основе научно обоснованной и достоверной картины мира. При этом важным является не просто пассивная доступность любой информации, а правильное и своевременное ее использование в гармоничном сочетании интересов общества и личности.

Технической основой повышения степени информированности является компьютеризация и всемерное развитие систем связи. При этом появляется дополнительная форма отчуждения человеческого знания, его активизация и использование как непосредственной производительной силы в виде программного обеспечения ЭВМ.

Важной социально-образовательной предпосылкой информатизации является распространение компьютерной грамотности и становление информационной культуры в обществе.

Коллекция информационных ресурсов.

Коллекция информационных ресурсов – это систематизированная совокупность ресурсов, объединенных по какому-либо критерию принадлежности, например, по общности содержания, источников, назначения, авторства, круга пользователей, владельца, по способу доступа и т.д.

Не только в науке, но и в бытовой реальности человек постоянно обращается к информационным ресурсам, заботливо собираемым обществом, ищет, находит и использует нужную ему информацию.

Рассмотрим простейший пример поиска:

Элементарная бытовая ситуация: Элементарная информационная ситуация
Поиск начинается с оценки ситуации. Поиск начинается с оценки ситуации.
Человеку нужно приобрести товар (не имеет значения, какой именно). Для этого у него должны быть средства (деньги). Понятно, что ситуация может быть разрешена при наличии у покупателя нужного количества денег. Для простоты анализа денежную сторону операции приобретения мы рассматривать не будем. Человеку нужно получить информацию (не имеет значения, какую именно). Для этого у него должны быть средства (компьютер). Понятно, что ситуация может быть разрешена при наличии компьютера, имеющего нужные возможности и программы. И здесь для простоты анализа эту сторону операции получения информации мы рассматривать не будем.
Покупке предшествует поиск нужного товара. Получению предшествует поиск нужной информации.
Оценка ситуации: первое ограничение. Оценка ситуации: первое ограничение.
Если, например, человеку нужно купить ботинки, то, понимая, что они не продаются в аптеках и книжных магазинах, покупатель отправится не в книжный, а в обувной магазин. Если, например, человек желает получить сведения о выращивании кактусов, то, понимая, что они отсутствуют в прогнозе погоды и ленте новостей, он отправится на ботанический сайт
Оценка ситуации: второе ограничение. Оценка ситуации: второе ограничение.
Предположим, что магазин обуви предлагает бесконечно разнообразный выбор. Предположим, что ботанический сайт предлагает бесконечно разнообразный выбор.
Покупателя интересует мужская обувь для лета. Он переходит в соответствующий зал. Любителя-цветовода интересует выращивание суккулентов. Он переходит на соответствующую страницу.
Поиск объекта Поиск объекта
Покупатель находит нужную ему группу товаров: летние мужские ботинки Цветовод находит нужную ему группу растений – асфоделиевые.
Поиск экземпляра объекта Поиск экземпляра объекта
Покупатель выбирает и примеряет понравившиеся ему ботинки. Цветовод находит описание нужного ему экземпляра растения – хавортия.
Без дальнейшей детализации Без дальнейшей детализации
Покупатель приобретает товар Цветовод извлекает нужную ему информацию, например, распечатывает правила ухода за хавортией, выращиваемой в горшке на подоконнике.

Примерно так обстоят дела на этапе, предшествующем собственно автоматическому извлечению информации.

Поиск информации цветоводом осуществлялся благодаря наличию в Интернете коллекций информационных ресурсов.

Электронные библиотеки.

Одним из наиболее распространённых в филологических исследованиях источников информационных ресурсов являются электронные библиотеки. Существует несколько дефиниций, определяющих, что имеется в виду под понятием электронная библиотека.

1) Электронная библиотека – распределенная информационная система, позволяющая надежно сохранять и эффективно использовать разнородные коллекции электронных документов через глобальные сети передачи данных в удобном для конечного пользователя виде.

2) Электронная библиотека – это информационная система, объединяющая свои ресурсы единой идеологией структуризации.

3) Электронная библиотека – это вид информационных систем, в котором документы хранятся и могут использоваться в машиночитаемой (“электронной”) форме, причем программными средствами обеспечивается единый интерфейс доступа из одной точки к электронным документам, содержащим тексты и изображения. База данных ЭБ может состоять из различного вида электронных коллекций документов. Электронные издания на оптических компакт-дисках включаются в ЭБ только при условии, если Библиотека выставляет их в сети (локальной или глобальной), обеспечивая ту же систему доступа и поиска, что и к остальным документам ЭБ.

Примеров электронных библиотек множество. По моему мнению, лучшей из них (идеальной по доступности, удобству поиска и достаточно чётко обозначенной интеллектуальной сфере является feb-web.ru – «Фундаментальная электронная библиотека “Русская литература и фольклор”» – полнотекстовая информационная система по произведениям русской словесности, библиографии, научным исследованиям и историко-биографическим работам. Основное содержание ФЭБ представляется в электронных научных изданиях (ЭНИ), каждое из которых посвящено отдельному автору (Пушкин, Лермонтов,...), жанру (былины, песни,...) или произведению ("Слово о полку Игореве",...). Особенности ФЭБ: точность представления и описания информации, системность формирования, развитые средства навигации и поиска.

Репозитории.

Репозиторий (repository) — место, где хранятся и поддерживаются какие-либо данные (информационные ресурсы).

Как правило, данные в репозитории хранятся в виде файлов вместе их описаниями (метаданными).

Репозитории используются для хранения документов в электронных библиотеках и как системы поддержки программного обеспечения(например, репозиторий CTAN - The Comprehensive TeX Archive Network - международный TeX архив), а также в системах управления версиями, в них хранятся все документы вместе с историей их изменения и другой служебной информацией. Термин репозиторий близок по своему смыслу к термину хранилище, поскольку это соответствует как прямому переводу слова «repository».

DSpace

DSpace – это самое популярное в академической среде программное обеспечение для создания архива электронных ресурсов (цифрового репозитория). DSpace обеспечивает платформу для долгосрочного хранения цифровых материалов, используемых в академических исследованиях.

Платформа DSpace разрабатывалась совместно компанией Hewlett-Packard и библиотеками MIT (Massachusetts Institute of Technology). В ноябре 2002 года система была запущена как действующая служба, поддерживаемая библиотеками MIT. Движение Scholarly Communication (Общение в мире науки) так же оказывало влияние на развитие DSpace, вследствие чего конфигурация по умолчанию направлена на поддержку научных статей.

Подробнее о DSpace можно узнать на официальном сайте https://www.dspace.org/. C 2009 года DSpace поддерживается сообществом DURA Space, которое образовано путем слияния двух проектов DSpace Foundation и Fedora Commons.

DSpace — открытое, свободное (лицензия BSD) кроссплатформенное J2EE приложение. Для сборки и функционирования DSpace требуется J2EE контейнер. Желательно использовать Oracle Java 6 (обычного JDK достаточно, J2EE использовать не обязательно). С работоспособностью под Oracle Java 7 имеются проблемы. Для версии 3.х возможно использование как Oracle Java 6 так и Oracle Java 7 (для сборки потребуется maven 2.2 и выше). Для хранения метаданных и другой информации можно использовать СУБД Oracle или PostgreSQL.

Для базовой организации данных зафиксирована определенная модель данных, основанная на схеме Dublin Core и ее расширениях, система хранит (конвертирует) и индексирует метаданные в разнообразных форматах (DIM, MODS, METS, QDC, MARC и др.).

Система хранит информацию о пользователях системы и поддерживает авторизацию и разграничивает доступ к содержимому репозитория. Кроме того, такие функции как депонирование и редакторская проверка привязаны к соответствующим пользователям и ограничиваться ими.

DSpace работает со всеми стандартными для библиотечной сферы протоколами, такими, как стек протоколов Z39.50 и OAI-PMH.

EPrints

EPrints - вторая в академическом мире по популярности после DSpace система, которая используется для формирования и управления открытыми архивами и предназначена для создания архивов научных исследований с большим разнообразием информационных ресурсов (научные статьи, отчеты, диссертации, монографии, учебно-методические пособия, материалы конференций, данные результатов экспериментов и наблюдений и т.п.).

Открытые архивы, созданные в среде EPrints, поддерживают протокол обмена метаданными ОАІ-PMH (Open Archives Initiative – Protocol for Metadata Harvesting), который обеспечивает глобальные услуги доступа и поиска. Инициатива «Открытые архивы» (ОАІ, Open Archives Initiative) разрабатывает и продвигает стандарты интероперабельности с целью эффективного распространения электронных ресурсов, а также повышения доступности обмена научной информацией.

EPrints - свободно распространяемое программное обеспечение под лицензией GNU, используемое для формирования и управления Открытыми Архивами. ПО EPrints разработано в Школе электроники и информатики Университета Саутгемптона (Великобритания). С созданием системы EPrints тесно связан проект TARDis (Targeting Academic Research for Deposit and Disclosure), основной задачей которого было исследование всех сторон создания электронного архива с целью разработки типового архива для академических учреждений.

Основными системными требованиями для EPrints являются: ОС Unix, язык программирования Perl, сервер баз данных MySQL, веб-сервер Apache.

Fedora

Научно-исследовательский проект Корнельского университета Fedora (Flexibile Extensible Digital Object Repository Architectur) - предназначается в качестве платформы для хранения, управления и доступа к цифровому контенту (цифровым объектам). Fedora определяет набор абстракций для выражения цифровых объектов, отношения между цифровыми объектами, связи и поведение цифровых объектов.

Проект поддерживается (как и проект DSpace) сообществом DURASpace, которое образовано путем слияния двух проектов цифровых репозиториев DSpace Foundation и Fedora Commons.

Сайт проекта https://www.fedora-commons.org/

Ядро репозитория Fedora предоставляет набор веб-сервисов с четко определенными API. Кроме того, Fedora предоставляет широкий спектр вспомогательных сервисов и приложений, включая поиск, поддержку OAI-PMH, обмен сообщениями, управление клиентами и многое другое.

Метаданные о содержании могут быть представлены в любом формате, обеспечивается поддержка RDF.

В отличие от DSpace, Fedora больше подходит для хранения произвольных цифровых объектов, например, программного обеспечения.

Greenstone

Greenstone - свободно распространяемое программное обеспечение для создания и поддержания институциональных репозиториев открытого доступа (цифровых онлайн библиотек). Оно является открытым и многоязычным, выпускается под лицензий GNU. Полный интерфейс Greenstone и вся документация доступны на английском, французском, испанском, русском и казахском языках.

Greenstone работает под MS Windows, Unix и Mac OS X. Дистрибутив включает готовые к использованию наборы для всех версий операционных систем и полный исходный код для системы, которая может быть скомпилированы с использованием Microsoft C++ или GCC. Greenstone работает совместно с свободно распространяемым программным обеспечением: Apache Webserver и PERL.

Основная схема данных Dublin Core с квалификаторами, основные форматы документов HTML и MS Word. Для программного доступа к ресурсам имеется собственный API, отличный от стандартных протоколов доступа к цифровым репозиториям таких, как OAI или SRU/SRW, однако есть поддержка протокола Z39.50.

Для организации просмотра материала предусмотрено использование внутренних классификаторов.

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2020-06-29 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту:

Обратная связь