Алгоритмы инвертированного (обратного) индекса




Для ускорения поиска информация в базе данных поисковых систем преобразована в текстовые файлы. Каждый из них представляет список слов с сайтов, рядом с которыми располагаются их координаты в исходном тексте и другие параметры. База таких файлов называется обратным индексом, и именно по ним осуществляет поиск алгоритм инвертированного или обратного индекса. Релевантность поисковой выдачи, созданной с помощью таких алгоритмов несколько ниже, нежели у алгоритмов прямого действия, но большая на порядок скорость ответа искупает этот недостаток.

 

Язык запросов — это искусственный язык, на котором делаются запросы к базам данных и другим информационным системам, особенно к информационно-поисковым системам.

Используя язык запроса, содержащий логические операции (логические операторы AND, OR, NOT, скобки и др.), префиксы обязательности присутствия ключевых слов в документе «+» и «-» (при поиске по узкоспециализированным терминам — предпочтительней использовать), расположения ключевых слов в документе рядом или на определенном расстоянии и т. д.) и др. элементы, и большее количество связанных ими ключевых слов, можно значительно сузить область поиска и более качественно составить запрос к поисковому серверу. Следует учитывать, что разные поисковые системы могут иметь как различающиеся языки запросов, так и очень похожие.

Классификация источников информации в Интернете может производиться по разным основаниям:

1. Web-страницы – наиболее распространенный и используемый из информационных ресурсов. Представляет собой страницы, связанные гипертекстом.

2. Файловые серверы – представляют собой реализацию в Интернете традиционного способа предоставления информации;

3. Телеконференции – являются важным источником информации и разбиваются на группы (рубрики) по различным тематикам;

4. Базы данных – в них часто содержится кроме текстовой информации также другие виды информации.

 

Информационные ресурсы также могут быть разделены по языковому признаку. В Интернете представлены практически все основные языки, но превалирующим является английский.

 

Имеет место классификация по территориальному признаку, ряд сайтов представляет информацию для потребителей определенного региона, хотя доступ к ней возможен с любой точки мира.

Наиболее важным аспектом классификации информационных ресурсов сети является содержание информации. Деловая информация, необходимая предпринимательской деятельности, по этому критерию может быть разделена на следующие группы:

  1. Сведения о фирмах и организациях – различают три типа серверов данной группы:
    • серверы присутствия в Интернете делятся на рекламные и информирующие. Рекламные обычно содержат 1 – 2 страницы, когда информирующие содержат более подробную информацию о фирме, о производимой ей продукции и услугах;
    • информационные серверы – их ведут информационно-аналитические агентства, в том числе государственные, чья деятельность связана с предоставлением различного рода информации потребителям;
    • интерактивные магазины – обеспечивают продажу товара посредством Интернета, при этом могут быть реализованы в электронном виде следующие функции:
      1. предоставление клиенту необходимой информации о товаре и услуге;
      2. оформление заказа;
      3. оплата заказа (при использовании онлайновых платежных систем);
      4. отправка заказа, если товаром является информация.
  2. Сведения о состоянии мировой экономики и экономики отдельных стран – данная информация представлена в профессиональных базах крупнейших информационно-аналитических агентств мира. Срверы этих агентств входят в состав информационных ресурсов Интернета. Информация о состоянии национальной экономики обычно размещается на серверах государственных структур, отвечающих за государственную поддержку экономики, также государственных статистических органов и различных экономических институтов;
  3. Сведения о состоянии отраслевых рынков – анализ отраслевых рынков осуществляют специализированные маркетинговые и консалтинговые агентства, а также маркетинговые службы различных фирм и организаций. Результаты этих исследований можно получить:
    • из профессиональных баз крупнейших информационных агентств;
    • в самих агентствах, чьи сайты представлены в Интернете;
    • в многопрофильных и отраслевых журналах, регулярно публикующих обзоры рынков (Эксперт, Профиль и т.д.).
  4. Деловые новости – подавляющее большинство мировых информационных агентств предоставляют потребителям доступ к деловым новостям, из которых можно выделить:
    • зарубежные (Lexis-Nexis, Dialog и т.д.);
    • отечественные (Интегрум-Техно, предоставляющий доступ к материалам 250 центральных и крупнейших региональных газет, РИА-Новости – государственное информационно-аналитическое агентство РФ, ИТАР-ТАСС – государственное информационное агентство РФ, ИНТЕР-ФАКС – агентство, входящее в состав международной информационной группы INTER-FAX INFORMATION SERVICE).

В Интернете также имеются электронные версии различных изданий, которые могут быть как платными, так и бесплатными (газеты Коммерсант, Аргументы и Факты и т.д.).

  1. Cправочная информация – списки веб-сайтов компаний, отобранных по определенному принципу, а также телефонно-адресный справочник (желтые страницы) с возможностью поиска информации по названию фирмы и виду деятельности. Также в Интернете представлены телефонные справочники городов России, стран СНГ и Балтии. Имеется информация о расписании движения поездов, авиарейсов, погоде и т.п.

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-02-12 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: