Второй закон Зипфа (количество-частота)




Саратовский государственный технический университет

 

ПОИСКОВЫЕ ИНТЕРНЕТ СИСТЕМЫ

 

 

Методическое указание

к лабораторной работе по дисциплине «Информатика»

для студентов направления подготовки

«(11.03.02) 210700.62 "Инфокоммуникационные технологии и системы связи»

Профиль «Системы мобильной связи »

 

 

 

Саратов 2015

 

Цель работы: освоение навыков использования поисковых систем сети Интернет для получения информации.

 

1. ОСНОВНЫЕ ТЕОРЕТИЧЕСКОЕ ПОЛОЖЕНИЯ

 

Поисковыми системами называют один из сервисов сети Internet, позволяющий находить необходимую информацию по ключевым словам и словосочетаниям. Хорошо известными примерами являются: www.google.com; www.yandex.ru; www.rambler.ru; www.narod.ru; www.yahoo.com

Рассмотрим лингвистические особенности реализации поисковых систем. В них применяется очень специфичный язык – «язык спроса», то есть язык формулировки запросов пользователей. Его особенности:

1. 99.9% запросов являются нечеткими, то есть подразумевают несколько вариантов ответа

2. очень много запросов являются ошибочными

3. почти половина всех запросов состоит из одного слова

4. повторяемость запросов определяется таким параметром как частота запроса, т. е. ежемесячное количество обращений пользователей к данным запросам

5. все запросы имеют разную значимость, которая определяется смыслом запроса.

Значимость является субъективным фактором и во многом зависит от организации сайтов. Целью оптимизации сайта является достижение такой ситуации, когда ссылка на этот сайт устойчиво оказывается в числе первых 10 результатов поиска по избранному поисковому запросу. Вне зависимости от выбранной темы, языка или автора, как было установлено лингвистами, внутренняя структура текста остается неизменной и описывается законами Зипфа. Эти законы базируются на постулате: короткие слова встречаются в тексте чаще чем длинные.

 

Первый закон Зипфа (ранг-частота)

 

Частотой вхождения слова А называется число раз, которое оно встречается в тексте, её можно установить эмпирически. Отношение частоты вхождения слова к общему числу слов в тексте носит название вероятности. Порядковый номер частоты называется рангом частоты – В (наиболее часто встречаемое слово имеет ранг В=1, следующее по частое – 2 и т.д.).

(1)

М – общее число слов.

Таким образом, если самое распространенное слово встречается в тексте 100 раз, то следующее за ним по частоте слово будет встречаться 50-52 раза. Сангл=0,1; Срус=0,06-0,07.

 

Второй закон Зипфа (количество-частота)

 

Известно, что разные слова могут входить в текст с одинаковой частотой. Если при этом построить график, на котором по горизонтальной оси отложить частоту вхождения слова, а по вертикальной оси количество слов на данной частоте, то получится кривая (рис.1), которая будет сохранять свои параметры для всех без исключения при этом форма этой кривой остается постоянной для любого языка.

 

Рис.1

 

Современные исследования показали, что наиболее значимые слова размещаются в средней части диаграммы. Наиболее частыми словами являются либо предлоги, либо местоимения. Редко встречающиеся слова в большинстве случаев также не имеют решающего смыслового значения. Каждая поисковая система имеет свои технологии и правила в задании диапазона значимых слов. Если этот диапазон слишком широкий, то вспомогательные слова заслонят собой необходимые термины. Если он окажется слишком узкий, может произойти потеря смысловых терминов.

Для того чтобы избавиться от лишних слов и в то же время поднять рейтинг значимых слов, введен специальный параметр инверсная частота:

 

, (2)

 

где i – термин; Р – количество документов в базе данных; Qi – количество документов, содержащих i -й термин.

Значение Fi тем меньше, чем чаще слово встречается в документах базы данных. Теперь каждому термину присвоим весовой коэффициент:

, (3)

 

где Н – частота i-го термина в j-ом документе; F – вес (значимость).

Современная поисковая система может строить весовые коэффициенты с учетом местоположения термина внутри документа, взаимного расположения терминов, а также морфологических особенностей текста.

База данных документов должна определенным образом взаимодействовать с пользовательским запросом. Запросы могут быть простыми (из одного слова) и сложными. Соответственно различают структуры баз данных. Наиболее простая структура, удобная для многовариантного поиска получила название матрица. Пусть имеется шесть документов, в которых содержится пять терминов. Если термин входит в документ, в соответствующей позиции ставится 1, в противном случае 0.

 

  D1 D2 D3 D4 D5 D6
T1            
T2            
T3            
T4            
T5            

 

Еще одна структура получила название пространственно-векторная модель. Все документы базы данных помещаются в многомерное виртуальное пространство, и координаты каждого документа зависят от структуры содержащихся в нем терминов, весовых коэффициентов, положения внутри документов и т. д. В результате запроса документы с похожим набором терминов разместятся в пространстве ближе друг к другу. Здесь α – формирующий сектор запроса.

 

 

Рис.2

 

Получив запрос, поисковая система удаляет лишние слова, выделяет термины и вычисляет вектор запроса в пространстве документа. После этого она выдает те документы, которые попали в заданный сектор.

 

 

2. ЗАДАНИЕ НА ПРОВЕДЕНИЕ ПОИСКА

 

2.1. Найти 10 статей или книг на русском или английском языке опубликованных после 2002 года в названии которых имеются следующие ключевые словосочетания (см табл. 1).

 

 

Таблица 1

 

Словосочетания Словосочетания
  Оптические волокна   Системы автоматизированного проектирования
  Оптические интегральные схемы   Обработка сигналов
  Фазированные антенные решетки   Электромагнитная совместимость
  Электромагнитные поля   Математические модели
  СВЧ нагрев   Нанокомпозитные материалы
  Компьютерное моделирование   Системы связи
  Защита информации   Телекоммуникационные системы
  СВЧ антенны   Локальные вычислительные сети
  Микрополосковые линии   Измерительные системы
  СВЧ излучение   Радио сигналы
  Фазовращатели   Компьютерные сети
  Электродинамика   Информационные технологии
  Сети и протоколы   Приборы СВЧ
  Цифровое телевидение   Магнетроны
  Метод конечных элементов   Диоды Ганна

 

2.2. Найти значения диэлектрической проницаемости, теплопроводности, плотности и теплоемкости следующих материалов (см. табл.2). Для таких материалов, как древесина, резина, керамика информация о свойствах может быть представлена без уточнения типа того или иного материала. Теплопроводность должна быть установлена в единицах [Вт/(м·К)], плотность в [кг/м3], теплоемкость в [Дж/(кг·К)].

 

Таблица 2

Материал Материал
  Керамика   Глицерин
  Резина   Нефть
  Древесина   Этанол
  Стекло   Цеолит
  Кровь   Бензин
  Плексиглас   Тефлон
  Спирт   Лед
  Бумага   Бакелит
  Этиленгликоль   Слюда
  Песок   Люминофор
  Полиэтилен   Растительное масло
  Ацетон   Воск
  Парафин   Кварц
  Фторопласт   Асбест
  Поликор   Соль

 

 

3. СОДЕРЖАНИЕ ОТЧЕТА

3.1 Наименование и цель работы.

3.2 Теоретическая часть.

3.3 Задание на поиск.

3.4 Результаты поиска и выводы.

3.5 Источники информации.

 

Литература

1. Кормен Т.Х., Лейзерсон Ч., Ривест Р., Штайн К. Алгоритмы: построение и анализ. 2-е изд. М.: ИД «Вильямс», 2012. 1296 с. (НБ СГТУ 12 экз.)

2. Кудряшов Б.Д. Теория информации: учеб. пособие. СПб. [и др.]: Питер, 2009. 320 с. Гриф: допущено УМО вузов по университет. политехн. образованию в качестве учеб. пособия для студ. вузов, обуч. по напр. подг. 230200 «Информационные системы». (НБ СГТУ 50 экз.)

3. Гарибов А.И. Информатика [Электронный ресурс]: учебное пособие/ Гарибов А.И., Куценко Д.А., Бондаренко Т.В.— Электрон. текстовые данные.— Белгород: Белгородский государственный технологический университет им. В.Г. Шухова, ЭБС АСВ, 2012.— 224 c.— Режим доступа: https://www.iprbookshop.ru/27282.— ЭБС «IPRbooks».

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2019-06-03 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: