Вероятностные модели: определения




Релевантность R определяется как отношение:

· – вероятности того, что d – релевантный и не релевантный соответственно

Допущения:

· Структура документа описывается бинарным вектором в пространстве терминов

· Релевантность документа запросу оценивается независимо от других документов.

Вероятностные модели: правило принятия решения

· Вероятность вычисляется на основе теоремы Байеса:

· P(R) – вероятность того, что случайно выбранный из коллекции документ D является релевантным

· P(d|R) – вероятность случайного выбора документа d из множества релевантных документов

· P(d) – вероятность случайного выбора документа d из коллекции D

 

Вероятностные модели: правило принятия решения

константа, не зависящая от документов

ci – вес релевантности термина, показывающий дискриминантную способность между релевантными и нерелевантными документами термина ti.

Проблема: оценка вероятностей pt и qt

Вероятностные модели: достоинства и недостатки

Достоинства:

· Хорошее теоретическое обоснование

· При имеющейся информации дают наилучшие предсказания релевантности

· Могут быть реализованы аналогично векторным моделям

Недостатки:

· Требуется информация о релевантности или ее приближенные оценки

· Структура документа описывается только терминами

· Оптимальные результаты получаются только в процессе обучения на основе информации о релевантности

Матричная модель

Рассматривает множество из n документов.

На его основе можно построить множество из m терминов, которые хоть раз встречались в каком-либо или более документах.

Можно ввести матрицы сопряженности трех типов:

o “документ-документ”

o “термин-термин”

o “документ-термин”

 

 

 

 


Элемент d [i,j] указывает на наличие терминов содержащихся одновременно в j -м и i -м документах (бинарный случай), либо равен количеству общих терминов в этих документах

 

 


Элемент t[i,j] указывает на наличие документов содержащих одновременно j -й и i -й термины (бинарный случай), либо равен количеству таких документов

Запрос пользователя можно представить в виде:

· n -мерного вектора-строки Q [ qi ], i -ая координата которого не равна нулю в том случае, если i -ый документ включен пользователем в список документов, представляющих его запрос

· m -мерного вектора-столбца Q [ qi ], i -ая координата которого равна единице, если i -ый термин включен пользователем в список терминов, представляющий его запрос.

Реакция системы (вектор релевантностей) на запрос пользователя Q вычисляется как:

· A = C * Q

· Значение i -ой координаты n -мерного вектора A [ ai ] при этом оказывается равным числу терминов запроса (бинарный случай), оказавшихся в i -ом документе.

Информационный поиск описывается в виде итерационного процесса:

A(0) = C*Q(0)

Q(1) = CT*A(0)

A(1) = C*Q(1)

A(t) = C*Q(t)

Q(t+1) = CT*A(t)

Элементы Q(i), i>0, рассматриваются как уточненные величины значимостей терминов в запросе.

Можно заметить, что

Q(t) = (CTС)tQ(0)

A(t) = (CCT)t*A(0)

Из теоремы Сильвестра при достаточно больших t можно получить приближение:

Q(t+1) = λ0Q(t)

A(t+1) = λ0A(t)

где λ0 собственное значение матрицы CTС.

Видно, что с увеличением t векторы Q(t) и A(t) стремятся принимать направления собственных векторов матриц CTС и СCT, соответствующих собственным значениям этих матриц. Т.е. если вектор Q(0) не учитывает фактор поисковой среды, то уже начиная с Q(1) этот фактор учитывается. При больших значениях t вектор Q(t) выражает только свойства самой среды.

Вывод: на первых тактах (при небольших t) итерационный процесс улучшает качество поиска, но при дальнейших итерациях качество поиска ухудшается, поскольку результаты перестают зависеть от запроса пользователя.

Корректировка модели:

A(0) = C*Q(0)

Q(1) = CT*A(0) + Q(0)

A(1) = C*Q(1)

……………………..

A(t) = C*Q(t)

Q(t+1) = CT*A(t) + Q(0)

Можно показать, что при достаточно больших значениях t матрицы Q и A являются решением системы уравнений:

A = CQ

Q = CTA+Q(0)

Лекция 6



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-02-16 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: