Положительные и отрицательные стороны наивного байесовского метода.




Положительные стороны:

· Классификация, в том числе многоклассовая, выполняется легко и быстро.

· Когда допущение о независимости выполняется, НБА превосходит другие алгоритмы, такие как логистическая регрессия, и при этом требует меньший объем обучающих данных.

· НБА лучше работает с категорийными признаками, чем с непрерывными. Для непрерывных признаков предполагается нормальное распределение, что является достаточно сильным допущением.

Отрицательные стороны:

· Если в тестовом наборе данных присутствует некоторое значение категорийного признака, которое не встречалось в обучающем наборе данных, тогда модель присвоит нулевую вероятность этому значению и не сможет сделать прогноз. Это явление известно под названием «нулевая частота» (zero frequency). Данную проблему можно решить с помощью сглаживания. Одним из самых простых методов является сглаживание по Лапласу (Laplace smoothing).

· Хотя НБА является хорошим классификатором, значения спрогнозированных вероятностей не всегда являются достаточно точными. Поэтому не следует слишком полагаться на результаты, возвращенные методом predict_proba.

· Еще одним ограничением НБА является допущение о независимости признаков. В реальности наборы полностью независимых признаков встречаются крайне редко.

Сравнение моделей.

При сравнении моделей используется правило бритвы Оккама в следующей формулировке: Совместный Байесовский вывод автоматически количественно выполняет правило Оккама. Бритва Оккама — принцип предпочтения простых моделей (теорий, гипотез) сложным. Если несколько моделей одинаково хорошо описывают наблюдения, принцип Оккама рекомендует выбор простейшей модели.

Теорема Байеса говорит о том, что наиболее вероятными будут те модели, которое наиболее точно предсказывают появление некоторых данных. Эта вероятность определяется нормализованной функцией распределения на пространстве данных D. Вероятность P(D/Hi) появления данных D при фиксированной модели Hi называется правдоподобием модели Hi.

Простая модель H1 описывает ограниченное множество данных, что показано функцией плотности распределения P(D/H1). Более сложная модель H2, имеющая, например, большее количество параметров, описывает (иначе говоря, приближает с некоторой точностью, не хуже заданной) большее множество данных. Это, согласно нормированию функции плотности распределения, означает, что в некоторой области C1 простая модель H1 будет более вероятной при условии, что обе модели имеют одинаковую априорную вероятность.

Найдем правдоподобие двух альтернативных моделей H1и H2, описывающих данные D. По теореме Байеса мы связываем правдоподобие P(H1/D) модели H1 при фиксированных данных, вероятность P(D/H1) получения данных с этой моделью и априорное правдоподобие P(H1) модели H1. Так как значение нормирующего множителя для обеих моделей одинаково, то отношение правдоподобия моделей H1 и H2 имеет вид

(1)

Отношение в правой части указывает на то, насколько велико априорное предпочтение модели модели . Отношение указывает насколько модель H1 соответствует наблюдаемым данным лучше, чем модель H2.

Выражение (1) вводит правило Оккама следующим образом. Во-первых, возможно задать отношение так, чтобы оно отражало сложность моделей на основании некоторой дополнительной информации. Во-вторых, независимо от предыдущего способа задания критерия отбора моделей, это отношение автоматически выполняет правило Оккама. Действительно, если H2 — более сложная модель, ее плотность распределения P(D/H2) имеет меньшие значения, при том условии, что ее дисперсия больше. Если невязки, доставляемые обеими моделями равны, простая модель H1 будет более вероятна, чем сложная модель H2.

Таким образом, независимо от априорных предпочтений, вводится правило Оккама, согласно которому при равных априорных предпочтениях и равном соответствии предполагаемых моделей измеряемым данным, простая модель более вероятна, чем сложная.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2019-01-11 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: