При проектировании и обучении нейронных сетей необходимо соблюдать определенную осторожность, поскольку основной задачей является достижение минимальной ошибки обобщения, или прогноза, а не обучения. Негативным результатом обучения искусственной нейронной сети может быть так называемое переобучение, при котором сеть, по существу, запоминает обучающие факты; при этом она обладает минимальной предсказательной способностью, если на ее вход подаются новые факты. Переобученная нейронная сеть не будет обладать гибкостью, способностью к обобщениям. Для уменьшения вероятности переобучения необходимо, по возможности, не увеличивать количество слоев и нейронов в скрытых слоях и использовать как можно больше фактов при обучении. Существуют эмпирические правила, помогающие определять диапазоны изменения числа скрытых нейронов и обучающих фактов.
Нейросетевые методы обладают рядом положительных свойств, определяющих области их использования:
- адаптируемость. Это свойство характеризует способность нейросетевых моделей к саморегулированию и проявляется в том, что и без участия человека (например, в форме написания алгоритмов для каждой проблемы) искусственная нейронная сеть способна автономно подбирать взвешенные соединения внутри сети для достижения лучших результатов. Адаптируемость лежит в основе присущего нейросетевым методам свойства обучаться на примерах;
- распределенная ассоциативная память. Распределенный характер памяти заключается в том, что элементы знаний распределены по множеству взвешенных соединений, которые и выполняют роль устройств памяти. Ассоциативность памяти состоит в том, что обученная искусственная нейронная сеть способна порождать полноценный выход в ответ на частичный вход;
|
— обобщение. Является следствием распределенности и ассоциативности памяти нейронной сети и проявляется в способности нейросетевых систем давать рациональный выход на ранее неизвестный вход. Свойство обобщения, лежащее в основе распознавания образов, заключается в способности сетей производить классификацию примеров из некоторой предметной области в группы, поддающиеся осмыслению специалистами, а затем вырабатывать обобщенный ответ. Исключительно важным является свойство нейросетей самостоятельно выполнять так называемый анализ чувствительности, выявлять силу влияния отдельных факторов, используемых при обучении, на выходные параметры. По результатам такого анализа появляется возможность исключить из рассмотрения факторы с несущественным влиянием и выявить определяющие факторы;
— отказоустойчивость. Это свойство заключается в том, что сеть продолжает функционировать даже тогда, когда некоторое количество нейронов и/или их связей выведено из строя. Нейросетевые системы отказоустойчивы поскольку информация распределена по всей системе. Отказоустойчивость определила применение нейросетевых технологий в областях повышенного риска;
— параллельная обработка. Это форма вычислений, при которой множество вычислений выполняются одновременно. Нейронно-сетевые методы допускают эффективную реализацию параллельных вычислений, поскольку представляют относительной простой механизм разделения вычислительной задачи на независимые подзадачи.
|
Существует большой круг задач, где нейросетевые методы работают очень хорошо. Но кроме того, что нейронные системы накапливают знания в виде весов связей между нейронами, а эти знания в подавляющем большинстве случаев не могут быть истолкованы человеком, у них имеется два недостатка. Первый минус заключается в том, что очень трудно оценить статистическую значимость получаемых в процессе обучения прогностических моделей. Представим, что нейросистеме предъявлено некоторое количество записей для обучения, скажем, двести-триста штук. Сеть обучается очень хорошо предсказывать значения выходных параметров на этих записях, но очень трудно понять, насколько устойчива эта зависимость, определяющая предсказываемые значения, насколько значима полученная связь, и будет ли она так же хорошо работать для других данных. Все дело здесь в большом количестве степеней свободы. Фактически, степенью свободы является каждый вес связи между нейронами, и если, скажем, наша сеть включает несколько десятков нейронов, число ее степеней свободы составляет несколько сотен. Разумеется, что подгонкой по этим степеням свободы можно достичь очень точного предсказания для обучающей выборки, но совершенно неочевидно, что предсказания будут также правильны и для новых данных, не использованных в обучении.
Второй недостаток заключается в том, что нейронная сеть – это очень специфическая структура, и она хорошо имитирует, хорошо может выразить только достаточно узкий круг возможных зависимостей. Естественно ее использование, скажем, для описания некоторых аналоговых распределенных систем распознавания образов, когда веса связей могут быть непосредственно физически интерпретированы как энергии связей отдельных нейронов сети. Однако, подобные приложения весьма и весьма редки. А, скажем, сильно нелинейные зависимости, зависимости с разрывами, с острыми пиками и другими особенностями сравнительно плохо воспроизводятся нейронной сетью в силу ее непрерывного характера. Тем не менее, это очень популярный класс систем, который часто неплохо работает и используется во многих прикладных областях.
|
Нейросетевые методы довольно требовательны к вычислительным мощностям, и в наиболее тяжелых случаях, когда требуется обрабатывать большое количество данных, имеет смысл применять параллельную архитектуру. Весьма эффективны такие системы, где каждый процессор реализует отдельный нейрон; аппаратная реализация такой архитектуры весьма естественна. Однако такие программно-аппаратные комплексы весьма дороги. Их высокая стоимость и определила широкое распространение программ, способных эмулировать работу нейросети на обычных компьютерах.
Основной недостаток, сдерживающий использование нейронных сетей для извлечения знаний – их “непрозрачность”. Построенная модель, как правило, не имеет четкой интерпретации. Недавно были предложены алгоритмы, которые могут транслировать модель нейронной сети в набор более легко воспринимаемых правил. Такую надстройку над технологиями нейронной сети предлагают некоторые оригинальные продукты, но суть лежащих в их основе алгоритмов – это уже отдельная тема.