Нейрокомпьютинг и его применения в экономике и бизнесе

Скачать в pdf «Нейрокомпьютинг и его применения в экономике и бизнесе»


д@    Е(@] + s)- Е@ )


dwf ~    s потребовала бы W прямых прогонов через сеть, требующих O(JV) операций каждый. Таким образом «наивный» алгоритм имеет сложность o(w2), что существенно хуже, чем у алгоритма back-propagation.


Использование алгоритма back-propagation


При оценке значения алгоритма back-propagation важно различать нахождение градиента ошибки EE/c^f и его использование для обучения. Иногда под этим именем понимают именно конкретный тип итерационного обучения, предложенный в статье Румельхарта с соавторами. Этот простейший тип обучения (метод скорейшего спуска) обладает рядом недостатков. Существуют много гораздо более хороших алгоритмов обучения, использующих градиент ошибки более эффективно. Ниже мы перечислим некоторые из них, наиболее часто используемые на практике. Подчеркнем, однако, что все они так или иначе используют изложенный выше метод back-propagation для нахождения градиента ошибки.


Итак, простейший способ использования градиента при обучении — изменение весов пропорционально градиенту — т.н метод наискорейшего спуска’.


ЕЕ


Aw = -п . 7dw


Этот метод оказывается, однако, чрезвычайно неэффективен в случае, когда производные по различным весам сильно отличаются, т.е. рельеф функции ошибки напоминает не яму, а длинный овраг. (Это соответствует ситуации, когда активация некоторых из сигмоидных нейронов близка по модулю к 1 или, что то же самое — когда модуль некоторых весов много больше 1). В этом случае для плавного уменьшения ошибки необходимо выбирать очень маленький темп обучения, диктуемый максимальной производной (шириной оврага), тогда как расстояние до минимума по порядку величины определяется минимальной производной (длиной оврага). В итоге обучение становится неприемлемо медленным. Кроме того, на самом дне оврага неизбежно возникают осцилляции, и обучение теряет привлекательное свойство монотонности убывания ошибки.

Рисунок 5. Неэффективность метода скорейшего спуска: градиент направлен не в сторону минимума

Скачать в pdf «Нейрокомпьютинг и его применения в экономике и бизнесе»