Dlaczego sztuczne nawracające sieci neuronowe często trudno trenować?

Wideo: DL - 1.1 (Piszemy pierwszą sieć neuronową)

Zawartość

P:

ZA:

Trudność szkolenia sztucznych nawracających sieci neuronowych wiąże się z ich złożonością.

Jednym z najprostszych sposobów wyjaśnienia, dlaczego nawracające sieci neuronowe są trudne do wyćwiczenia, jest to, że nie są one sprzężonymi sieciami neuronowymi.

W sprzężonych sieciach neuronowych sygnały poruszają się tylko w jedną stronę. Sygnał przechodzi z warstwy wejściowej do różnych ukrytych warstw i przesuwa się do warstwy wyjściowej systemu.

Natomiast nawracające sieci neuronowe i inne typy sieci neuronowych mają bardziej złożone ruchy sygnałów. Sklasyfikowane jako sieci „zwrotne”, rekurencyjne sieci neuronowe mogą mieć sygnały przesyłane zarówno do przodu, jak i do tyłu, i mogą zawierać różne „pętle” w sieci, w których liczby lub wartości są przesyłane z powrotem do sieci. Eksperci kojarzą to z aspektem nawracających sieci neuronowych związanych z ich pamięcią.

Ponadto istnieje inny rodzaj złożoności wpływającej na nawracające sieci neuronowe. Doskonałym tego przykładem jest przetwarzanie języka naturalnego.

W zaawansowanym przetwarzaniu języka naturalnego sieć neuronowa musi być w stanie zapamiętać różne rzeczy. Musi także brać wkład w con. Załóżmy, że istnieje program, który chce analizować lub przewidywać słowo w zdaniu innych słów. Może być na przykład ustalona długość pięciu słów do oceny przez system. Oznacza to, że sieć neuronowa musi mieć dane wejściowe dla każdego z tych słów, a także zdolność do „zapamiętywania” lub trenowania pod kątem tych słów. Z tych i innych podobnych powodów, powtarzające się sieci neuronowe zwykle mają te małe ukryte pętle i sprzężenia zwrotne w systemie.

Eksperci obawiają się, że te komplikacje utrudniają szkolenie sieci. Jednym z najczęstszych sposobów wyjaśnienia tego jest przytaczanie problemu eksplodującego i zanikającego gradientu. Zasadniczo wagi sieci doprowadzą do eksplozji lub zaniku wartości przy dużej liczbie przejść.

Pionier sieci neuronowej Geoff Hinton wyjaśnia to zjawisko w sieci, mówiąc, że przejścia liniowe do tyłu spowodują, że mniejsze ciężary kurczą się wykładniczo, a większe ciężary wybuchają.

Problem ten, kontynuuje, pogarsza się wraz z długimi sekwencjami i licznymi krokami czasowymi, w których sygnały rosną lub zanikają. Inicjalizacja wagi może pomóc, ale wyzwania te są wbudowane w model cyklicznej sieci neuronowej. Zawsze będzie to problem związany z ich konkretnym projektem i budową. Zasadniczo niektóre bardziej złożone typy sieci neuronowych naprawdę przeciwstawiają się naszej zdolności do łatwego zarządzania nimi. Możemy stworzyć praktycznie nieskończoną ilość złożoności, ale często widzimy rosnące wyzwania związane z przewidywalnością i skalowalnością.