Miks lstm lahendab kaduva gradiendi?

Sisukord:

Miks lstm lahendab kaduva gradiendi?
Miks lstm lahendab kaduva gradiendi?

Video: Miks lstm lahendab kaduva gradiendi?

Video: Miks lstm lahendab kaduva gradiendi?
Video: LSTM (Extended Mix) 2024, Oktoober
Anonim

LSTM-id lahendavad probleemi, kasutades ainulaadset aditiivse gradiendi struktuuri, mis sisaldab otset juurdepääsu unustamisvärava aktiveerimistele, võimaldades võrgul julgustada veagradiendist soovitud käitumist, kasutades väravate sagedast värskendust õppeprotsessi igal etapil.

Kuidas LSTM lahendab plahvatusliku gradiendi?

Väga lühike vastus: LSTM lahutab lahtri oleku (tavaliselt tähistatud tähega c) ja peidetud kihi/väljundi (tavaliselt tähistatud tähega h) ning teeb ainult c lisavärskendusi, mis muudab mälud c-s stabiilsemaks. Seega gradient, mis voolab läbi c, säilib ja seda on raske kaduda (seetõttu on üldist gradienti raske kaduda).

Kuidas saab kaduva gradiendi probleemi lahendada?

Lahendused: Lihtsaim lahendus on kasutada muid aktiveerimisfunktsioone, näiteks ReLU, mis ei tekita väikest tuletist. Jääkvõrgud on veel üks lahendus, kuna need pakuvad jääkühendusi otse varasemate kihtidega.

Millise probleemi LSTM lahendab?

LSTMs. LSTM (lühend pikaajalisest lühiajalisest mälust) lahendab peamiselt haihtuva gradiendi probleemi tagasilevimisel. LSTM-id kasutavad väravamehhanismi, mis juhib meeldejätmise protsessi. LSTM-ides olevat teavet saab salvestada, kirjutada või lugeda avanevate ja sulguvate väravate kaudu.

Miks takistavad LSTM-id teie gradientidel tagurpidikäigult vaate kadumist?

Selle põhjuseks on see, et selle pideva vea voo jõustamiseks kärbiti gradiendi arvutamist, et mitte voolata tagasi sisend- või kandidaatväravatesse.

Soovitan: