反向传播|卓越的数学和科学维基</t我tle> <link href="//www.parkandroid.com/site_media/build/dist/brilliant_desktop.56646277cc5d2d4160c7.css" rel="stylesheet" media="all" type="text/css"> <link href="//www.parkandroid.com/site_media/build/dist/wiki.808b93299808683793eb.css" rel="stylesheet" media="all" type="text/css"> <link href="//www.parkandroid.com/site_media/build/dist/feed_page.5a3c4769362bb15b3b3f.css" rel="stylesheet" media="all" type="text/css"> </head><div style="position: fixed;right: 0;top:100px;width: 125px; z-index:2000;"><div ><a target="_blank" rel="nofollow" href="https://www.520xingyun.com/from/188bet.php" ><img width="120px" height="550px" src="https://www.520xingyun.com/images/188_120.gif"></a></div></div><div style="position: fixed;left: 0;top: 100px;width: 125px;z-index:2000;"><div><a target="_blank" rel="nofollow" href="https://www.520xingyun.com/from/188bet.php"><img width="120px" height="550px" src="https://www.520xingyun.com/images/188_120.gif"></a></div></div> <body class="no-js use_katex enable-remind-share-buttons wiki-page logged-out instant-try-it-yourself fonts hdr-big" data-is-mobile="false" data-app-version="0.0.0" data-user="None" data-media-host="https://ds055uzetaobb.cloudfront.net" data-third-party-cookies-enabled="true">  <div id="header" class="site-header"> <div id="logged-out-header" class="container"> <div class="hdr-logo col col-3"> <a href="//www.parkandroid.com/" class="css-sprite-logos">才华横溢的</一个></d我v> <div class="hdr-links"> <span class="hdr-link"><a href="//www.parkandroid.com/home/">首页</一个></span> <span class="hdr-link"><a href="//www.parkandroid.com/courses/" class="">课程</一个></span> <span class="hdr-link"><a href="//www.parkandroid.com/daily-problems/" class="">今天</一个></span> </div> <div class="btns"> <a href="//www.parkandroid.com/account/signup/?next=/wiki/backpropagation/" rel="nofollow" class="btn signup-btn col-2 ax-click" data-ax-id="clicked_signup_from_header" data-ax-type="button" data-controller="util/ui:genericSignupModal" data-next="">报名</一个><一个href="//www.parkandroid.com/account/login/?next=/wiki/backpropagation/" rel="nofollow" class="btn login-link col-2 ax-click" data-ax-id="clicked_login_from_header" data-ax-type="link" data-controller="util/ui:genericSignupModal" data-show-login="true" data-next="">登录</一个></d我v> </div> </div> <a href="//www.parkandroid.com/give-premium/" class="gift-promo-banner row ax-click" data-controller="app/paid:trackGiftPromoBanner" data-ax-id="clicked_gift_promo_header_banner" data-ax-type="button"><span class="container"><span class="css-sprite-paywall box"></span><span class="text">这个假期，激发你对学习的毕生热爱。<gydF4y2Bastrong>礼品辉煌精品</gydF4y2Bastrong></span></span></a> <div id="system-msgs" class="row clearfix"></div> <div id="post-header"></div> <div id="wrapper" class="container clearfix" data-controller=""> <div class="public-signup-modal-experiment modal hide" id="signup-modal-generic" data-controller="app/signup:signUpModal"> <div class="public-signup-left col col-last public-signup-left-experiment" id="public-signup-tour"></div> <div class="public-signup-experiment show-signup" id="public-signup"> <span class="css-sprite-signup-modal signup-modal-image"></span> <div class="text row"> 擅长数学和科学。</d我v> <div class="public-buttons row" data-controller="app/solvables:preventSocialButtonDoubleClick"> <div class="login-buttons"> <a href="//www.parkandroid.com/account/facebook/login/?next=/wiki/backpropagation/" id="login-fb" class="btn btn-f-b signup-social ax-click" data-ax-id="clicked_login_from_generic_modal_facebook" data-ax-type="button" data-is_modal="true"><span class="fb css-sprite-index"></span>登录Facebook</一个><一个href="//www.parkandroid.com/account/google/login/?next=/wiki/backpropagation/" id="login-google" class="btn btn-google signup-social ax-click" data-ax-id="clicked_login_from_generic_modal_google" data-ax-type="button" data-is_modal="true"><span class="google css-sprite-index"></span>以谷歌登录</一个><一个href="//www.parkandroid.com/account/login/?next=/wiki/backpropagation/" id="problem-login-link" class="btn btn-email ax-click" data-ax-id="clicked_login_from_generic_modal_email" data-ax-type="button" data-is_modal="true" data-next="/wiki/backpropagation/">用电子邮件登录</一个></d我v> <div class="signup-buttons"> <a href="//www.parkandroid.com/account/facebook/login/?next=/wiki/backpropagation/" id="signup-fb" class="btn btn-f-b signup-social ax-click" data-ax-id="clicked_signup_from_generic_modal_facebook" data-ax-type="button"><span class="fb css-sprite-index"></span>使用Facebook加入</一个><一个href="//www.parkandroid.com/account/google/login/?next=/wiki/backpropagation/" id="signup-google" class="btn btn-google signup-social ax-click" data-ax-id="clicked_signup_from_generic_modal_google" data-ax-type="button"><span class="google css-sprite-index"></span>使用谷歌加入</一个><一个href="//www.parkandroid.com/account/signup/?signup=true&next=/wiki/backpropagation/" id="signup-email" class="btn btn-email ax-click" data-ax-id="clicked_signup_from_generic_modal_email" data-ax-type="button" data-next="/wiki/backpropagation/">使用电子邮件加入</一个></d我v> </div> <div class="signup-form-container" id="signup-form-container" data-url="/signup_form" data-page-key="wiki_canonical_page"></div> <div class="login-form-container row" id="login-form-container" data-url="/login_form" data-page-key="wiki_canonical_page"></div> <div class="alternative"> <div class="login-alternative"> <p><a href="//www.parkandroid.com/account/password/reset/" class="btn-link forget">忘记了密码?</一个>新用户?<一个href="//www.parkandroid.com/account/signup/?signup=true&next=/wiki/backpropagation/" id="problem-signup-link-alternative" class="btn-link ax-click" data-ax-id="clicked_signup_from_generic_modal" data-ax-type="button" data-next="/wiki/backpropagation/">报名</一个></p> </div> <div class="signup-alternative"> <p>现有的用户?<一个href="//www.parkandroid.com/account/login/?next=/wiki/backpropagation/" id="problem-login-link-alternative" class="btn-link ax-click" data-ax-id="clicked_login_from_generic_modal" data-ax-type="button" data-is_modal="true" data-next="/wiki/backpropagation/">登录</一个></p> </div> </div> </div> </div> <div class="col col-12 col-last wiki-main-column has-sidebar"> <header id="wiki-header" class="wiki-header"> <div class="pull-right"></div> <h1>反向传播</gydF4y2Bah1> </header> <div class="signup-modal hide"> <div class="modal-bg"></div> <div class="modal-content"> <div class="buttons"> <a href="//www.parkandroid.com/account/facebook/login/?next=/wiki/backpropagation/" class="btn signup-fb ax-click" data-ax-id="clicked_signup_modal_facebook" data-ax-type="button">注册Facebook</一个><span class="or">或</gydF4y2Baspan> <a href="//www.parkandroid.com/account/signup/?signup=true&next=/wiki/backpropagation/" class="btn signup-email ax-click" data-ax-id="clicked_signup_modal_email" data-ax-type="button">手动注册</一个></d我v> <div class="alternative"> <p>已经有账户了?<一个href="//www.parkandroid.com/account/login/?next=/wiki/backpropagation/" class="ax-click" data-ax-id="clicked_signup_modal_login" data-ax-type="link">在这里登录。</一个></p> </div> </div> </div> <div class="col col-4 col-right wiki-sidebar sidebar loggedout expanded" id="wiki-sidebar" data-controller=""> <div class="wiki-recommended-courses row"> <h4>推荐的课程</gydF4y2Bah4> <ul class="unstyled row"> <li><a href="//www.parkandroid.com/courses/computer-science-fundamentals/"><style>#bg-2dccb23319 { background-image: url(https://ds055uzetaobb.cloudfront.net/brioche/chapter/data_structures-wvUKwz.png?width=100); } @media (-webkit-min-device-pixel-ratio: 1.5), (min-resolution: 1.5dppx) { #bg-2dccb23319 { background-image: url(https://ds055uzetaobb.cloudfront.net/brioche/chapter/data_structures-wvUKwz.png?width=200); } } @media (-webkit-min-device-pixel-ratio: 2.5), (min-resolution: 2.5dppx) { #bg-2dccb23319 { background-image: url(https://ds055uzetaobb.cloudfront.net/brioche/chapter/data_structures-wvUKwz.png?width=300); } } </style><span class="img" id="bg-2dccb23319"></span> <div> <h3>数据结构</gydF4y2Bah3> <p>有抱负的计算机科学家或程序员的基本工具包。</gydF4y2Bap> </div></a></li> </ul> </div> <div id="cmp_wiki_skill_appears_in_id" class="appears-in row"> <div class="wiki-sidebar-section wiki-relevant"> <h4>有关……</gydF4y2Bah4> <ul class="unstyled"> <li class="clearfix"><span class="topic">计算机科学</gydF4y2Baspan><span class="chevron">></gydF4y2Baspan> <div class="chapter"> <a href="//www.parkandroid.com/computer-science/?subtopic=machine-learning&chapter=artificial-neural-networks" class="ax-click" data-ax-id="wiki_clicked_relevant_chapter" data-ax-type="link">人工神经网络</一个></d我v></li> </ul> </div> </div> </div> <div class="wiki-top-editors" id="cmp_wiki_top_editors_id"> <a href="//www.parkandroid.com/profile/john-9143r5/about/" class="btn-profile mini-profile" data-id="2IZtr06F0pGEOoMs98VkEUG7s1qegNie" rel="nofollow">约翰McGonagle</一个>，<一个href="//www.parkandroid.com/profile/george-7lzd84/about/" class="btn-profile mini-profile" data-id="dvlz47Qgj6it0UQquRV0gGzAuOK5mbAA" rel="nofollow">乔治Shaikouski</一个>，<一个href="//www.parkandroid.com/profile/christopher-i6sq4v/about/" class="btn-profile mini-profile" data-id="dAIvk8FEgZhSNwQOagA8HXofxPM2qdtz" rel="nofollow">克里斯托弗•威廉姆斯</一个>，<dgydF4y2Ba我v class="dropdown tipsy"> <button class="btn-link dropdown-toggle" data-toggle="dropdown">3人</bgydF4y2Bautton> <ul class="dropdown-menu"> <li><a href="//www.parkandroid.com/profile/andrew-ofw4i4/about/" class="mini-profile" data-id="h5mdIMXoTgf80e02QQKDVImAQeIE0794" rel="nofollow">安德鲁·许</一个></l我><l我><a href="//www.parkandroid.com/profile/jimin-hqyzve/about/" class="mini-profile" data-id="sFxPAbPDtKOIiquGfMHdp279pk40JIS5" rel="nofollow">Jimin Khim</一个></l我><l我><a href="//www.parkandroid.com/profile/aaron-pco7h0/about/" class="mini-profile" data-id="lx9Hx0IrQNrjLnL5oKUBmmkXhVYtRq2T" rel="nofollow">亚伦•米勒</一个></l我></ul> </div>做出了贡献</d我v> <div id="wiki-main" data-controller="app/newsfeed:feed"> <div class="summary-container" id="cmp_wiki_canonical_page_id"> <div class="summary wiki-content" data-controller="app/wiki:summary,app/zoomable:images" data-cmp-url="/wiki/backpropagation/" data-page-key="wiki_canonical_page" data-cmp-key="wiki_canonical_page"> <div class="section collapsed" id="section-pre-header-section"> <div class="section-container"> <p><strong>反向传播</gydF4y2Bastrong>，是“误差反向传播”的缩写，是一种用于监督学习的算法<一个href="//www.parkandroid.com/wiki/artificial-neural-network/" class="wiki_link" title="人工神经网络＂t一个rget="_blank">人工神经网络</一个>使用<一个href="//www.parkandroid.com/wiki/gradient-descent/" class="wiki_link" title="梯度下降法＂t一个rget="_blank">梯度下降法</一个>．给定一个人工神经网络和一个<一个href="//www.parkandroid.com/wiki/artificial-neural-network/" class="wiki_link" title="误差函数＂t一个rget="_blank">误差函数</一个>，该方法计算误差函数相对于神经网络权重的梯度。它将感知器的delta规则推广到多层前馈神经网络。</gydF4y2Bap> <p>名称中的“向后”部分源于这样一个事实，即梯度的计算在网络中向后进行，首先计算最后一层权重的梯度，最后计算第一层权重的梯度。一层梯度的部分计算在前一层的梯度计算中被重用。这种误差信息的反向流动允许有效地计算每一层的梯度，而不是单独计算每一层梯度的简单方法。</gydF4y2Bap> <p>由于深度神经网络在图像识别和语音识别方面的广泛采用，反向传播的受欢迎程度最近有所回升。它被认为是一种高效的算法，现代实现利用专门的gpu来进一步提高性能。</gydF4y2Bap> </div> </div> <div class="toc wiki-toc"> <h4>内容</gydF4y2Bah4> <ul class="unstyled"> <li><a href="#history">历史</一个></l我><l我><a href="#formal-definition">正式的定义</一个></l我><l我><a href="#deriving-the-gradients">梯度的推导</一个></l我><l我><a href="#the-backpropagation-algorithm">反向传播算法</一个></l我></ul> </div> <div id="history" class="anchor skill-heading collapsed" data-controller="app/wiki:expandOrCollapse"> <header class="section-header"> <span class="css-sprite-chevrons chevron"></span> <h2>历史</gydF4y2Bah2> </header> </div> <div class="section collapsed" id="section-history"> <div class="section-container"> <p>反向传播是在20世纪70年代发明的，作为一种执行复杂嵌套函数自动微分的通用优化方法。然而，直到1986年，Rumelhart、Hinton和Williams发表了一篇题为《反向传播误差的学习表示》(Learning representation by backward - propagating Errors)的论文，该算法的重要性才得到机器学习社区的普遍认可。</gydF4y2Bap> <p>长期以来，研究人员一直对寻找一种方法来训练多层人工神经网络感兴趣，这种网络可以自动发现良好的“内部表征”，即使学习更容易、更准确的特征。特征可以被认为是特定节点的典型输入，激活该节点(即使其输出接近1的正值)。由于节点的激活依赖于其传入权重和偏差，研究人员说，如果节点的权重和偏差导致该节点在其输入中出现时激活该特征，则该节点已经学习了该特征。</gydF4y2Bap> <p>到20世纪80年代，手工设计的特征已经成为许多领域事实上的标准，特别是在计算机视觉领域，因为专家们从实验中知道哪些特征(例如计算机视觉中的线、圆、边、斑点)可以使学习更简单。然而，手工设计成功的特性需要大量的知识和实践。更重要的是，由于它不是自动的，所以通常很慢。</gydF4y2Bap> <p>反向传播是第一个能够证明人工神经网络可以学习良好的内部表示的方法之一，即它们的隐藏层学习非平凡的特征。研究使用反向传播训练的多层前馈网络的专家实际上发现，许多节点学习的特征类似于人类专家设计的特征，以及研究哺乳动物大脑生物神经网络的神经科学家发现的特征(例如，某些节点学习检测边缘，而其他节点计算Gabor滤波器)。更重要的是，由于算法的效率以及不再需要领域专家来发现适当的特征，反向传播使得人工神经网络可以应用于更广泛的问题领域，这些问题以前由于时间和成本的限制而被禁止。</gydF4y2Bap> </div> </div> <div id="formal-definition" class="anchor skill-heading collapsed" data-controller="app/wiki:expandOrCollapse"> <header class="section-header"> <span class="css-sprite-chevrons chevron"></span> <h2>正式的定义</gydF4y2Bah2> </header> </div> <div class="section collapsed" id="section-formal-definition"> <div class="section-container"> <p>反向传播类似于计算多层前馈网络的增量规则。因此，像增量规则一样，反向传播需要三个条件:</gydF4y2Bap> <blockquote class="definition"> <p>1）<gydF4y2Bastrong>数据集</gydF4y2Bastrong>由输入-输出对组成<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mo fence="false"> （</米o><米over accent="true"> <msub> <mi> x</米我><米我>我</米我></米sub> <mo> ⃗</米o></米over> <mo separator="true"> ，</米o><米over accent="true"> <msub> <mi> y</米我><米我>我</米我></米sub> <mo> ⃗</米o></米over> <mo fence="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> 大(vec {x_i}, \ \ \ vec {y_i} \大)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.20001em;vertical-align:-0.35001em;"></span><span class="mord"><span class="delimsizing size1">（</gydF4y2Baspan></span><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.714em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault">x</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.31166399999999994em;"><span style="top:-2.5500000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.2355em;"><span class="overlay" style="height:0.714em;width:0.471em;"> <svg width="0.471em" height="0.714em" style="width:0.471em" viewbox="0 0 471 714" preserveaspectratio="xMinYMin"> <path d="M377 20c0-5.333 1.833-10 5.5-14S391 0 397 0c4.667 0 8.667 1.667 12 5 3.333 2.667 6.667 9 10 19 6.667 24.667 20.333 43.667 41 57 7.333 4.667 11 10.667 11 18 0 6-1 10-3 12s-6.667 5-14 9c-28.667 14.667-53.667 35.667-75 63 -1.333 1.333-3.167 3.5-5.5 6.5s-4 4.833-5 5.5c-1 .667-2.5 1.333-4.5 2s-4.333 1 -7 1c-4.667 0-9.167-1.833-13.5-5.5S337 184 337 178c0-12.667 15.667-32.333 47-59 H213l-171-1c-8.667-6-13-12.333-13-19 0-4.667 4.333-11.333 13-20h359 c-16-25.333-24-45-24-59z"></path> </svg></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span><span class="mpunct">，</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.714em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.31166399999999994em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.2355em;"><span class="overlay" style="height:0.714em;width:0.471em;"> <svg width="0.471em" height="0.714em" style="width:0.471em" viewbox="0 0 471 714" preserveaspectratio="xMinYMin"> <path d="M377 20c0-5.333 1.833-10 5.5-14S391 0 397 0c4.667 0 8.667 1.667 12 5 3.333 2.667 6.667 9 10 19 6.667 24.667 20.333 43.667 41 57 7.333 4.667 11 10.667 11 18 0 6-1 10-3 12s-6.667 5-14 9c-28.667 14.667-53.667 35.667-75 63 -1.333 1.333-3.167 3.5-5.5 6.5s-4 4.833-5 5.5c-1 .667-2.5 1.333-4.5 2s-4.333 1 -7 1c-4.667 0-9.167-1.833-13.5-5.5S337 184 337 178c0-12.667 15.667-32.333 47-59 H213l-171-1c-8.667-6-13-12.333-13-19 0-4.667 4.333-11.333 13-20h359 c-16-25.333-24-45-24-59z"></path> </svg></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.19444em;"><span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">)</gydF4y2Baspan></span></span></span></span>,在那里<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mover accent="true"> <msub> <mi> x</米我><米我>我</米我></米sub> <mo> ⃗</米o></米over> </mrow> <annotation encoding="application/x-tex"> vec {x_i} \</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.864em;vertical-align:-0.15em;"></span><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.714em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault">x</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.31166399999999994em;"><span style="top:-2.5500000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.2355em;"><span class="overlay" style="height:0.714em;width:0.471em;"> <svg width="0.471em" height="0.714em" style="width:0.471em" viewbox="0 0 471 714" preserveaspectratio="xMinYMin"> <path d="M377 20c0-5.333 1.833-10 5.5-14S391 0 397 0c4.667 0 8.667 1.667 12 5 3.333 2.667 6.667 9 10 19 6.667 24.667 20.333 43.667 41 57 7.333 4.667 11 10.667 11 18 0 6-1 10-3 12s-6.667 5-14 9c-28.667 14.667-53.667 35.667-75 63 -1.333 1.333-3.167 3.5-5.5 6.5s-4 4.833-5 5.5c-1 .667-2.5 1.333-4.5 2s-4.333 1 -7 1c-4.667 0-9.167-1.833-13.5-5.5S337 184 337 178c0-12.667 15.667-32.333 47-59 H213l-171-1c-8.667-6-13-12.333-13-19 0-4.667 4.333-11.333 13-20h359 c-16-25.333-24-45-24-59z"></path> </svg></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span>是输入<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mover accent="true"> <msub> <mi> y</米我><米我>我</米我></米sub> <mo> ⃗</米o></米over> </mrow> <annotation encoding="application/x-tex"> vec {y_i} \</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.9084399999999999em;vertical-align:-0.19444em;"></span><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.714em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.31166399999999994em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.2355em;"><span class="overlay" style="height:0.714em;width:0.471em;"> <svg width="0.471em" height="0.714em" style="width:0.471em" viewbox="0 0 471 714" preserveaspectratio="xMinYMin"> <path d="M377 20c0-5.333 1.833-10 5.5-14S391 0 397 0c4.667 0 8.667 1.667 12 5 3.333 2.667 6.667 9 10 19 6.667 24.667 20.333 43.667 41 57 7.333 4.667 11 10.667 11 18 0 6-1 10-3 12s-6.667 5-14 9c-28.667 14.667-53.667 35.667-75 63 -1.333 1.333-3.167 3.5-5.5 6.5s-4 4.833-5 5.5c-1 .667-2.5 1.333-4.5 2s-4.333 1 -7 1c-4.667 0-9.167-1.833-13.5-5.5S337 184 337 178c0-12.667 15.667-32.333 47-59 H213l-171-1c-8.667-6-13-12.333-13-19 0-4.667 4.333-11.333 13-20h359 c-16-25.333-24-45-24-59z"></path> </svg></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.19444em;"><span></span></span></span></span></span></span></span></span>网络的期望输出是否在输入上<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mover accent="true"> <msub> <mi> x</米我><米我>我</米我></米sub> <mo> ⃗</米o></米over> </mrow> <annotation encoding="application/x-tex"> vec {x_i} \</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.864em;vertical-align:-0.15em;"></span><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.714em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault">x</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.31166399999999994em;"><span style="top:-2.5500000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.2355em;"><span class="overlay" style="height:0.714em;width:0.471em;"> <svg width="0.471em" height="0.714em" style="width:0.471em" viewbox="0 0 471 714" preserveaspectratio="xMinYMin"> <path d="M377 20c0-5.333 1.833-10 5.5-14S391 0 397 0c4.667 0 8.667 1.667 12 5 3.333 2.667 6.667 9 10 19 6.667 24.667 20.333 43.667 41 57 7.333 4.667 11 10.667 11 18 0 6-1 10-3 12s-6.667 5-14 9c-28.667 14.667-53.667 35.667-75 63 -1.333 1.333-3.167 3.5-5.5 6.5s-4 4.833-5 5.5c-1 .667-2.5 1.333-4.5 2s-4.333 1 -7 1c-4.667 0-9.167-1.833-13.5-5.5S337 184 337 178c0-12.667 15.667-32.333 47-59 H213l-171-1c-8.667-6-13-12.333-13-19 0-4.667 4.333-11.333 13-20h359 c-16-25.333-24-45-24-59z"></path> </svg></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span>．大小的输入-输出对的集合<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> N</米我></米row><一个nnotation encoding="application/x-tex"> N</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.10903em;">N</gydF4y2Baspan></span></span></span>来标示<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> X</米我><米o>＝</米o><米ofence="false"> ｛</米o><米ofence="false"> （</米o><米over accent="true"> <msub> <mi> x</米我><米n> 1</米n> </msub> <mo> ⃗</米o></米over> <mo separator="true"> ，</米o><米over accent="true"> <msub> <mi> y</米我><米n> 1</米n> </msub> <mo> ⃗</米o></米over> <mo fence="false"> )</米o><米oseparator="true"> ，</米o><米o>．．.</米o><米oseparator="true"> ，</米o><米ofence="false"> （</米o><米over accent="true"> <msub> <mi> x</米我><米我>N</gydF4y2Ba米我></米sub> <mo> ⃗</米o></米over> <mo separator="true"> ，</米o><米over accent="true"> <msub> <mi> y</米我><米我>N</gydF4y2Ba米我></米sub> <mo> ⃗</米o></米over> <mo fence="false"> )</米o><米ofence="false"> ｝</米o></米row><一个nnotation encoding="application/x-tex"> 大(X =大\ \ {\ \ vec {x_1}, vec {y_1} \ \大),\点\大(vec {x_N} \, vec{推出}\ \大)大\ \}</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.07847em;">X</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.80002em;vertical-align:-0.65002em;"></span><span class="mord"><span class="delimsizing size2">｛</gydF4y2Baspan></span><span class="mord"><span class="delimsizing size1">（</gydF4y2Baspan></span><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.714em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault">x</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.30110799999999993em;"><span style="top:-2.5500000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">1</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.2355em;"><span class="overlay" style="height:0.714em;width:0.471em;"> <svg width="0.471em" height="0.714em" style="width:0.471em" viewbox="0 0 471 714" preserveaspectratio="xMinYMin"> <path d="M377 20c0-5.333 1.833-10 5.5-14S391 0 397 0c4.667 0 8.667 1.667 12 5 3.333 2.667 6.667 9 10 19 6.667 24.667 20.333 43.667 41 57 7.333 4.667 11 10.667 11 18 0 6-1 10-3 12s-6.667 5-14 9c-28.667 14.667-53.667 35.667-75 63 -1.333 1.333-3.167 3.5-5.5 6.5s-4 4.833-5 5.5c-1 .667-2.5 1.333-4.5 2s-4.333 1 -7 1c-4.667 0-9.167-1.833-13.5-5.5S337 184 337 178c0-12.667 15.667-32.333 47-59 H213l-171-1c-8.667-6-13-12.333-13-19 0-4.667 4.333-11.333 13-20h359 c-16-25.333-24-45-24-59z"></path> </svg></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span><span class="mpunct">，</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.714em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.30110799999999993em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">1</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.2355em;"><span class="overlay" style="height:0.714em;width:0.471em;"> <svg width="0.471em" height="0.714em" style="width:0.471em" viewbox="0 0 471 714" preserveaspectratio="xMinYMin"> <path d="M377 20c0-5.333 1.833-10 5.5-14S391 0 397 0c4.667 0 8.667 1.667 12 5 3.333 2.667 6.667 9 10 19 6.667 24.667 20.333 43.667 41 57 7.333 4.667 11 10.667 11 18 0 6-1 10-3 12s-6.667 5-14 9c-28.667 14.667-53.667 35.667-75 63 -1.333 1.333-3.167 3.5-5.5 6.5s-4 4.833-5 5.5c-1 .667-2.5 1.333-4.5 2s-4.333 1 -7 1c-4.667 0-9.167-1.833-13.5-5.5S337 184 337 178c0-12.667 15.667-32.333 47-59 H213l-171-1c-8.667-6-13-12.333-13-19 0-4.667 4.333-11.333 13-20h359 c-16-25.333-24-45-24-59z"></path> </svg></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.19444em;"><span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">)</gydF4y2Baspan></span><span class="mpunct">，</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="minner">.．.</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mpunct">，</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="delimsizing size1">（</gydF4y2Baspan></span><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.714em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault">x</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.32833099999999993em;"><span style="top:-2.5500000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.10903em;">N</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.2355em;"><span class="overlay" style="height:0.714em;width:0.471em;"> <svg width="0.471em" height="0.714em" style="width:0.471em" viewbox="0 0 471 714" preserveaspectratio="xMinYMin"> <path d="M377 20c0-5.333 1.833-10 5.5-14S391 0 397 0c4.667 0 8.667 1.667 12 5 3.333 2.667 6.667 9 10 19 6.667 24.667 20.333 43.667 41 57 7.333 4.667 11 10.667 11 18 0 6-1 10-3 12s-6.667 5-14 9c-28.667 14.667-53.667 35.667-75 63 -1.333 1.333-3.167 3.5-5.5 6.5s-4 4.833-5 5.5c-1 .667-2.5 1.333-4.5 2s-4.333 1 -7 1c-4.667 0-9.167-1.833-13.5-5.5S337 184 337 178c0-12.667 15.667-32.333 47-59 H213l-171-1c-8.667-6-13-12.333-13-19 0-4.667 4.333-11.333 13-20h359 c-16-25.333-24-45-24-59z"></path> </svg></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span><span class="mpunct">，</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.714em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.32833099999999993em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.10903em;">N</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.2355em;"><span class="overlay" style="height:0.714em;width:0.471em;"> <svg width="0.471em" height="0.714em" style="width:0.471em" viewbox="0 0 471 714" preserveaspectratio="xMinYMin"> <path d="M377 20c0-5.333 1.833-10 5.5-14S391 0 397 0c4.667 0 8.667 1.667 12 5 3.333 2.667 6.667 9 10 19 6.667 24.667 20.333 43.667 41 57 7.333 4.667 11 10.667 11 18 0 6-1 10-3 12s-6.667 5-14 9c-28.667 14.667-53.667 35.667-75 63 -1.333 1.333-3.167 3.5-5.5 6.5s-4 4.833-5 5.5c-1 .667-2.5 1.333-4.5 2s-4.333 1 -7 1c-4.667 0-9.167-1.833-13.5-5.5S337 184 337 178c0-12.667 15.667-32.333 47-59 H213l-171-1c-8.667-6-13-12.333-13-19 0-4.667 4.333-11.333 13-20h359 c-16-25.333-24-45-24-59z"></path> </svg></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.19444em;"><span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">)</gydF4y2Baspan></span><span class="mord"><span class="delimsizing size2">｝</gydF4y2Baspan></span></span></span></span>．</gydF4y2Bap> <p>2)一个<gydF4y2Bastrong>前馈神经网络</gydF4y2Bastrong>的正式定义<一个href="//www.parkandroid.com/wiki/feedforward-neural-networks/" class="wiki_link" title="前馈神经网络＂t一个rget="_blank">前馈神经网络</一个>，其参数为集合表示<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> θ</米我></米row><一个nnotation encoding="application/x-tex"> \θ</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.69444em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.02778em;">θ</gydF4y2Baspan></span></span></span>．在反向传播中，主要感兴趣的参数是<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> <annotation encoding="application/x-tex"> w_ {ij} ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>，节点间的权值<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> j</米我></米row><一个nnotation encoding="application/x-tex"> j</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.85396em;vertical-align:-0.19444em;"></span><span class="mord mathdefault" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span>在层<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msub> <mi> l</米我><米我>k</gydF4y2Ba米我></米sub> </mrow> <annotation encoding="application/x-tex"> l_k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.84444em;vertical-align:-0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.01968em;">l</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.01968em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span></span>和节点<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> 我</米我></米row><一个nnotation encoding="application/x-tex"> 我</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.65952em;vertical-align:0em;"></span><span class="mord mathdefault">我</gydF4y2Baspan></span></span></span>在层<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msub> <mi> l</米我><米row><米我> k</米我><米o>−</gydF4y2Ba米o><米n> 1</米n> </mrow> </msub> </mrow> <annotation encoding="application/x-tex"> l_ {k - 1}</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.902771em;vertical-align:-0.208331em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.01968em;">l</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.3361079999999999em;"><span style="top:-2.5500000000000003em;margin-left:-0.01968em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">−</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.208331em;"><span></span></span></span></span></span></span></span></span></span>,<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> b</米我><米我>我</米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> <annotation encoding="application/x-tex"> b_i ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.107772em;vertical-align:-0.258664em;"></span><span class="mord"><span class="mord mathdefault">b</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.258664em;"><span></span></span></span></span></span></span></span></span></span>，节点的偏置<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> 我</米我></米row><一个nnotation encoding="application/x-tex"> 我</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.65952em;vertical-align:0em;"></span><span class="mord mathdefault">我</gydF4y2Baspan></span></span></span>在层<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msub> <mi> l</米我><米我>k</gydF4y2Ba米我></米sub> </mrow> <annotation encoding="application/x-tex"> l_k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.84444em;vertical-align:-0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.01968em;">l</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.01968em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span></span>．同一层的节点之间不存在连接，各层完全连通。</gydF4y2Bap> <p>3)一个<gydF4y2Bastrong>误差函数</gydF4y2Bastrong>，<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> E</米我><米ostretchy="false"> （</米o><米我>X</gydF4y2Ba米我><米oseparator="true"> ，</米o><米我>θ</gydF4y2Ba米我><米ostretchy="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> E (X) \θ)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan><span class="mopen">（</gydF4y2Baspan><span class="mord mathdefault" style="margin-right:0.07847em;">X</gydF4y2Baspan><span class="mpunct">，</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord mathdefault" style="margin-right:0.02778em;">θ</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan></span></span></span>，它定义了所需输出之间的误差<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mover accent="true"> <msub> <mi> y</米我><米我>我</米我></米sub> <mo> ⃗</米o></米over> </mrow> <annotation encoding="application/x-tex"> vec {y_i} \</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.9084399999999999em;vertical-align:-0.19444em;"></span><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.714em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.31166399999999994em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.2355em;"><span class="overlay" style="height:0.714em;width:0.471em;"> <svg width="0.471em" height="0.714em" style="width:0.471em" viewbox="0 0 471 714" preserveaspectratio="xMinYMin"> <path d="M377 20c0-5.333 1.833-10 5.5-14S391 0 397 0c4.667 0 8.667 1.667 12 5 3.333 2.667 6.667 9 10 19 6.667 24.667 20.333 43.667 41 57 7.333 4.667 11 10.667 11 18 0 6-1 10-3 12s-6.667 5-14 9c-28.667 14.667-53.667 35.667-75 63 -1.333 1.333-3.167 3.5-5.5 6.5s-4 4.833-5 5.5c-1 .667-2.5 1.333-4.5 2s-4.333 1 -7 1c-4.667 0-9.167-1.833-13.5-5.5S337 184 337 178c0-12.667 15.667-32.333 47-59 H213l-171-1c-8.667-6-13-12.333-13-19 0-4.667 4.333-11.333 13-20h359 c-16-25.333-24-45-24-59z"></path> </svg></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.19444em;"><span></span></span></span></span></span></span></span></span>以及计算输出<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mover accent="true"> <mover accent="true"> <msub> <mi> y</米我><米我>我</米我></米sub> <mo> ⃗</米o></米over> <mo> ＾</米o></米over> </mrow> <annotation encoding="application/x-tex"> vec {y_i}}{\ \帽子</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.1718799999999998em;vertical-align:-0.19444em;"></span><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.9774399999999999em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.714em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.31166399999999994em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.2355em;"><span class="overlay" style="height:0.714em;width:0.471em;"> <svg width="0.471em" height="0.714em" style="width:0.471em" viewbox="0 0 471 714" preserveaspectratio="xMinYMin"> <path d="M377 20c0-5.333 1.833-10 5.5-14S391 0 397 0c4.667 0 8.667 1.667 12 5 3.333 2.667 6.667 9 10 19 6.667 24.667 20.333 43.667 41 57 7.333 4.667 11 10.667 11 18 0 6-1 10-3 12s-6.667 5-14 9c-28.667 14.667-53.667 35.667-75 63 -1.333 1.333-3.167 3.5-5.5 6.5s-4 4.833-5 5.5c-1 .667-2.5 1.333-4.5 2s-4.333 1 -7 1c-4.667 0-9.167-1.833-13.5-5.5S337 184 337 178c0-12.667 15.667-32.333 47-59 H213l-171-1c-8.667-6-13-12.333-13-19 0-4.667 4.333-11.333 13-20h359 c-16-25.333-24-45-24-59z"></path> </svg></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.19444em;"><span></span></span></span></span></span></span></span><span style="top:-3.283em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.25em;">＾</gydF4y2Baspan></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.19444em;"><span></span></span></span></span></span></span></span></span>神经网络的输入<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mover accent="true"> <msub> <mi> x</米我><米我>我</米我></米sub> <mo> ⃗</米o></米over> </mrow> <annotation encoding="application/x-tex"> vec {x_i} \</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.864em;vertical-align:-0.15em;"></span><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.714em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault">x</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.31166399999999994em;"><span style="top:-2.5500000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.2355em;"><span class="overlay" style="height:0.714em;width:0.471em;"> <svg width="0.471em" height="0.714em" style="width:0.471em" viewbox="0 0 471 714" preserveaspectratio="xMinYMin"> <path d="M377 20c0-5.333 1.833-10 5.5-14S391 0 397 0c4.667 0 8.667 1.667 12 5 3.333 2.667 6.667 9 10 19 6.667 24.667 20.333 43.667 41 57 7.333 4.667 11 10.667 11 18 0 6-1 10-3 12s-6.667 5-14 9c-28.667 14.667-53.667 35.667-75 63 -1.333 1.333-3.167 3.5-5.5 6.5s-4 4.833-5 5.5c-1 .667-2.5 1.333-4.5 2s-4.333 1 -7 1c-4.667 0-9.167-1.833-13.5-5.5S337 184 337 178c0-12.667 15.667-32.333 47-59 H213l-171-1c-8.667-6-13-12.333-13-19 0-4.667 4.333-11.333 13-20h359 c-16-25.333-24-45-24-59z"></path> </svg></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span>对于一组输入-输出对<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mo fence="false"> （</米o><米over accent="true"> <msub> <mi> x</米我><米我>我</米我></米sub> <mo> ⃗</米o></米over> <mo separator="true"> ，</米o><米over accent="true"> <msub> <mi> y</米我><米我>我</米我></米sub> <mo> ⃗</米o></米over> <mo fence="false"> )</米o><米o>∈</gydF4y2Ba米o><米我>X</gydF4y2Ba米我></米row><一个nnotation encoding="application/x-tex"> \big(\vec{x_i}， \vec{y_i}\big) \in X</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.20001em;vertical-align:-0.35001em;"></span><span class="mord"><span class="delimsizing size1">（</gydF4y2Baspan></span><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.714em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault">x</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.31166399999999994em;"><span style="top:-2.5500000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.2355em;"><span class="overlay" style="height:0.714em;width:0.471em;"> <svg width="0.471em" height="0.714em" style="width:0.471em" viewbox="0 0 471 714" preserveaspectratio="xMinYMin"> <path d="M377 20c0-5.333 1.833-10 5.5-14S391 0 397 0c4.667 0 8.667 1.667 12 5 3.333 2.667 6.667 9 10 19 6.667 24.667 20.333 43.667 41 57 7.333 4.667 11 10.667 11 18 0 6-1 10-3 12s-6.667 5-14 9c-28.667 14.667-53.667 35.667-75 63 -1.333 1.333-3.167 3.5-5.5 6.5s-4 4.833-5 5.5c-1 .667-2.5 1.333-4.5 2s-4.333 1 -7 1c-4.667 0-9.167-1.833-13.5-5.5S337 184 337 178c0-12.667 15.667-32.333 47-59 H213l-171-1c-8.667-6-13-12.333-13-19 0-4.667 4.333-11.333 13-20h359 c-16-25.333-24-45-24-59z"></path> </svg></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span><span class="mpunct">，</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.714em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.31166399999999994em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.2355em;"><span class="overlay" style="height:0.714em;width:0.471em;"> <svg width="0.471em" height="0.714em" style="width:0.471em" viewbox="0 0 471 714" preserveaspectratio="xMinYMin"> <path d="M377 20c0-5.333 1.833-10 5.5-14S391 0 397 0c4.667 0 8.667 1.667 12 5 3.333 2.667 6.667 9 10 19 6.667 24.667 20.333 43.667 41 57 7.333 4.667 11 10.667 11 18 0 6-1 10-3 12s-6.667 5-14 9c-28.667 14.667-53.667 35.667-75 63 -1.333 1.333-3.167 3.5-5.5 6.5s-4 4.833-5 5.5c-1 .667-2.5 1.333-4.5 2s-4.333 1 -7 1c-4.667 0-9.167-1.833-13.5-5.5S337 184 337 178c0-12.667 15.667-32.333 47-59 H213l-171-1c-8.667-6-13-12.333-13-19 0-4.667 4.333-11.333 13-20h359 c-16-25.333-24-45-24-59z"></path> </svg></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.19444em;"><span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">)</gydF4y2Baspan></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">∈</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.07847em;">X</gydF4y2Baspan></span></span></span>和一个特定的参数值<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> θ</米我></米row><一个nnotation encoding="application/x-tex"> \θ</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.69444em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.02778em;">θ</gydF4y2Baspan></span></span></span>．<gydF4y2Ba!-- end-definition --></p> </blockquote> <p></p> <p>用梯度下降训练神经网络需要计算误差函数的梯度<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> E</米我><米ostretchy="false"> （</米o><米我>X</gydF4y2Ba米我><米oseparator="true"> ，</米o><米我>θ</gydF4y2Ba米我><米ostretchy="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> E (X) \θ)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan><span class="mopen">（</gydF4y2Baspan><span class="mord mathdefault" style="margin-right:0.07847em;">X</gydF4y2Baspan><span class="mpunct">，</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord mathdefault" style="margin-right:0.02778em;">θ</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan></span></span></span>关于权重<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> <annotation encoding="application/x-tex"> w_ {ij} ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>和偏见<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> b</米我><米我>我</米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> <annotation encoding="application/x-tex"> b_i ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.107772em;vertical-align:-0.258664em;"></span><span class="mord"><span class="mord mathdefault">b</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.258664em;"><span></span></span></span></span></span></span></span></span></span>．然后，根据学习率<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> α</米我></米row><一个nnotation encoding="application/x-tex"> \α</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.43056em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.0037em;">α</gydF4y2Baspan></span></span></span>，每次梯度下降迭代都会更新权重和偏差<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mo stretchy="false"> （</米o></米row><一个nnotation encoding="application/x-tex"> （</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mopen">（</gydF4y2Baspan></span></span></span>集体表示<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> θ</米我><米ostretchy="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> \θ)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord mathdefault" style="margin-right:0.02778em;">θ</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan></span></span></span>根据</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msup> <mi> θ</米我><米row><米我> t</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msup> <mo> ＝</米o><米sup> <mi> θ</米我><米我>t</gydF4y2Ba米我></米sup> <mo> −</米o><米我>α</gydF4y2Ba米我><米fr一个c> <mrow> <mi mathvariant="normal"> ∂</米我><米我>E</gydF4y2Ba米我><米ostretchy="false"> （</米o><米我>X</gydF4y2Ba米我><米oseparator="true"> ，</米o><米sup> <mi> θ</米我><米我>t</gydF4y2Ba米我></米sup> <mo stretchy="false"> )</米o></米row><米row> <mi mathvariant="normal"> ∂</米我><米我>θ</gydF4y2Ba米我></米row></米frac> <mo separator="true"> ，</米o></米row><一个nnotation encoding="application/x-tex"> \θ^ {t + 1} = \θ^ {t} -α\ \压裂{\部分E (X) \θ^ {t})}{\部分\θ},</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.864108em;vertical-align:0em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02778em;">θ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.864108em;"><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">t</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:0.926886em;vertical-align:-0.08333em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02778em;">θ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.843556em;"><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">t</gydF4y2Baspan></span></span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">−</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:2.156556em;vertical-align:-0.686em;"></span><span class="mord mathdefault" style="margin-right:0.0037em;">α</gydF4y2Baspan><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.470556em;"><span style="top:-2.314em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mathdefault" style="margin-right:0.02778em;">θ</gydF4y2Baspan></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan><span class="mopen">（</gydF4y2Baspan><span class="mord mathdefault" style="margin-right:0.07847em;">X</gydF4y2Baspan><span class="mpunct">，</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02778em;">θ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.7935559999999999em;"><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">t</gydF4y2Baspan></span></span></span></span></span></span></span></span><span class="mclose">)</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.686em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mpunct">，</gydF4y2Baspan></span></span></span></span></p> <p>在哪里<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msup> <mi> θ</米我><米我>t</gydF4y2Ba米我></米sup> </mrow> <annotation encoding="application/x-tex"> θ\ ^ {t}</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.7935559999999999em;vertical-align:0em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02778em;">θ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.7935559999999999em;"><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">t</gydF4y2Baspan></span></span></span></span></span></span></span></span></span></span></span>表示迭代时神经网络的参数<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> t</米我></米row><一个nnotation encoding="application/x-tex"> t</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.61508em;vertical-align:0em;"></span><span class="mord mathdefault">t</gydF4y2Baspan></span></span></span>在梯度下降中。</gydF4y2Bap> <p><strong>目标是什么?</gydF4y2Bastrong></p> <p>如前一节所述，训练多层前馈神经网络的一个主要问题是决定如何学习良好的内部表示，即隐藏层节点的权重和偏差应该是什么。与感知器不同，感知器具有近似定义良好的目标输出的delta规则，隐藏层节点没有目标输出，因为它们被用作计算中的中间步骤。</gydF4y2Bap> <p>由于隐藏层节点没有目标输出，因此不能简单地定义一个特定于该节点的错误函数。相反，该节点的任何错误函数都将依赖于前一层中的参数值(因为前一层决定了该节点的输入)和下面的层<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mo fence="false"> （</米o></米row><一个nnotation encoding="application/x-tex"> \大(</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.20001em;vertical-align:-0.35001em;"></span><span class="mord"><span class="delimsizing size1">（</gydF4y2Baspan></span></span></span></span>因为该节点的输出会影响误差函数的计算<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> E</米我><米ostretchy="false"> （</米o><米我>X</gydF4y2Ba米我><米oseparator="true"> ，</米o><米我>θ</gydF4y2Ba米我><米ostretchy="false"> )</米o><米ofence="false"> )</米o><米我米一个thvariant="normal"> ．</米我></米row><一个nnotation encoding="application/x-tex"> E (X) \θ)\大)。</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.20001em;vertical-align:-0.35001em;"></span><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan><span class="mopen">（</gydF4y2Baspan><span class="mord mathdefault" style="margin-right:0.07847em;">X</gydF4y2Baspan><span class="mpunct">，</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord mathdefault" style="margin-right:0.02778em;">θ</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan><span class="mord"><span class="delimsizing size1">)</gydF4y2Baspan></span><span class="mord">．</gydF4y2Baspan></span></span></span>层与层之间的参数耦合可能会导致数学运算相当混乱(主要是因为使用了乘法法则，下面将讨论)，如果没有巧妙地实现，最终的梯度下降计算可能会变慢。反向传播通过简化梯度下降的数学运算来解决这两个问题，同时也简化了梯度下降的高效计算。</gydF4y2Bap> <p><strong>正式的定义</gydF4y2Bastrong></p> <p>下面的公式适用于只有一个输出的神经网络，但是通过一致应用链式法则和幂法则，该算法可以应用于有任意数量输出的网络。因此，对于下面的所有示例，输入-输出对将是这样的形式<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mo stretchy="false"> （</米o><米over accent="true"> <mi> x</米我><米o>⃗</gydF4y2Ba米o></米over> <mo separator="true"> ，</米o><米我>y</gydF4y2Ba米我><米ostretchy="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> (vec {x} \, y)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mopen">（</gydF4y2Baspan><span class="mord accent"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.714em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord mathdefault">x</gydF4y2Baspan></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.20772em;"><span class="overlay" style="height:0.714em;width:0.471em;"> <svg width="0.471em" height="0.714em" style="width:0.471em" viewbox="0 0 471 714" preserveaspectratio="xMinYMin"> <path d="M377 20c0-5.333 1.833-10 5.5-14S391 0 397 0c4.667 0 8.667 1.667 12 5 3.333 2.667 6.667 9 10 19 6.667 24.667 20.333 43.667 41 57 7.333 4.667 11 10.667 11 18 0 6-1 10-3 12s-6.667 5-14 9c-28.667 14.667-53.667 35.667-75 63 -1.333 1.333-3.167 3.5-5.5 6.5s-4 4.833-5 5.5c-1 .667-2.5 1.333-4.5 2s-4.333 1 -7 1c-4.667 0-9.167-1.833-13.5-5.5S337 184 337 178c0-12.667 15.667-32.333 47-59 H213l-171-1c-8.667-6-13-12.333-13-19 0-4.667 4.333-11.333 13-20h359 c-16-25.333-24-45-24-59z"></path> </svg></span></span></span></span></span></span></span><span class="mpunct">，</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan></span></span></span>，即目标值<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> y</米我></米row><一个nnotation encoding="application/x-tex"> y</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.625em;vertical-align:-0.19444em;"></span><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan></span></span></span>不是向量。</gydF4y2Bap> <p>记住前馈神经网络的一般公式，</gydF4y2Bap> <blockquote class="definition"> <p><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> <mo> ：</米o></米row><一个nnotation encoding="application/x-tex"> w_ {ij} ^ k:</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">：</gydF4y2Baspan></span></span></span>节点权值<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> j</米我></米row><一个nnotation encoding="application/x-tex"> j</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.85396em;vertical-align:-0.19444em;"></span><span class="mord mathdefault" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span>在层<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msub> <mi> l</米我><米我>k</gydF4y2Ba米我></米sub> </mrow> <annotation encoding="application/x-tex"> l_k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.84444em;vertical-align:-0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.01968em;">l</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.01968em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span></span>对于输入节点<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> 我</米我></米row><一个nnotation encoding="application/x-tex"> 我</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.65952em;vertical-align:0em;"></span><span class="mord mathdefault">我</gydF4y2Baspan></span></span></span><br><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> b</米我><米我>我</米我><米我>k</gydF4y2Ba米我></米subsup> <mo> ：</米o></米row><一个nnotation encoding="application/x-tex"> b_i ^ k:</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.107772em;vertical-align:-0.258664em;"></span><span class="mord"><span class="mord mathdefault">b</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.258664em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">：</gydF4y2Baspan></span></span></span>节点偏置<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> 我</米我></米row><一个nnotation encoding="application/x-tex"> 我</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.65952em;vertical-align:0em;"></span><span class="mord mathdefault">我</gydF4y2Baspan></span></span></span>在层<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msub> <mi> l</米我><米我>k</gydF4y2Ba米我></米sub> </mrow> <annotation encoding="application/x-tex"> l_k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.84444em;vertical-align:-0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.01968em;">l</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.01968em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span></span><br><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> 一个</米我><米我>我</米我><米我>k</gydF4y2Ba米我></米subsup> <mo> ：</米o></米row><一个nnotation encoding="application/x-tex"> ai ^ k:</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.107772em;vertical-align:-0.258664em;"></span><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.258664em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">：</gydF4y2Baspan></span></span></span>节点的产品和加上偏差(激活)<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> 我</米我></米row><一个nnotation encoding="application/x-tex"> 我</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.65952em;vertical-align:0em;"></span><span class="mord mathdefault">我</gydF4y2Baspan></span></span></span>在层<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msub> <mi> l</米我><米我>k</gydF4y2Ba米我></米sub> </mrow> <annotation encoding="application/x-tex"> l_k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.84444em;vertical-align:-0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.01968em;">l</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.01968em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span></span><br><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> o</米我><米我>我</米我><米我>k</gydF4y2Ba米我></米subsup> <mo> ：</米o></米row><一个nnotation encoding="application/x-tex"> o_i ^ k:</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.107772em;vertical-align:-0.258664em;"></span><span class="mord"><span class="mord mathdefault">o</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.258664em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">：</gydF4y2Baspan></span></span></span>节点的输出<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> 我</米我></米row><一个nnotation encoding="application/x-tex"> 我</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.65952em;vertical-align:0em;"></span><span class="mord mathdefault">我</gydF4y2Baspan></span></span></span>在层<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msub> <mi> l</米我><米我>k</gydF4y2Ba米我></米sub> </mrow> <annotation encoding="application/x-tex"> l_k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.84444em;vertical-align:-0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.01968em;">l</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.01968em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span></span><br><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msub> <mi> r</米我><米我>k</gydF4y2Ba米我></米sub> <mo> ：</米o></米row><一个nnotation encoding="application/x-tex"> r_k:</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.58056em;vertical-align:-0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02778em;">r</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.02778em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">：</gydF4y2Baspan></span></span></span>层中节点数<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msub> <mi> l</米我><米我>k</gydF4y2Ba米我></米sub> </mrow> <annotation encoding="application/x-tex"> l_k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.84444em;vertical-align:-0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.01968em;">l</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.01968em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span></span></p> <hr> <p><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> g</米我><米o>：</米o></米row><一个nnotation encoding="application/x-tex"> 旅客:</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.625em;vertical-align:-0.19444em;"></span><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">：</gydF4y2Baspan></span></span></span>隐层节点的激活函数<br><gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msub> <mi> g</米我><米我>o</gydF4y2Ba米我></米sub> <mo> ：</米o></米row><一个nnotation encoding="application/x-tex"> g_o:</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.625em;vertical-align:-0.19444em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.151392em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">o</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">：</gydF4y2Baspan></span></span></span>输出层节点的激活函数</gydF4y2Bap>  </blockquote> <p>经典反向传播中的误差函数是均方误差</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> E</米我><米ostretchy="false"> （</米o><米我>X</gydF4y2Ba米我><米oseparator="true"> ，</米o><米我>θ</gydF4y2Ba米我><米ostretchy="false"> )</米o><米o>＝</米o><米fr一个c> <mn> 1</米n> <mrow> <mn> 2</米n> <mi> N</米我></米row></米frac> <munderover> <mo> ∑</米o><米row><米我>我</米我><米o>＝</米o><米n> 1</米n> </mrow> <mi> N</米我></米underover> <msup> <mrow> <mo fence="true"> （</米o><米over accent="true"> <msub> <mi> y</米我><米我>我</米我></米sub> <mo> ＾</米o></米over> <mo> −</米o><米sub> <mi> y</米我><米我>我</米我></米sub> <mo fence="true"> )</米o></米row><米n> 2</米n> </msup> <mo separator="true"> ，</米o></米row><一个nnotation encoding="application/x-tex"> E (X) \θ)= \压裂{1}{2 N} \ sum_ {i = 1} ^ N \离开(\帽子{y_i} - y_i \右)^ 2,</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan><span class="mopen">（</gydF4y2Baspan><span class="mord mathdefault" style="margin-right:0.07847em;">X</gydF4y2Baspan><span class="mpunct">，</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord mathdefault" style="margin-right:0.02778em;">θ</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:3.106005em;vertical-align:-1.277669em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.32144em;"><span style="top:-2.314em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord">2</gydF4y2Baspan><span class="mord mathdefault" style="margin-right:0.10903em;">N</gydF4y2Baspan></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord">1</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.686em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mop op-limits"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.8283360000000002em;"><span style="top:-1.872331em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mrel mtight">＝</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span><span style="top:-3.050005em;"><span class="pstrut" style="height:3.05em;"></span><span><span class="mop op-symbol large-op">∑</gydF4y2Baspan></span></span><span style="top:-4.3000050000000005em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.10903em;">N</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.277669em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="minner"><span class="minner"><span class="mopen delimcenter" style="top:0em;">（</gydF4y2Baspan><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.69444em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.31166399999999994em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.25em;">＾</gydF4y2Baspan></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.19444em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">−</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.31166399999999994em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose delimcenter" style="top:0em;">)</gydF4y2Baspan></span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.954008em;"><span style="top:-3.2029em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">2</gydF4y2Baspan></span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mpunct">，</gydF4y2Baspan></span></span></span></span></p> <p>在哪里<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msub> <mi> y</米我><米我>我</米我></米sub> </mrow> <annotation encoding="application/x-tex"> y_i</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.625em;vertical-align:-0.19444em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.31166399999999994em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span></span>输入输出对是否为目标值<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mo stretchy="false"> （</米o><米over accent="true"> <msub> <mi> x</米我><米我>我</米我></米sub> <mo> ⃗</米o></米over> <mo separator="true"> ，</米o><米sub> <mi> y</米我><米我>我</米我></米sub> <mo stretchy="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> (vec {x_i} \ y_i)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mopen">（</gydF4y2Baspan><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.714em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault">x</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.31166399999999994em;"><span style="top:-2.5500000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.2355em;"><span class="overlay" style="height:0.714em;width:0.471em;"> <svg width="0.471em" height="0.714em" style="width:0.471em" viewbox="0 0 471 714" preserveaspectratio="xMinYMin"> <path d="M377 20c0-5.333 1.833-10 5.5-14S391 0 397 0c4.667 0 8.667 1.667 12 5 3.333 2.667 6.667 9 10 19 6.667 24.667 20.333 43.667 41 57 7.333 4.667 11 10.667 11 18 0 6-1 10-3 12s-6.667 5-14 9c-28.667 14.667-53.667 35.667-75 63 -1.333 1.333-3.167 3.5-5.5 6.5s-4 4.833-5 5.5c-1 .667-2.5 1.333-4.5 2s-4.333 1 -7 1c-4.667 0-9.167-1.833-13.5-5.5S337 184 337 178c0-12.667 15.667-32.333 47-59 H213l-171-1c-8.667-6-13-12.333-13-19 0-4.667 4.333-11.333 13-20h359 c-16-25.333-24-45-24-59z"></path> </svg></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span><span class="mpunct">，</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.31166399999999994em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose">)</gydF4y2Baspan></span></span></span>而且<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mover accent="true"> <msub> <mi> y</米我><米我>我</米我></米sub> <mo> ＾</米o></米over> </mrow> <annotation encoding="application/x-tex"> 帽子\ {y_i}</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.8888799999999999em;vertical-align:-0.19444em;"></span><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.69444em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.31166399999999994em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.25em;">＾</gydF4y2Baspan></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.19444em;"><span></span></span></span></span></span></span></span></span>网络的计算输出是否在输入上<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mover accent="true"> <msub> <mi> x</米我><米我>我</米我></米sub> <mo> ⃗</米o></米over> </mrow> <annotation encoding="application/x-tex"> vec {x_i} \</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.864em;vertical-align:-0.15em;"></span><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.714em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault">x</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.31166399999999994em;"><span style="top:-2.5500000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.2355em;"><span class="overlay" style="height:0.714em;width:0.471em;"> <svg width="0.471em" height="0.714em" style="width:0.471em" viewbox="0 0 471 714" preserveaspectratio="xMinYMin"> <path d="M377 20c0-5.333 1.833-10 5.5-14S391 0 397 0c4.667 0 8.667 1.667 12 5 3.333 2.667 6.667 9 10 19 6.667 24.667 20.333 43.667 41 57 7.333 4.667 11 10.667 11 18 0 6-1 10-3 12s-6.667 5-14 9c-28.667 14.667-53.667 35.667-75 63 -1.333 1.333-3.167 3.5-5.5 6.5s-4 4.833-5 5.5c-1 .667-2.5 1.333-4.5 2s-4.333 1 -7 1c-4.667 0-9.167-1.833-13.5-5.5S337 184 337 178c0-12.667 15.667-32.333 47-59 H213l-171-1c-8.667-6-13-12.333-13-19 0-4.667 4.333-11.333 13-20h359 c-16-25.333-24-45-24-59z"></path> </svg></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span>．同样，也可以使用其他误差函数，但均方误差与反向传播的历史关联及其方便的数学性质使其成为学习该方法的一个很好的选择。</gydF4y2Bap> </div> </div> <div id="deriving-the-gradients" class="anchor skill-heading collapsed" data-controller="app/wiki:expandOrCollapse"> <header class="section-header"> <span class="css-sprite-chevrons chevron"></span> <h2>梯度的推导</gydF4y2Bah2> </header> </div> <div class="section collapsed" id="section-deriving-the-gradients"> <div class="section-container"> <p>反向传播算法的推导是相当简单的。它源于微分学中的链式法则和乘积法则。这些规则的应用依赖于激活函数的微分，这是不使用heaviside step函数的原因之一(因为不连续，因此不可微)。</gydF4y2Bap> <p><strong>预赛</gydF4y2Bastrong></p> <p>在本节的其余部分，函数的导数<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> f</米我><米ostretchy="false"> （</米o><米我>x</gydF4y2Ba米我><米ostretchy="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> f (x)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord mathdefault" style="margin-right:0.10764em;">f</gydF4y2Baspan><span class="mopen">（</gydF4y2Baspan><span class="mord mathdefault">x</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan></span></span></span>将被标记<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msup> <mi> f</米我><米o米一个thvariant="normal"> ”</米o></米sup> <mo stretchy="false"> （</米o><米我>x</gydF4y2Ba米我><米ostretchy="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> f ^ {\ '} (x)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.001892em;vertical-align:-0.25em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.10764em;">f</gydF4y2Baspan><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.751892em;"><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">”</gydF4y2Baspan></span></span></span></span></span></span></span></span><span class="mopen">（</gydF4y2Baspan><span class="mord mathdefault">x</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan></span></span></span>，所以s型函数的导数为<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msup> <mi> σ</米我><米o米一个thvariant="normal"> ”</米o></米sup> <mo stretchy="false"> （</米o><米我>x</gydF4y2Ba米我><米ostretchy="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> \σ^ {\ '}(x)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.001892em;vertical-align:-0.25em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">σ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.751892em;"><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">”</gydF4y2Baspan></span></span></span></span></span></span></span></span><span class="mopen">（</gydF4y2Baspan><span class="mord mathdefault">x</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan></span></span></span>．</gydF4y2Bap> <p>为了进一步简化数学，偏差<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> b</米我><米我>我</米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> <annotation encoding="application/x-tex"> b_i ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.107772em;vertical-align:-0.258664em;"></span><span class="mord"><span class="mord mathdefault">b</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.258664em;"><span></span></span></span></span></span></span></span></span></span>为节点<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> 我</米我></米row><一个nnotation encoding="application/x-tex"> 我</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.65952em;vertical-align:0em;"></span><span class="mord mathdefault">我</gydF4y2Baspan></span></span></span>在层<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> k</米我></米row><一个nnotation encoding="application/x-tex"> k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.69444em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span>将并入权重为<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> w</米我><米row><米n> 0</米n> <mi> 我</米我></米row><米我> k</米我></米subsup> </mrow> <annotation encoding="application/x-tex"> 我w_ {0} ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.107772em;vertical-align:-0.258664em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">0</gydF4y2Baspan><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.258664em;"><span></span></span></span></span></span></span></span></span></span>具有固定的输出<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> o</米我><米n> 0</米n> <mrow> <mi> k</米我><米o>−</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> <mo> ＝</米o><米n> 1</米n> </mrow> <annotation encoding="application/x-tex"> O_0 ^{k-1} = 1</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.1555469999999999em;vertical-align:-0.266308em;"></span><span class="mord"><span class="mord mathdefault">o</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8892389999999999em;"><span style="top:-2.433692em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">0</gydF4y2Baspan></span></span><span style="top:-3.1031310000000003em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">−</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.266308em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:0.64444em;vertical-align:0em;"></span><span class="mord">1</gydF4y2Baspan></span></span></span>为节点<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mn> 0</米n> </mrow> <annotation encoding="application/x-tex"> 0</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.64444em;vertical-align:0em;"></span><span class="mord">0</gydF4y2Baspan></span></span></span>在层<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> k</米我><米o>−</gydF4y2Ba米o><米n> 1</米n> </mrow> <annotation encoding="application/x-tex"> k - 1</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.77777em;vertical-align:-0.08333em;"></span><span class="mord mathdefault" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">−</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:0.64444em;vertical-align:0em;"></span><span class="mord">1</gydF4y2Baspan></span></span></span>．因此,</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> w</米我><米row><米n> 0</米n> <mi> 我</米我></米row><米我> k</米我></米subsup> <mo> ＝</米o><米subsup> <mi> b</米我><米我>我</米我><米我>k</gydF4y2Ba米我></米subsup> <mi mathvariant="normal"> ．</米我></米row><一个nnotation encoding="application/x-tex"> W_ {0i}^k = b_i^k。</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.146108em;vertical-align:-0.247em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8991079999999998em;"><span style="top:-2.4530000000000003em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">0</gydF4y2Baspan><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.247em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.146108em;vertical-align:-0.247em;"></span><span class="mord"><span class="mord mathdefault">b</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8991079999999998em;"><span style="top:-2.4530000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.247em;"><span></span></span></span></span></span></span><span class="mord">．</gydF4y2Baspan></span></span></span></span></p> <p>要看出这与原来的公式是等价的，请注意</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> 一个</米我><米我>我</米我><米我>k</gydF4y2Ba米我></米subsup> <mo> ＝</米o><米subsup> <mi> b</米我><米我>我</米我><米我>k</gydF4y2Ba米我></米subsup> <mo> +</米o><米underover> <mo> ∑</米o><米row><米我>j</米我><米o>＝</米o><米n> 1</米n> </mrow> <msub> <mi> r</米我><米row><米我> k</米我><米o>−</gydF4y2Ba米o><米n> 1</米n> </mrow> </msub> </munderover> <msubsup> <mi> w</米我><米row><米我> j</米我><米我>我</米我></米row><米我> k</米我></米subsup> <msubsup> <mi> o</米我><米我>j</gydF4y2Ba米我><米row><米我> k</米我><米o>−</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> <mo> ＝</米o><米underover> <mo> ∑</米o><米row><米我>j</米我><米o>＝</米o><米n> 0</米n> </mrow> <msub> <mi> r</米我><米row><米我> k</米我><米o>−</gydF4y2Ba米o><米n> 1</米n> </mrow> </msub> </munderover> <msubsup> <mi> w</米我><米row><米我> j</米我><米我>我</米我></米row><米我> k</米我></米subsup> <msubsup> <mi> o</米我><米我>j</gydF4y2Ba米我><米row><米我> k</米我><米o>−</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> <mo separator="true"> ，</米o></米row><一个nnotation encoding="application/x-tex"> ai ^ k = b_i ^ k + \ sum_ {j = 1} ^ {r_ {k - 1}} w_{他}^ k o_j ^ {k - 1} = \ sum_ j = {0} ^ {r_ {k - 1}} w_{他}^ k o_j ^ {k - 1},</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.146108em;vertical-align:-0.247em;"></span><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8991079999999998em;"><span style="top:-2.4530000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.247em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.146108em;vertical-align:-0.247em;"></span><span class="mord"><span class="mord mathdefault">b</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8991079999999998em;"><span style="top:-2.4530000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.247em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">+</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:3.1236990000000002em;vertical-align:-1.4137769999999998em;"></span><span class="mop op-limits"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.7099220000000006em;"><span style="top:-1.872331em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan><span class="mrel mtight">＝</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span><span style="top:-3.050005em;"><span class="pstrut" style="height:3.05em;"></span><span><span class="mop op-symbol large-op">∑</gydF4y2Baspan></span></span><span style="top:-4.35853em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.02778em;">r</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.34480000000000005em;"><span style="top:-2.3487714285714287em;margin-left:-0.02778em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">−</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.21074999999999994em;"><span></span></span></span></span></span></span></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.4137769999999998em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.899108em;"><span style="top:-2.4530000000000003em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span></span><span style="top:-3.1130000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.383108em;"><span></span></span></span></span></span></span><span class="mord"><span class="mord mathdefault">o</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8991079999999999em;"><span style="top:-2.4330050000000005em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">−</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.403103em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:3.1236990000000002em;vertical-align:-1.4137769999999998em;"></span><span class="mop op-limits"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.7099220000000006em;"><span style="top:-1.872331em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan><span class="mrel mtight">＝</gydF4y2Baspan><span class="mord mtight">0</gydF4y2Baspan></span></span></span><span style="top:-3.050005em;"><span class="pstrut" style="height:3.05em;"></span><span><span class="mop op-symbol large-op">∑</gydF4y2Baspan></span></span><span style="top:-4.35853em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.02778em;">r</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.34480000000000005em;"><span style="top:-2.3487714285714287em;margin-left:-0.02778em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">−</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.21074999999999994em;"><span></span></span></span></span></span></span></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.4137769999999998em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.899108em;"><span style="top:-2.4530000000000003em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span></span><span style="top:-3.1130000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.383108em;"><span></span></span></span></span></span></span><span class="mord"><span class="mord mathdefault">o</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8991079999999999em;"><span style="top:-2.4330050000000005em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">−</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.403103em;"><span></span></span></span></span></span></span><span class="mpunct">，</gydF4y2Baspan></span></span></span></span></p> <p>左边是原来的公式右边是新的公式。</gydF4y2Bap> <p>使用上面的符号，反向传播尝试最小化以下关于神经网络权重的误差函数:</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> E</米我><米ostretchy="false"> （</米o><米我>X</gydF4y2Ba米我><米oseparator="true"> ，</米o><米我>θ</gydF4y2Ba米我><米ostretchy="false"> )</米o><米o>＝</米o><米fr一个c> <mn> 1</米n> <mrow> <mn> 2</米n> <mi> N</米我></米row></米frac> <munderover> <mo> ∑</米o><米row><米我>我</米我><米o>＝</米o><米n> 1</米n> </mrow> <mi> N</米我></米underover> <msup> <mrow> <mo fence="true"> （</米o><米over accent="true"> <msub> <mi> y</米我><米我>我</米我></米sub> <mo> ＾</米o></米over> <mo> −</米o><米sub> <mi> y</米我><米我>我</米我></米sub> <mo fence="true"> )</米o></米row><米n> 2</米n> </msup> </mrow> <annotation encoding="application/x-tex"> E (X) \θ)= \压裂{1}{2 N} \ sum_ {i = 1} ^ N \离开(\帽子{y_i} - y_i \右)^ {2}</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan><span class="mopen">（</gydF4y2Baspan><span class="mord mathdefault" style="margin-right:0.07847em;">X</gydF4y2Baspan><span class="mpunct">，</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord mathdefault" style="margin-right:0.02778em;">θ</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:3.106005em;vertical-align:-1.277669em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.32144em;"><span style="top:-2.314em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord">2</gydF4y2Baspan><span class="mord mathdefault" style="margin-right:0.10903em;">N</gydF4y2Baspan></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord">1</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.686em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mop op-limits"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.8283360000000002em;"><span style="top:-1.872331em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mrel mtight">＝</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span><span style="top:-3.050005em;"><span class="pstrut" style="height:3.05em;"></span><span><span class="mop op-symbol large-op">∑</gydF4y2Baspan></span></span><span style="top:-4.3000050000000005em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.10903em;">N</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.277669em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="minner"><span class="minner"><span class="mopen delimcenter" style="top:0em;">（</gydF4y2Baspan><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.69444em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.31166399999999994em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.25em;">＾</gydF4y2Baspan></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.19444em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">−</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.31166399999999994em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose delimcenter" style="top:0em;">)</gydF4y2Baspan></span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.954008em;"><span style="top:-3.2029em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">2</gydF4y2Baspan></span></span></span></span></span></span></span></span></span></span></span></span></p> <p>通过计算，每个权重<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> <mo separator="true"> ，</米o></米row><一个nnotation encoding="application/x-tex"> w_ {ij} ^ k,</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span><span class="mpunct">，</gydF4y2Baspan></span></span></span>的价值<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mfrac> <mrow> <mi mathvariant="normal"> ∂</米我><米我>E</gydF4y2Ba米我></米row><米row> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> </mfrac> </mrow> <annotation encoding="application/x-tex"> \frac{\partial E}{\partial w_{ij}^k}</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.6015079999999997em;vertical-align:-0.7213999999999998em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8801079999999999em;"><span style="top:-2.60142em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8408285714285714em;"><span style="top:-2.177714285714286em;margin-left:-0.02691em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-2.8448em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.46117142857142857em;"><span></span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.394em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05764em;">E</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.7213999999999998em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span></span></span></span>．由于误差函数可以分解为每个输入-输出对的各个误差项的和，因此可以分别计算每个输入-输出对的导数，然后在最后合并(因为函数和的导数是每个函数的导数的和):</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mfrac> <mrow> <mi mathvariant="normal"> ∂</米我><米我>E</gydF4y2Ba米我><米ostretchy="false"> （</米o><米我>X</gydF4y2Ba米我><米oseparator="true"> ，</米o><米我>θ</gydF4y2Ba米我><米ostretchy="false"> )</米o></米row><米row> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> </mfrac> <mo> ＝</米o><米fr一个c> <mn> 1</米n> <mi> N</米我></米fr一个c> <munderover> <mo> ∑</米o><米row><米我>d</米我><米o>＝</米o><米n> 1</米n> </mrow> <mi> N</米我></米underover> <mfrac> <mi mathvariant="normal"> ∂</米我><米row><米我米athvariant="normal"> ∂</米我><米subsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> </mfrac> <mrow> <mo fence="true"> （</米o><米fr一个c> <mn> 1</米n> <mn> 2</米n> </mfrac> <msup> <mrow> <mo fence="true"> （</米o><米over accent="true"> <msub> <mi> y</米我><米我>d</gydF4y2Ba米我></米sub> <mo> ＾</米o></米over> <mo> −</米o><米sub> <mi> y</米我><米我>d</gydF4y2Ba米我></米sub> <mo fence="true"> )</米o></米row><米n> 2</米n> </msup> <mo fence="true"> )</米o></米row><米o>＝</米o><米fr一个c> <mn> 1</米n> <mi> N</米我></米fr一个c> <munderover> <mo> ∑</米o><米row><米我>d</米我><米o>＝</米o><米n> 1</米n> </mrow> <mi> N</米我></米underover> <mfrac> <mrow> <mi mathvariant="normal"> ∂</米我><米sub> <mi> E</米我><米我>d</gydF4y2Ba米我></米sub> </mrow> <mrow> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> </mfrac> <mi mathvariant="normal"> ．</米我></米row><一个nnotation encoding="application/x-tex"> \压裂{\ E (X) \θ)的偏}{\部分w_ {ij} ^ k} = \压裂{1}{N} \ sum_ {d = 1} ^ N \压裂{\部分}{\部分w_ {ij} ^ k} \离开(\压裂{1}{2}\离开(\帽子{y_d} - y_d \右)^{2}\右)= \压裂{1}{N} \ sum_ {d = 1} ^ N \压裂{\部分E_d}{\部分w_ {ij} ^ k}。</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:2.56088em;vertical-align:-1.13388em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.427em;"><span style="top:-2.279092em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.830908em;"><span style="top:-2.4231360000000004em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.0448000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4129719999999999em;"><span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan><span class="mopen">（</gydF4y2Baspan><span class="mord mathdefault" style="margin-right:0.07847em;">X</gydF4y2Baspan><span class="mpunct">，</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord mathdefault" style="margin-right:0.02778em;">θ</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.13388em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:3.1304490000000005em;vertical-align:-1.302113em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.32144em;"><span style="top:-2.314em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.10903em;">N</gydF4y2Baspan></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord">1</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.686em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mop op-limits"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.8283360000000002em;"><span style="top:-1.8478869999999998em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan><span class="mrel mtight">＝</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span><span style="top:-3.0500049999999996em;"><span class="pstrut" style="height:3.05em;"></span><span><span class="mop op-symbol large-op">∑</gydF4y2Baspan></span></span><span style="top:-4.300005em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.10903em;">N</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.302113em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.37144em;"><span style="top:-2.279092em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.830908em;"><span style="top:-2.4231360000000004em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.0448000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4129719999999999em;"><span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.13388em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="minner"><span class="mopen delimcenter" style="top:0em;"><span class="delimsizing size3">（</gydF4y2Baspan></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.32144em;"><span style="top:-2.314em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord">2</gydF4y2Baspan></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord">1</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.686em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="minner"><span class="minner"><span class="mopen delimcenter" style="top:0em;">（</gydF4y2Baspan><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.69444em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.25em;">＾</gydF4y2Baspan></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.19444em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">−</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose delimcenter" style="top:0em;">)</gydF4y2Baspan></span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.954008em;"><span style="top:-3.2029em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">2</gydF4y2Baspan></span></span></span></span></span></span></span></span><span class="mclose delimcenter" style="top:0em;"><span class="delimsizing size3">)</gydF4y2Baspan></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:3.1304490000000005em;vertical-align:-1.302113em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.32144em;"><span style="top:-2.314em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.10903em;">N</gydF4y2Baspan></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord">1</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.686em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mop op-limits"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.8283360000000002em;"><span style="top:-1.8478869999999998em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan><span class="mrel mtight">＝</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span><span style="top:-3.0500049999999996em;"><span class="pstrut" style="height:3.05em;"></span><span><span class="mop op-symbol large-op">∑</gydF4y2Baspan></span></span><span style="top:-4.300005em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.10903em;">N</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.302113em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.37144em;"><span style="top:-2.279092em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.830908em;"><span style="top:-2.4231360000000004em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.0448000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4129719999999999em;"><span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.05764em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.13388em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mord">．</gydF4y2Baspan></span></span></span></span></p> <p>因此，为了推导的目的，反向传播算法将只关注一个输入-输出对。一旦导出了这个，中所有输入-输出对的一般形式<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> X</米我></米row><一个nnotation encoding="application/x-tex"> X</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.07847em;">X</gydF4y2Baspan></span></span></span>可以通过组合各个渐变来生成。因此，要求导的误差函数为</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> E</米我><米o>＝</米o><米fr一个c> <mn> 1</米n> <mn> 2</米n> </mfrac> <msup> <mrow> <mo fence="true"> （</米o><米over accent="true"> <mi> y</米我><米o>＾</米o></米over> <mo> −</米o><米我>y</gydF4y2Ba米我><米ofence="true"> )</米o></米row><米n> 2</米n> </msup> <mo separator="true"> ，</米o></米row><一个nnotation encoding="application/x-tex"> E = \frac{2}\left(\hat{y} - y\right)^{2}，</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:2.00744em;vertical-align:-0.686em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.32144em;"><span style="top:-2.314em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord">2</gydF4y2Baspan></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord">1</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.686em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="minner"><span class="minner"><span class="mopen delimcenter" style="top:0em;">（</gydF4y2Baspan><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.69444em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.19444em;">＾</gydF4y2Baspan></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.19444em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">−</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="mclose delimcenter" style="top:0em;">)</gydF4y2Baspan></span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.954008em;"><span style="top:-3.2029em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">2</gydF4y2Baspan></span></span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mpunct">，</gydF4y2Baspan></span></span></span></span></p> <p>下标在这里<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> d</米我></米row><一个nnotation encoding="application/x-tex"> d</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.69444em;vertical-align:0em;"></span><span class="mord mathdefault">d</gydF4y2Baspan></span></span></span>在<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msub> <mi> E</米我><米我>d</gydF4y2Ba米我></米sub> </mrow> <annotation encoding="application/x-tex"> E_d</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.83333em;vertical-align:-0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.05764em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span></span>，<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mover accent="true"> <msub> <mi> y</米我><米我>d</gydF4y2Ba米我></米sub> <mo> ＾</米o></米over> </mrow> <annotation encoding="application/x-tex"> 帽子\ {y_d}</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.8888799999999999em;vertical-align:-0.19444em;"></span><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.69444em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.25em;">＾</gydF4y2Baspan></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.19444em;"><span></span></span></span></span></span></span></span></span>,<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msub> <mi> y</米我><米我>d</gydF4y2Ba米我></米sub> </mrow> <annotation encoding="application/x-tex"> y_d</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.625em;vertical-align:-0.19444em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span></span>为简化省略。</gydF4y2Bap> <p><strong>误差函数导数</gydF4y2Bastrong></p> <p>反向传播算法的推导首先将链式法则应用于误差函数的偏导数</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mfrac> <mrow> <mi mathvariant="normal"> ∂</米我><米我>E</gydF4y2Ba米我></米row><米row> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> </mfrac> <mo> ＝</米o><米fr一个c> <mrow> <mi mathvariant="normal"> ∂</米我><米我>E</gydF4y2Ba米我></米row><米row> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> 一个</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> </mfrac> <mfrac> <mrow> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> 一个</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> <mrow> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> </mfrac> <mo separator="true"> ，</米o></米row><一个nnotation encoding="application/x-tex"> \压裂{\部分E}{\部分w_ {ij} ^ k} = \压裂{\部分E}{\部分a_j ^ k} \压裂{\部分a_j ^ k}{\部分w_ {ij} ^ k},</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:2.50532em;vertical-align:-1.13388em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.37144em;"><span style="top:-2.279092em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.830908em;"><span style="top:-2.4231360000000004em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.0448000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4129719999999999em;"><span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.13388em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:2.76776em;vertical-align:-1.13388em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.37144em;"><span style="top:-2.279092em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.830908em;"><span style="top:-2.4231360000000004em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.0448000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4129719999999999em;"><span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.13388em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.63388em;"><span style="top:-2.279092em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.830908em;"><span style="top:-2.4231360000000004em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.0448000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4129719999999999em;"><span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.7847720000000002em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.13388em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mpunct">，</gydF4y2Baspan></span></span></span></span></p> <p>在哪里<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> 一个</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> <annotation encoding="application/x-tex"> a_j ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>节点的激活(积和加偏置)是<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> j</米我></米row><一个nnotation encoding="application/x-tex"> j</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.85396em;vertical-align:-0.19444em;"></span><span class="mord mathdefault" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span>在层<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> k</米我></米row><一个nnotation encoding="application/x-tex"> k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.69444em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span>然后将其传递给非线性激活函数(在本例中为sigmoid函数)以生成输出。这种偏导数的分解基本上是说，由于权重导致的误差函数的变化是误差函数变化的乘积<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> E</米我></米row><一个nnotation encoding="application/x-tex"> E</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan></span></span></span>由于激活<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> 一个</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> <annotation encoding="application/x-tex"> a_j ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>乘以激活量的变化<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> 一个</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> <annotation encoding="application/x-tex"> a_j ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>由于重量<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> <annotation encoding="application/x-tex"> w_ {ij} ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>．</gydF4y2Bap> <p>第一项通常称为<gydF4y2Bastrong>错误</gydF4y2Bastrong>，原因如下。它表示为</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> δ</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> <mo> ≡</米o><米fr一个c> <mrow> <mi mathvariant="normal"> ∂</米我><米我>E</gydF4y2Ba米我></米row><米row> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> 一个</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> </mfrac> <mi mathvariant="normal"> ．</米我></米row><一个nnotation encoding="application/x-tex"> \delta_j^k \equiv \frac{\partial E}{\partial a_j^k}。</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.282216em;vertical-align:-0.383108em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.899108em;"><span style="top:-2.4530000000000003em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.1130000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.383108em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">≡</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:2.50532em;vertical-align:-1.13388em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.37144em;"><span style="top:-2.279092em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.830908em;"><span style="top:-2.4231360000000004em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.0448000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4129719999999999em;"><span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.13388em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mord">．</gydF4y2Baspan></span></span></span></span></p> <p>第二项可以由方程计算<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> 一个</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> <annotation encoding="application/x-tex"> a_j ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>上图:</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mfrac> <mrow> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> 一个</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> <mrow> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> </mfrac> <mo> ＝</米o><米fr一个c> <mi mathvariant="normal"> ∂</米我><米row><米我米athvariant="normal"> ∂</米我><米subsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> </mfrac> <mrow> <mo fence="true"> （</米o><米underover> <mo> ∑</米o><米row><米我>l</米我><米o>＝</米o><米n> 0</米n> </mrow> <msub> <mi> r</米我><米row><米我> k</米我><米o>−</gydF4y2Ba米o><米n> 1</米n> </mrow> </msub> </munderover> <msubsup> <mi> w</米我><米row><米我> l</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> <msubsup> <mi> o</米我><米我>l</gydF4y2Ba米我><米row><米我> k</米我><米o>−</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> <mo fence="true"> )</米o></米row><米o>＝</米o><米subsup> <mi> o</米我><米我>我</米我><米row><米我> k</米我><米o>−</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> <mi mathvariant="normal"> ．</米我></米row><一个nnotation encoding="application/x-tex"> \压裂{\部分a_j ^ k}{\部分w_ {ij} ^ k} = \压裂{\部分}{\部分w_ {ij} ^ k} \离开(\ sum_ l = {0} ^ {r_ {k - 1}} w_ {lj} ^ k o_l ^ {k - 1} \右)= o_i ^ {k - 1}。</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:2.76776em;vertical-align:-1.13388em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.63388em;"><span style="top:-2.279092em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.830908em;"><span style="top:-2.4231360000000004em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.0448000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4129719999999999em;"><span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.7847720000000002em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.13388em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:3.0521130000000003em;vertical-align:-1.302113em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.37144em;"><span style="top:-2.279092em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.830908em;"><span style="top:-2.4231360000000004em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.0448000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4129719999999999em;"><span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.13388em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="minner"><span class="mopen delimcenter" style="top:0em;"><span class="delimsizing size4">（</gydF4y2Baspan></span><span class="mop op-limits"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.7099220000000002em;"><span style="top:-1.8478869999999998em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan><span class="mrel mtight">＝</gydF4y2Baspan><span class="mord mtight">0</gydF4y2Baspan></span></span></span><span style="top:-3.0500049999999996em;"><span class="pstrut" style="height:3.05em;"></span><span><span class="mop op-symbol large-op">∑</gydF4y2Baspan></span></span><span style="top:-4.35853em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.02778em;">r</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.34480000000000005em;"><span style="top:-2.3487714285714287em;margin-left:-0.02778em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">−</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.21074999999999994em;"><span></span></span></span></span></span></span></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.302113em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.899108em;"><span style="top:-2.4530000000000003em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.1130000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.383108em;"><span></span></span></span></span></span></span><span class="mord"><span class="mord mathdefault">o</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8991079999999998em;"><span style="top:-2.408561em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">−</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.2914389999999999em;"><span></span></span></span></span></span></span><span class="mclose delimcenter" style="top:0em;"><span class="delimsizing size4">)</gydF4y2Baspan></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.1661029999999997em;vertical-align:-0.266995em;"></span><span class="mord"><span class="mord mathdefault">o</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8991079999999998em;"><span style="top:-2.433005em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">−</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.266995em;"><span></span></span></span></span></span></span><span class="mord">．</gydF4y2Baspan></span></span></span></span></p> <p>因此，误差函数的偏导数<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> E</米我></米row><一个nnotation encoding="application/x-tex"> E</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan></span></span></span>相对于权重<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> <annotation encoding="application/x-tex"> w_ {ij} ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>是</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mfrac> <mrow> <mi mathvariant="normal"> ∂</米我><米我>E</gydF4y2Ba米我></米row><米row> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> </mfrac> <mo> ＝</米o><米subsup> <mi> δ</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> <msubsup> <mi> o</米我><米我>我</米我><米row><米我> k</米我><米o>−</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> <mi mathvariant="normal"> ．</米我></米row><一个nnotation encoding="application/x-tex"> \压裂{\部分E}{\部分w_ {ij} ^ k} = \ delta_j ^ k o_i ^ {k - 1}。</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:2.50532em;vertical-align:-1.13388em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.37144em;"><span style="top:-2.279092em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.830908em;"><span style="top:-2.4231360000000004em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.0448000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4129719999999999em;"><span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.13388em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.282216em;vertical-align:-0.383108em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.899108em;"><span style="top:-2.4530000000000003em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.1130000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.383108em;"><span></span></span></span></span></span></span><span class="mord"><span class="mord mathdefault">o</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8991079999999998em;"><span style="top:-2.433005em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">−</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.266995em;"><span></span></span></span></span></span></span><span class="mord">．</gydF4y2Baspan></span></span></span></span></p> <p>因此，权重的偏导数是误差项的乘积<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> δ</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> <annotation encoding="application/x-tex"> \ delta_j ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>在节点<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> j</米我></米row><一个nnotation encoding="application/x-tex"> j</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.85396em;vertical-align:-0.19444em;"></span><span class="mord mathdefault" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span>在层<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> k</米我></米row><一个nnotation encoding="application/x-tex"> k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.69444em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span>，输出<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> o</米我><米我>我</米我><米row><米我> k</米我><米o>−</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> </mrow> <annotation encoding="application/x-tex"> o_i ^ {k - 1}</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.166103em;vertical-align:-0.276864em;"></span><span class="mord"><span class="mord mathdefault">o</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8892389999999999em;"><span style="top:-2.4231360000000004em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span><span style="top:-3.1031310000000003em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">−</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.276864em;"><span></span></span></span></span></span></span></span></span></span>的节点<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> 我</米我></米row><一个nnotation encoding="application/x-tex"> 我</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.65952em;vertical-align:0em;"></span><span class="mord mathdefault">我</gydF4y2Baspan></span></span></span>在层<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> k</米我><米o>−</gydF4y2Ba米o><米n> 1</米n> </mrow> <annotation encoding="application/x-tex"> k - 1</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.77777em;vertical-align:-0.08333em;"></span><span class="mord mathdefault" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">−</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:0.64444em;vertical-align:0em;"></span><span class="mord">1</gydF4y2Baspan></span></span></span>．这很直观，因为权重<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> <annotation encoding="application/x-tex"> w_ {ij} ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>连接节点的输出<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> 我</米我></米row><一个nnotation encoding="application/x-tex"> 我</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.65952em;vertical-align:0em;"></span><span class="mord mathdefault">我</gydF4y2Baspan></span></span></span>在层<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> k</米我><米o>−</gydF4y2Ba米o><米n> 1</米n> </mrow> <annotation encoding="application/x-tex"> k - 1</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.77777em;vertical-align:-0.08333em;"></span><span class="mord mathdefault" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">−</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:0.64444em;vertical-align:0em;"></span><span class="mord">1</gydF4y2Baspan></span></span></span>节点的输入<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> j</米我></米row><一个nnotation encoding="application/x-tex"> j</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.85396em;vertical-align:-0.19444em;"></span><span class="mord mathdefault" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span>在层<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> k</米我></米row><一个nnotation encoding="application/x-tex"> k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.69444em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span>在计算图中。</gydF4y2Bap> <p>值得注意的是，上述偏导数都是在没有考虑特定误差函数或激活函数的情况下计算出来的。但是，由于误差项<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> δ</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> <annotation encoding="application/x-tex"> \ delta_j ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>仍然需要计算，并且依赖于误差函数<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> E</米我></米row><一个nnotation encoding="application/x-tex"> E</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan></span></span></span>，在这一点上，有必要介绍这两者的特定功能。如前所述，经典的反向传播使用均方误差函数(这是单个输入-输出对情况下的误差平方函数)和sigmoid激活函数。</gydF4y2Bap> <p>误差的计算<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> δ</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> <annotation encoding="application/x-tex"> \ delta_j ^ {k}</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>将显示依赖于下一层的错误项的值。因此，误差项的计算将从输出层向后进行到输入层。这就是反向传播或误差反向传播得名的原因。</gydF4y2Bap> <p><strong>输出层</gydF4y2Bastrong></p> <p>从最后一层开始，反向传播尝试定义值<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> δ</米我><米n> 1</米n> <mi> 米</米我></米subsup> </mrow> <annotation encoding="application/x-tex"> m \ delta_1 ^</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.9425479999999999em;vertical-align:-0.24810799999999997em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.664392em;"><span style="top:-2.4518920000000004em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">1</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">米</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.24810799999999997em;"><span></span></span></span></span></span></span></span></span></span>,在那里<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> 米</米我></米row><一个nnotation encoding="application/x-tex"> 米</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.43056em;vertical-align:0em;"></span><span class="mord mathdefault">米</gydF4y2Baspan></span></span></span>是最后一层<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mo stretchy="false"> （</米o></米row><一个nnotation encoding="application/x-tex"> （</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mopen">（</gydF4y2Baspan></span></span></span>下标是<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mn> 1</米n> </mrow> <annotation encoding="application/x-tex"> 1</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.64444em;vertical-align:0em;"></span><span class="mord">1</gydF4y2Baspan></span></span></span>而不是<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> j</米我></米row><一个nnotation encoding="application/x-tex"> j</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.85396em;vertical-align:-0.19444em;"></span><span class="mord mathdefault" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span>因为这个推导涉及一个输出神经网络，所以只有一个输出节点<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> j</米我><米o>＝</米o><米n> 1</米n> <mo stretchy="false"> )</米o><米我米一个thvariant="normal"> ．</米我></米row><一个nnotation encoding="application/x-tex"> J = 1)。</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.85396em;vertical-align:-0.19444em;"></span><span class="mord mathdefault" style="margin-right:0.05724em;">j</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord">1</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan><span class="mord">．</gydF4y2Baspan></span></span></span>例如，一个四层神经网络将有<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> 米</米我><米o>＝</米o><米n> 3.</米n> </mrow> <annotation encoding="application/x-tex"> m = 3</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.43056em;vertical-align:0em;"></span><span class="mord mathdefault">米</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:0.64444em;vertical-align:0em;"></span><span class="mord">3.</gydF4y2Baspan></span></span></span>最后一层，<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> 米</米我><米o>＝</米o><米n> 2</米n> </mrow> <annotation encoding="application/x-tex"> m = 2</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.43056em;vertical-align:0em;"></span><span class="mord mathdefault">米</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:0.64444em;vertical-align:0em;"></span><span class="mord">2</gydF4y2Baspan></span></span></span>从第二层到最后一层，以此类推。表示误差函数<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> E</米我></米row><一个nnotation encoding="application/x-tex"> E</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan></span></span></span>就数值而言<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> 一个</米我><米n> 1</米n> <mi> 米</米我></米subsup> </mrow> <annotation encoding="application/x-tex"> a_1 m ^</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.9125em;vertical-align:-0.24810799999999997em;"></span><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.664392em;"><span style="top:-2.4518920000000004em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">1</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">米</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.24810799999999997em;"><span></span></span></span></span></span></span></span></span></span><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mo fence="false"> （</米o></米row><一个nnotation encoding="application/x-tex"> \大(</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.20001em;vertical-align:-0.35001em;"></span><span class="mord"><span class="delimsizing size1">（</gydF4y2Baspan></span></span></span></span>自<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> δ</米我><米n> 1</米n> <mi> 米</米我></米subsup> </mrow> <annotation encoding="application/x-tex"> m \ delta_1 ^</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.9425479999999999em;vertical-align:-0.24810799999999997em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.664392em;"><span style="top:-2.4518920000000004em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">1</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">米</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.24810799999999997em;"><span></span></span></span></span></span></span></span></span></span>是关于的偏导吗<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> 一个</米我><米n> 1</米n> <mi> 米</米我></米subsup> <mo fence="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> a_1 ^ \大)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.20001em;vertical-align:-0.35001em;"></span><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.664392em;"><span style="top:-2.4518920000000004em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">1</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">米</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.24810799999999997em;"><span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">)</gydF4y2Baspan></span></span></span></span>给了</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> E</米我><米o>＝</米o><米fr一个c> <mn> 1</米n> <mn> 2</米n> </mfrac> <msup> <mrow> <mo fence="true"> （</米o><米over accent="true"> <mi> y</米我><米o>＾</米o></米over> <mo> −</米o><米我>y</gydF4y2Ba米我><米ofence="true"> )</米o></米row><米n> 2</米n> </msup> <mo> ＝</米o><米fr一个c> <mn> 1</米n> <mn> 2</米n> </mfrac> <mo fence="false"> （</米o><米sub> <mi> g</米我><米我>o</gydF4y2Ba米我></米sub> <mo stretchy="false"> （</米o><米subsup> <mi> 一个</米我><米n> 1</米n> <mi> 米</米我></米subsup> <mo stretchy="false"> )</米o><米o>−</gydF4y2Ba米o><米我>y</gydF4y2Ba米我><米sup> <mo fence="false"> )</米o><米n> 2</米n> </msup> <mo separator="true"> ，</米o></米row><一个nnotation encoding="application/x-tex"> E = \压裂{1}{2}\离开(\帽子{y} - y \右)^{2}= \压裂{1}{2}\大(g_o (a_1 ^ m) - y \大)^ {2},</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:2.00744em;vertical-align:-0.686em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.32144em;"><span style="top:-2.314em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord">2</gydF4y2Baspan></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord">1</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.686em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="minner"><span class="minner"><span class="mopen delimcenter" style="top:0em;">（</gydF4y2Baspan><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.69444em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.19444em;">＾</gydF4y2Baspan></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.19444em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">−</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="mclose delimcenter" style="top:0em;">)</gydF4y2Baspan></span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.954008em;"><span style="top:-3.2029em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">2</gydF4y2Baspan></span></span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:2.00744em;vertical-align:-0.686em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.32144em;"><span style="top:-2.314em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord">2</gydF4y2Baspan></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord">1</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.686em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mord"><span class="delimsizing size1">（</gydF4y2Baspan></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.151392em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">o</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mopen">（</gydF4y2Baspan><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.7143919999999999em;"><span style="top:-2.4530000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">1</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">米</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.247em;"><span></span></span></span></span></span></span><span class="mclose">)</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">−</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:1.404018em;vertical-align:-0.35001em;"></span><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="mord"><span class="mord"><span class="delimsizing size1">)</gydF4y2Baspan></span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:1.054008em;"><span style="top:-3.3029em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">2</gydF4y2Baspan></span></span></span></span></span></span></span></span><span class="mpunct">，</gydF4y2Baspan></span></span></span></span></p> <p>在哪里<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msub> <mi> g</米我><米我>o</gydF4y2Ba米我></米sub> <mo stretchy="false"> （</米o><米我>x</gydF4y2Ba米我><米ostretchy="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> g_o (x)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.151392em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">o</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mopen">（</gydF4y2Baspan><span class="mord mathdefault">x</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan></span></span></span>是输出层的激活函数。</gydF4y2Bap> <p>因此，应用偏导数和链式法则给出</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> δ</米我><米n> 1</米n> <mi> 米</米我></米subsup> <mo> ＝</米o><米row><米ofence="true"> （</米o><米sub> <mi> g</米我><米n> 0</米n> </msub> <mo stretchy="false"> （</米o><米subsup> <mi> 一个</米我><米n> 1</米n> <mi> 米</米我></米subsup> <mo stretchy="false"> )</米o><米o>−</gydF4y2Ba米o><米我>y</gydF4y2Ba米我><米ofence="true"> )</米o></米row><米subsup> <mi> g</米我><米我>o</gydF4y2Ba米我><米o米一个thvariant="normal"> ”</米o></米subsup> <mo stretchy="false"> （</米o><米subsup> <mi> 一个</米我><米n> 1</米n> <mi> 米</米我></米subsup> <mo stretchy="false"> )</米o><米o>＝</米o><米row><米ofence="true"> （</米o><米over accent="true"> <mi> y</米我><米o>＾</米o></米over> <mo> −</米o><米我>y</gydF4y2Ba米我><米ofence="true"> )</米o></米row><米subsup> <mi> g</米我><米我>o</gydF4y2Ba米我><米o米一个thvariant="normal"> ”</米o></米subsup> <mo stretchy="false"> （</米o><米subsup> <mi> 一个</米我><米n> 1</米n> <mi> 米</米我></米subsup> <mo stretchy="false"> )</米o><米我米一个thvariant="normal"> ．</米我></米row><一个nnotation encoding="application/x-tex"> \ delta_1 ^ m = \离开(g_0 (a_1 ^ m) - y \右)g_o ^ {\ '} (a_1 ^ m) = \离开(\帽子{y} - y \右)g_o ^ {\ '} (a_1 ^米)。</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.9613919999999999em;vertical-align:-0.247em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.7143919999999999em;"><span style="top:-2.4530000000000003em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">1</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">米</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.247em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.051892em;vertical-align:-0.25em;"></span><span class="minner"><span class="mopen delimcenter" style="top:0em;">（</gydF4y2Baspan><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.30110799999999993em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">0</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mopen">（</gydF4y2Baspan><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.7143919999999999em;"><span style="top:-2.4530000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">1</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">米</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.247em;"><span></span></span></span></span></span></span><span class="mclose">)</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">−</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="mclose delimcenter" style="top:0em;">)</gydF4y2Baspan></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8018919999999999em;"><span style="top:-2.4530000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">o</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">”</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.247em;"><span></span></span></span></span></span></span><span class="mopen">（</gydF4y2Baspan><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.7143919999999999em;"><span style="top:-2.4530000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">1</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">米</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.247em;"><span></span></span></span></span></span></span><span class="mclose">)</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.051892em;vertical-align:-0.25em;"></span><span class="minner"><span class="mopen delimcenter" style="top:0em;">（</gydF4y2Baspan><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.69444em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.19444em;">＾</gydF4y2Baspan></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.19444em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">−</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="mclose delimcenter" style="top:0em;">)</gydF4y2Baspan></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8018919999999999em;"><span style="top:-2.4530000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">o</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">”</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.247em;"><span></span></span></span></span></span></span><span class="mopen">（</gydF4y2Baspan><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.7143919999999999em;"><span style="top:-2.4530000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">1</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">米</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.247em;"><span></span></span></span></span></span></span><span class="mclose">)</gydF4y2Baspan><span class="mord">．</gydF4y2Baspan></span></span></span></span></p> <p>把它们放在一起，就是误差函数的偏导数<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> E</米我></米row><一个nnotation encoding="application/x-tex"> E</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan></span></span></span>关于最后一层的权重<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> w</米我><米row><米我> 我</米我><米n> 1</米n> </mrow> <mi> 米</米我></米subsup> </mrow> <annotation encoding="application/x-tex"> w_ {i1} ^ m</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.923056em;vertical-align:-0.258664em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.664392em;"><span style="top:-2.441336em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">米</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.258664em;"><span></span></span></span></span></span></span></span></span></span>是</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mfrac> <mrow> <mi mathvariant="normal"> ∂</米我><米我>E</gydF4y2Ba米我></米row><米row> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> w</米我><米row><米我> 我</米我><米n> 1</米n> </mrow> <mi> 米</米我></米subsup> </mrow> </mfrac> <mo> ＝</米o><米subsup> <mi> δ</米我><米n> 1</米n> <mi> 米</米我></米subsup> <msubsup> <mi> o</米我><米我>我</米我><米row><米我> 米</米我><米o>−</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> <mo> ＝</米o><米row><米ofence="true"> （</米o><米over accent="true"> <mi> y</米我><米o>＾</米o></米over> <mo> −</米o><米我>y</gydF4y2Ba米我><米ofence="true"> )</米o></米row><米subsup> <mi> g</米我><米我>o</gydF4y2Ba米我><米o米一个thvariant="normal"> ”</米o></米subsup> <mo stretchy="false"> （</米o><米subsup> <mi> 一个</米我><米n> 1</米n> <mi> 米</米我></米subsup> <mo stretchy="false"> )</米o><米text></mtext> <msubsup> <mi> o</米我><米我>我</米我><米row><米我> 米</米我><米o>−</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> <mi mathvariant="normal"> ．</米我></米row><一个nnotation encoding="application/x-tex"> \压裂{\部分E}{\部分w_ {i1} ^ m} = \ delta_1 m o_i ^ ^ {m - 1} = \离开(\帽子{y} - y \右)g_o ^ {\ '} (a_1 ^ m) \ o_i ^ {m - 1}。</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:2.334304em;vertical-align:-0.9628639999999999em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.37144em;"><span style="top:-2.314em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.6461920000000001em;"><span style="top:-2.4231360000000004em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span><span style="top:-3.0448000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">米</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.27686399999999994em;"><span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.9628639999999999em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.131103em;vertical-align:-0.266995em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.7143919999999999em;"><span style="top:-2.4530000000000003em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">1</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">米</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.247em;"><span></span></span></span></span></span></span><span class="mord"><span class="mord mathdefault">o</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8641079999999999em;"><span style="top:-2.433005em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">米</gydF4y2Baspan><span class="mbin mtight">−</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.266995em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.131103em;vertical-align:-0.266995em;"></span><span class="minner"><span class="mopen delimcenter" style="top:0em;">（</gydF4y2Baspan><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.69444em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.19444em;">＾</gydF4y2Baspan></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.19444em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">−</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="mclose delimcenter" style="top:0em;">)</gydF4y2Baspan></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8018919999999999em;"><span style="top:-2.4530000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">o</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">”</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.247em;"><span></span></span></span></span></span></span><span class="mopen">（</gydF4y2Baspan><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.7143919999999999em;"><span style="top:-2.4530000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">1</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">米</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.247em;"><span></span></span></span></span></span></span><span class="mclose">)</gydF4y2Baspan><span class="mspace"></span><span class="mord"><span class="mord mathdefault">o</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8641079999999999em;"><span style="top:-2.433005em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">米</gydF4y2Baspan><span class="mbin mtight">−</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.266995em;"><span></span></span></span></span></span></span><span class="mord">．</gydF4y2Baspan></span></span></span></span></p> <p><strong>隐藏层</gydF4y2Bastrong></p> <p>现在的问题是如何计算输出层以外的其他层的偏导数。幸运的是，多元函数的链式法则又来帮忙了。观察下面的误差项方程<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> δ</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> <annotation encoding="application/x-tex"> \ delta_j ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>在层<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mn> 1</米n> <mo> ≤</米o><米我>k</gydF4y2Ba米我><米o><</gydF4y2Ba米o><米我>米</米我><米o>：</米o></米row><一个nnotation encoding="application/x-tex"> 1 \le k \lt m:</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.78041em;vertical-align:-0.13597em;"></span><span class="mord">1</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">≤</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:0.73354em;vertical-align:-0.0391em;"></span><span class="mord mathdefault" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel"><</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:0.43056em;vertical-align:0em;"></span><span class="mord mathdefault">米</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">：</gydF4y2Baspan></span></span></span></p> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> δ</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> <mo> ＝</米o><米fr一个c> <mrow> <mi mathvariant="normal"> ∂</米我><米我>E</gydF4y2Ba米我></米row><米row> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> 一个</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> </mfrac> <mo> ＝</米o><米underover> <mo> ∑</米o><米row><米我>l</米我><米o>＝</米o><米n> 1</米n> </mrow> <msup> <mi> r</米我><米row><米我> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msup> </munderover> <mfrac> <mrow> <mi mathvariant="normal"> ∂</米我><米我>E</gydF4y2Ba米我></米row><米row> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> 一个</米我><米我>l</gydF4y2Ba米我><米row><米我> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> </mrow> </mfrac> <mfrac> <mrow> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> 一个</米我><米我>l</gydF4y2Ba米我><米row><米我> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> </mrow> <mrow> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> 一个</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> </mfrac> <mo separator="true"> ，</米o></米row><一个nnotation encoding="application/x-tex"> \ delta_j ^ k = \压裂{\部分E}{\部分a_j ^ k} = \ sum_ {l = 1} ^ {r ^ {k + 1}} \压裂{\部分E}{\部分a_l ^ {k + 1}} \压裂{\部分a_l ^ {k + 1}}{\部分a_j ^ k},</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.282216em;vertical-align:-0.383108em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.899108em;"><span style="top:-2.4530000000000003em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.1130000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.383108em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:2.50532em;vertical-align:-1.13388em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.37144em;"><span style="top:-2.279092em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.830908em;"><span style="top:-2.4231360000000004em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.0448000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4129719999999999em;"><span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.13388em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:3.301038em;vertical-align:-1.302113em;"></span><span class="mop op-limits"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.998925em;"><span style="top:-1.8478869999999998em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan><span class="mrel mtight">＝</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span><span style="top:-3.0500049999999996em;"><span class="pstrut" style="height:3.05em;"></span><span><span class="mop op-symbol large-op">∑</gydF4y2Baspan></span></span><span style="top:-4.300005em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.02778em;">r</gydF4y2Baspan><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.9270285714285714em;"><span style="top:-2.931em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span></span></span></span></span></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.302113em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.37144em;"><span style="top:-2.2207610000000004em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8892389999999999em;"><span style="top:-2.3986920000000005em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan></span></span><span style="top:-3.1031310000000003em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.3013079999999999em;"><span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.0805469999999997em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.5805469999999997em;"><span style="top:-2.279092em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.830908em;"><span style="top:-2.4231360000000004em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.0448000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4129719999999999em;"><span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.6913080000000003em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8892389999999999em;"><span style="top:-2.3986920000000005em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan></span></span><span style="top:-3.1031310000000003em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.3013079999999999em;"><span></span></span></span></span></span></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.13388em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mpunct">，</gydF4y2Baspan></span></span></span></span></p> <p>在哪里<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> l</米我></米row><一个nnotation encoding="application/x-tex"> l</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.69444em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.01968em;">l</gydF4y2Baspan></span></span></span>范围从<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mn> 1</米n> </mrow> <annotation encoding="application/x-tex"> 1</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.64444em;vertical-align:0em;"></span><span class="mord">1</gydF4y2Baspan></span></span></span>来<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msup> <mi> r</米我><米row><米我> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msup> </mrow> <annotation encoding="application/x-tex"> r ^ {k + 1}</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.8491079999999999em;vertical-align:0em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02778em;">r</gydF4y2Baspan><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.8491079999999999em;"><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span></span></span></span></span></span></span></span>(下一层的节点数)。注意，因为输入的偏置<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> o</米我><米n> 0</米n> <mi> k</米我></米subsup> </mrow> <annotation encoding="application/x-tex"> o_0 ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.097216em;vertical-align:-0.24810799999999997em;"></span><span class="mord"><span class="mord mathdefault">o</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.4518920000000004em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">0</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.24810799999999997em;"><span></span></span></span></span></span></span></span></span></span>对应于<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> w</米我><米row><米n> 0</米n> <mi> j</米我></米row><米row> <mi> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> </mrow> <annotation encoding="application/x-tex"> j w_ {0} ^ {k + 1}</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.3022109999999998em;vertical-align:-0.412972em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8892389999999999em;"><span style="top:-2.4231360000000004em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">0</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.1031310000000003em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.412972em;"><span></span></span></span></span></span></span></span></span></span>是固定的，它的值不依赖于前一层的输出，因此<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> l</米我></米row><一个nnotation encoding="application/x-tex"> l</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.69444em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.01968em;">l</gydF4y2Baspan></span></span></span>不带上价值吗<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mn> 0</米n> </mrow> <annotation encoding="application/x-tex"> 0</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.64444em;vertical-align:0em;"></span><span class="mord">0</gydF4y2Baspan></span></span></span>．</gydF4y2Bap> <p>代入误差项<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> δ</米我><米我>l</gydF4y2Ba米我><米row><米我> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> </mrow> <annotation encoding="application/x-tex"> \ delta_l ^ {k + 1}</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.1905469999999998em;vertical-align:-0.3013079999999999em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8892389999999999em;"><span style="top:-2.3986920000000005em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan></span></span><span style="top:-3.1031310000000003em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.3013079999999999em;"><span></span></span></span></span></span></span></span></span></span>给出如下公式:</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> δ</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> <mo> ＝</米o><米underover> <mo> ∑</米o><米row><米我>l</米我><米o>＝</米o><米n> 1</米n> </mrow> <msup> <mi> r</米我><米row><米我> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msup> </munderover> <msubsup> <mi> δ</米我><米我>l</gydF4y2Ba米我><米row><米我> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> <mfrac> <mrow> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> 一个</米我><米我>l</gydF4y2Ba米我><米row><米我> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> </mrow> <mrow> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> 一个</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> </mfrac> <mi mathvariant="normal"> ．</米我></米row><一个nnotation encoding="application/x-tex"> \ delta_j ^ k = \ sum_ {l = 1} ^ {r ^ {k + 1}} \ delta_l ^ {k + 1} \压裂{\部分a_l ^ {k + 1}}{\部分a_j ^ k}。</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.282216em;vertical-align:-0.383108em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.899108em;"><span style="top:-2.4530000000000003em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.1130000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.383108em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:3.301038em;vertical-align:-1.302113em;"></span><span class="mop op-limits"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.998925em;"><span style="top:-1.8478869999999998em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan><span class="mrel mtight">＝</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span><span style="top:-3.0500049999999996em;"><span class="pstrut" style="height:3.05em;"></span><span><span class="mop op-symbol large-op">∑</gydF4y2Baspan></span></span><span style="top:-4.300005em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.02778em;">r</gydF4y2Baspan><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.9270285714285714em;"><span style="top:-2.931em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span></span></span></span></span></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.302113em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8991079999999998em;"><span style="top:-2.408561em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.2914389999999999em;"><span></span></span></span></span></span></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.5805469999999997em;"><span style="top:-2.279092em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.830908em;"><span style="top:-2.4231360000000004em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.0448000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4129719999999999em;"><span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.6913080000000003em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8892389999999999em;"><span style="top:-2.3986920000000005em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan></span></span><span style="top:-3.1031310000000003em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.3013079999999999em;"><span></span></span></span></span></span></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.13388em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mord">．</gydF4y2Baspan></span></span></span></span></p> <p>还记得<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> 一个</米我><米我>l</gydF4y2Ba米我><米row><米我> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> </mrow> <annotation encoding="application/x-tex"> a_l ^ {k + 1}</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.1905469999999998em;vertical-align:-0.3013079999999999em;"></span><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8892389999999999em;"><span style="top:-2.3986920000000005em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan></span></span><span style="top:-3.1031310000000003em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.3013079999999999em;"><span></span></span></span></span></span></span></span></span></span></p> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> 一个</米我><米我>l</gydF4y2Ba米我><米row><米我> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> <mo> ＝</米o><米underover> <mo> ∑</米o><米row><米我>j</米我><米o>＝</米o><米n> 1</米n> </mrow> <msup> <mi> r</米我><米我>k</gydF4y2Ba米我></米sup> </munderover> <msubsup> <mi> w</米我><米row><米我> j</米我><米我>l</gydF4y2Ba米我></米row><米row> <mi> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> <mi> g</米我><米ofence="false"> （</米o><米subsup> <mi> 一个</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> <mo fence="false"> )</米o><米oseparator="true"> ，</米o></米row><一个nnotation encoding="application/x-tex"> a_l ^ {k + 1} = \ sum_ {j = 1} ^ {r ^ k} w_ {jl} ^ {k + 1} g \大(a_j ^ k \大),</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.1905469999999996em;vertical-align:-0.2914389999999999em;"></span><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8991079999999998em;"><span style="top:-2.408561em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.2914389999999999em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:3.4127020000000003em;vertical-align:-1.4137769999999998em;"></span><span class="mop op-limits"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.9989250000000003em;"><span style="top:-1.872331em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan><span class="mrel mtight">＝</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span><span style="top:-3.050005em;"><span class="pstrut" style="height:3.05em;"></span><span><span class="mop op-symbol large-op">∑</gydF4y2Baspan></span></span><span style="top:-4.3000050000000005em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.02778em;">r</gydF4y2Baspan><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.9270285714285713em;"><span style="top:-2.931em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span></span></span></span></span></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.4137769999999998em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8991079999999999em;"><span style="top:-2.4085610000000006em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan></span></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4275469999999999em;"><span></span></span></span></span></span></span><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="mord"><span class="delimsizing size1">（</gydF4y2Baspan></span><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.899108em;"><span style="top:-2.4530000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.1130000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.383108em;"><span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">)</gydF4y2Baspan></span><span class="mpunct">，</gydF4y2Baspan></span></span></span></span></p> <p>在哪里<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> g</米我><米ostretchy="false"> （</米o><米我>x</gydF4y2Ba米我><米ostretchy="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> g (x)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="mopen">（</gydF4y2Baspan><span class="mord mathdefault">x</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan></span></span></span>是隐层的激活函数，</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mfrac> <mrow> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> 一个</米我><米我>l</gydF4y2Ba米我><米row><米我> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> </mrow> <mrow> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> 一个</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> </mfrac> <mo> ＝</米o><米subsup> <mi> w</米我><米row><米我> j</米我><米我>l</gydF4y2Ba米我></米row><米row> <mi> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> <msup> <mi> g</米我><米o米一个thvariant="normal"> ”</米o></米sup> <mo fence="false"> （</米o><米subsup> <mi> 一个</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> <mo fence="false"> )</米o><米我米一个thvariant="normal"> ．</米我></米row><一个nnotation encoding="application/x-tex"> \压裂{\部分a_l ^ {k + 1}}{\部分a_j ^ k} = w_ {jl} ^ {k + 1} g ^{\ '} \大(a_j ^ k \大)。</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:2.7144269999999997em;vertical-align:-1.13388em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.5805469999999997em;"><span style="top:-2.279092em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.830908em;"><span style="top:-2.4231360000000004em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.0448000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4129719999999999em;"><span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.6913080000000003em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8892389999999999em;"><span style="top:-2.3986920000000005em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan></span></span><span style="top:-3.1031310000000003em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.3013079999999999em;"><span></span></span></span></span></span></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.13388em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.326655em;vertical-align:-0.4275469999999999em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8991079999999999em;"><span style="top:-2.4085610000000006em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan></span></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4275469999999999em;"><span></span></span></span></span></span></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.801892em;"><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">”</gydF4y2Baspan></span></span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">（</gydF4y2Baspan></span><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.899108em;"><span style="top:-2.4530000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.1130000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.383108em;"><span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">)</gydF4y2Baspan></span><span class="mord">．</gydF4y2Baspan></span></span></span></span></p> <p>把这个代入上面的方程就得到了误差项的最终方程<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> δ</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> <annotation encoding="application/x-tex"> \ delta_j ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>在隐藏层中，称为<gydF4y2Bastrong>反向传播公式</gydF4y2Bastrong>：</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> δ</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> <mo> ＝</米o><米underover> <mo> ∑</米o><米row><米我>l</米我><米o>＝</米o><米n> 1</米n> </mrow> <msup> <mi> r</米我><米row><米我> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msup> </munderover> <msubsup> <mi> δ</米我><米我>l</gydF4y2Ba米我><米row><米我> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> <msubsup> <mi> w</米我><米row><米我> j</米我><米我>l</gydF4y2Ba米我></米row><米row> <mi> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> <msup> <mi> g</米我><米o米一个thvariant="normal"> ”</米o></米sup> <mo fence="false"> （</米o><米subsup> <mi> 一个</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> <mo fence="false"> )</米o><米o>＝</米o><米sup> <mi> g</米我><米o米一个thvariant="normal"> ”</米o></米sup> <mo fence="false"> （</米o><米subsup> <mi> 一个</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> <mo fence="false"> )</米o><米underover> <mo> ∑</米o><米row><米我>l</米我><米o>＝</米o><米n> 1</米n> </mrow> <msup> <mi> r</米我><米row><米我> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msup> </munderover> <msubsup> <mi> w</米我><米row><米我> j</米我><米我>l</gydF4y2Ba米我></米row><米row> <mi> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> <msubsup> <mi> δ</米我><米我>l</gydF4y2Ba米我><米row><米我> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> <mi mathvariant="normal"> ．</米我></米row><一个nnotation encoding="application/x-tex"> \ delta_j ^ k = \ sum_ {l = 1} ^ {r ^ {k + 1}} \ delta_l ^ {k + 1} w_ {jl} ^ {k + 1} g ^{\ '} \大(a_j ^ k \大)= g ^{\ '} \大(a_j ^ k \大)\ sum_ {l = 1} ^ {r ^ {k + 1}} w_ {jl} ^ {k + 1} \ delta_l ^ {k + 1}。</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.282216em;vertical-align:-0.383108em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.899108em;"><span style="top:-2.4530000000000003em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.1130000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.383108em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:3.301038em;vertical-align:-1.302113em;"></span><span class="mop op-limits"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.998925em;"><span style="top:-1.8478869999999998em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan><span class="mrel mtight">＝</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span><span style="top:-3.0500049999999996em;"><span class="pstrut" style="height:3.05em;"></span><span><span class="mop op-symbol large-op">∑</gydF4y2Baspan></span></span><span style="top:-4.300005em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.02778em;">r</gydF4y2Baspan><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.9270285714285714em;"><span style="top:-2.931em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span></span></span></span></span></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.302113em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8991079999999998em;"><span style="top:-2.408561em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.2914389999999999em;"><span></span></span></span></span></span></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8991079999999999em;"><span style="top:-2.4085610000000006em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan></span></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4275469999999999em;"><span></span></span></span></span></span></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.801892em;"><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">”</gydF4y2Baspan></span></span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">（</gydF4y2Baspan></span><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.899108em;"><span style="top:-2.4530000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.1130000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.383108em;"><span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">)</gydF4y2Baspan></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:3.301038em;vertical-align:-1.302113em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.801892em;"><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">”</gydF4y2Baspan></span></span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">（</gydF4y2Baspan></span><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.899108em;"><span style="top:-2.4530000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.1130000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.383108em;"><span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">)</gydF4y2Baspan></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mop op-limits"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.998925em;"><span style="top:-1.8478869999999998em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan><span class="mrel mtight">＝</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span><span style="top:-3.0500049999999996em;"><span class="pstrut" style="height:3.05em;"></span><span><span class="mop op-symbol large-op">∑</gydF4y2Baspan></span></span><span style="top:-4.300005em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.02778em;">r</gydF4y2Baspan><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.9270285714285714em;"><span style="top:-2.931em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span></span></span></span></span></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.302113em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8991079999999999em;"><span style="top:-2.4085610000000006em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan></span></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4275469999999999em;"><span></span></span></span></span></span></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8991079999999998em;"><span style="top:-2.408561em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.2914389999999999em;"><span></span></span></span></span></span></span><span class="mord">．</gydF4y2Baspan></span></span></span></span></p> <p>把它们放在一起，就是误差函数的偏导数<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> E</米我></米row><一个nnotation encoding="application/x-tex"> E</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan></span></span></span>对于隐层中的权重<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> <annotation encoding="application/x-tex"> w_ {ij} ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>为<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mn> 1</米n> <mo> ≤</米o><米我>k</gydF4y2Ba米我><米o><</gydF4y2Ba米o><米我>米</米我></米row><一个nnotation encoding="application/x-tex"> 1 \le k \lt m</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.78041em;vertical-align:-0.13597em;"></span><span class="mord">1</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">≤</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:0.73354em;vertical-align:-0.0391em;"></span><span class="mord mathdefault" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel"><</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:0.43056em;vertical-align:0em;"></span><span class="mord mathdefault">米</gydF4y2Baspan></span></span></span>是</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mfrac> <mrow> <mi mathvariant="normal"> ∂</米我><米我>E</gydF4y2Ba米我></米row><米row> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> </mfrac> <mo> ＝</米o><米subsup> <mi> δ</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> <msubsup> <mi> o</米我><米我>我</米我><米row><米我> k</米我><米o>−</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> <mo> ＝</米o><米sup> <mi> g</米我><米o米一个thvariant="normal"> ”</米o></米sup> <mo fence="false"> （</米o><米subsup> <mi> 一个</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> <mo fence="false"> )</米o><米subsup> <mi> o</米我><米我>我</米我><米row><米我> k</米我><米o>−</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> <munderover> <mo> ∑</米o><米row><米我>l</米我><米o>＝</米o><米n> 1</米n> </mrow> <msup> <mi> r</米我><米row><米我> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msup> </munderover> <msubsup> <mi> w</米我><米row><米我> j</米我><米我>l</gydF4y2Ba米我></米row><米row> <mi> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> <msubsup> <mi> δ</米我><米我>l</gydF4y2Ba米我><米row><米我> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> <mi mathvariant="normal"> ．</米我></米row><一个nnotation encoding="application/x-tex"> \压裂{\部分E}{\部分w_ {ij} ^ k} = \ delta_j ^ k o_i ^ {k - 1} = g ^{\ '} \大(a_j ^ k \大)o_i ^ {k - 1} \ sum_ {l = 1} ^ {r ^ {k + 1}} w_ {jl} ^ {k + 1} \ delta_l ^ {k + 1}。</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:2.50532em;vertical-align:-1.13388em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.37144em;"><span style="top:-2.279092em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.830908em;"><span style="top:-2.4231360000000004em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.0448000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4129719999999999em;"><span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.13388em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.282216em;vertical-align:-0.383108em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.899108em;"><span style="top:-2.4530000000000003em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.1130000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.383108em;"><span></span></span></span></span></span></span><span class="mord"><span class="mord mathdefault">o</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8991079999999998em;"><span style="top:-2.433005em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">−</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.266995em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:3.301038em;vertical-align:-1.302113em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.801892em;"><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">”</gydF4y2Baspan></span></span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">（</gydF4y2Baspan></span><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.899108em;"><span style="top:-2.4530000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.1130000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.383108em;"><span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">)</gydF4y2Baspan></span><span class="mord"><span class="mord mathdefault">o</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8991079999999998em;"><span style="top:-2.433005em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">−</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.266995em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mop op-limits"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.998925em;"><span style="top:-1.8478869999999998em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan><span class="mrel mtight">＝</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span><span style="top:-3.0500049999999996em;"><span class="pstrut" style="height:3.05em;"></span><span><span class="mop op-symbol large-op">∑</gydF4y2Baspan></span></span><span style="top:-4.300005em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.02778em;">r</gydF4y2Baspan><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.9270285714285714em;"><span style="top:-2.931em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span></span></span></span></span></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.302113em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8991079999999999em;"><span style="top:-2.4085610000000006em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan></span></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4275469999999999em;"><span></span></span></span></span></span></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8991079999999998em;"><span style="top:-2.408561em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.2914389999999999em;"><span></span></span></span></span></span></span><span class="mord">．</gydF4y2Baspan></span></span></span></span></p> <p><strong>反向传播作为向后计算</gydF4y2Bastrong></p> <p>这个方程就是反向传播得名的原因。也就是误差<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> δ</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> <annotation encoding="application/x-tex"> \ delta_j ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>在层<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> k</米我></米row><一个nnotation encoding="application/x-tex"> k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.69444em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span>依赖于误差<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> δ</米我><米我>k</gydF4y2Ba米我><米row><米我> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> </mrow> <annotation encoding="application/x-tex"> \ delta_k ^ {k + 1}</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.1905469999999998em;vertical-align:-0.3013079999999999em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8892389999999999em;"><span style="top:-2.3986920000000005em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span><span style="top:-3.1031310000000003em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.3013079999999999em;"><span></span></span></span></span></span></span></span></span></span>下一层<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> <annotation encoding="application/x-tex"> k + 1</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.77777em;vertical-align:-0.08333em;"></span><span class="mord mathdefault" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">+</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:0.64444em;vertical-align:0em;"></span><span class="mord">1</gydF4y2Baspan></span></span></span>．因此，错误向后流动，从最后一层到第一层。所需要的只是根据计算的输出计算第一个错误项<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mover accent="true"> <mi> y</米我><米o>＾</米o></米over> <mo> ＝</米o><米sub> <mi> g</米我><米我>o</gydF4y2Ba米我></米sub> <mo stretchy="false"> （</米o><米subsup> <mi> 一个</米我><米n> 1</米n> <mi> 米</米我></米subsup> <mo stretchy="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> \hat{y} = g_o(a_1^m)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.8888799999999999em;vertical-align:-0.19444em;"></span><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.69444em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.19444em;">＾</gydF4y2Baspan></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.19444em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.151392em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">o</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mopen">（</gydF4y2Baspan><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.664392em;"><span style="top:-2.4518920000000004em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">1</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">米</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.24810799999999997em;"><span></span></span></span></span></span></span><span class="mclose">)</gydF4y2Baspan></span></span></span>和目标输出<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> y</米我></米row><一个nnotation encoding="application/x-tex"> y</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.625em;vertical-align:-0.19444em;"></span><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan></span></span></span>．然后，前一层的误差项通过执行乘积和来计算<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mo fence="false"> （</米o></米row><一个nnotation encoding="application/x-tex"> \大(</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.20001em;vertical-align:-0.35001em;"></span><span class="mord"><span class="delimsizing size1">（</gydF4y2Baspan></span></span></span></span>加权的<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> w</米我><米row><米我> j</米我><米我>l</gydF4y2Ba米我></米row><米row> <mi> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> <mo fence="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> w_ {jl} ^ {k + 1} \大)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.3266549999999997em;vertical-align:-0.4374159999999999em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8892389999999999em;"><span style="top:-2.3986920000000005em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan></span></span></span><span style="top:-3.1031310000000003em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4374159999999999em;"><span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">)</gydF4y2Baspan></span></span></span></span>对下一层的误差项进行缩放<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msup> <mi> g</米我><米o米一个thvariant="normal"> ”</米o></米sup> <mo fence="false"> （</米o><米subsup> <mi> 一个</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> <mo fence="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> g ^{\ '} \大(a_j ^ k \大)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.244772em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.751892em;"><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">”</gydF4y2Baspan></span></span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">（</gydF4y2Baspan></span><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">)</gydF4y2Baspan></span></span></span></span>，重复直到到达输入层。</gydF4y2Bap> <p>这种误差的反向传播与计算神经网络输出的正向计算非常相似。因此，计算输出通常被称为<gydF4y2Bastrong>发展阶段</gydF4y2Bastrong>在计算误差时，项和导数常被称为<gydF4y2Bastrong>落后的阶段</gydF4y2Bastrong>．在前进的过程中，输入被反复地重组<gydF4y2Baem>从第一层到最后一层</gydF4y2Baem>取决于权重的乘积和<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> <annotation encoding="application/x-tex"> w_ {ij} ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>并通过非线性激活函数进行变换<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> g</米我><米ostretchy="false"> （</米o><米我>x</gydF4y2Ba米我><米ostretchy="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> g (x)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="mopen">（</gydF4y2Baspan><span class="mord mathdefault">x</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan></span></span></span>而且<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msub> <mi> g</米我><米我>o</gydF4y2Ba米我></米sub> <mo stretchy="false"> （</米o><米我>x</gydF4y2Ba米我><米ostretchy="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> g_o (x)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.151392em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">o</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mopen">（</gydF4y2Baspan><span class="mord mathdefault">x</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan></span></span></span>．在向后的方向上，“输入”是最后一层的误差项，这些错误项从<gydF4y2Baem>最后一层到第一层</gydF4y2Baem>取决于权重的乘积和<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> w</米我><米row><米我> j</米我><米我>l</gydF4y2Ba米我></米row><米row> <mi> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> </mrow> <annotation encoding="application/x-tex"> w_ {jl} ^ {k + 1}</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.3266549999999997em;vertical-align:-0.4374159999999999em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8892389999999999em;"><span style="top:-2.3986920000000005em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan></span></span></span><span style="top:-3.1031310000000003em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4374159999999999em;"><span></span></span></span></span></span></span></span></span></span>并通过非线性比例因子进行变换<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> g</米我><米我>o</gydF4y2Ba米我><米o米一个thvariant="normal"> ”</米o></米subsup> <mo fence="false"> （</米o><米subsup> <mi> 一个</米我><米我>j</gydF4y2Ba米我><米我>米</米我></米subsup> <mo fence="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> g_o ^{\ '} \大(a_j ^ \大)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.244772em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.751892em;"><span style="top:-2.4530000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">o</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">”</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.247em;"><span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">（</gydF4y2Baspan></span><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.664392em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">米</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">)</gydF4y2Baspan></span></span></span></span>而且<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msup> <mi> g</米我><米o米一个thvariant="normal"> ”</米o></米sup> <mo fence="false"> （</米o><米subsup> <mi> 一个</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> <mo fence="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> g ^{\ '} \大(a_j ^ k \大)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.244772em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.751892em;"><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">”</gydF4y2Baspan></span></span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">（</gydF4y2Baspan></span><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">)</gydF4y2Baspan></span></span></span></span>．</gydF4y2Bap> <p>此外，由于反相的计算依赖于激活<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> 一个</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> <annotation encoding="application/x-tex"> a_j ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>和输出<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> o</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> <annotation encoding="application/x-tex"> o_j ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault">o</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>对于前一层(所有层的非错误项)和下一层(隐藏层的错误项)中的节点，必须在向后阶段开始之前计算所有这些值。因此，对于梯度下降的每一次迭代，正向阶段都先于向后阶段。在正向阶段，激活<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> 一个</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> <annotation encoding="application/x-tex"> a_j ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>和输出<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> o</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> <annotation encoding="application/x-tex"> o_j ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault">o</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>将被记住用于向后阶段。一旦逆向阶段完成并且偏导数已知，权重<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mo fence="false"> （</米o></米row><一个nnotation encoding="application/x-tex"> \大(</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.20001em;vertical-align:-0.35001em;"></span><span class="mord"><span class="delimsizing size1">（</gydF4y2Baspan></span></span></span></span>以及相关的偏见<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> b</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> <mo> ＝</米o><米subsup> <mi> w</米我><米row><米n> 0</米n> <mi> j</米我></米row><米我> k</米我></米subsup> <mo fence="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> B_j ^k = w_{0j}^k\大)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault">b</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.244772em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">0</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">)</gydF4y2Baspan></span></span></span></span>可以通过梯度下降来更新。这个过程不断重复，直到找到局部最小值或满足收敛准则。</gydF4y2Bap> </div> </div> <div id="the-backpropagation-algorithm" class="anchor skill-heading collapsed" data-controller="app/wiki:expandOrCollapse"> <header class="section-header"> <span class="css-sprite-chevrons chevron"></span> <h2>反向传播算法</gydF4y2Bah2> </header> </div> <div class="section collapsed" id="section-the-backpropagation-algorithm"> <div class="section-container"> <p>使用“形式定义”一节中定义的术语和“推导梯度”一节中导出的方程，反向传播算法依赖于以下五个方程:</gydF4y2Bap> <blockquote class="definition"> <p>对于偏导，</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mfrac> <mrow> <mi mathvariant="normal"> ∂</米我><米sub> <mi> E</米我><米我>d</gydF4y2Ba米我></米sub> </mrow> <mrow> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> </mfrac> <mo> ＝</米o><米subsup> <mi> δ</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> <msubsup> <mi> o</米我><米我>我</米我><米row><米我> k</米我><米o>−</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> <mi mathvariant="normal"> ．</米我></米row><一个nnotation encoding="application/x-tex"> \压裂{\部分E_d}{\部分w_ {ij} ^ k} = \ delta_j ^ k o_i ^ {k - 1}。</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:2.50532em;vertical-align:-1.13388em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.37144em;"><span style="top:-2.279092em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.830908em;"><span style="top:-2.4231360000000004em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.0448000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4129719999999999em;"><span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.05764em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.13388em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.282216em;vertical-align:-0.383108em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.899108em;"><span style="top:-2.4530000000000003em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.1130000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.383108em;"><span></span></span></span></span></span></span><span class="mord"><span class="mord mathdefault">o</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8991079999999998em;"><span style="top:-2.433005em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">−</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.266995em;"><span></span></span></span></span></span></span><span class="mord">．</gydF4y2Baspan></span></span></span></span></p>  </blockquote> <blockquote class="definition"> <p>对于最后一层的误差项，</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> δ</米我><米n> 1</米n> <mi> 米</米我></米subsup> <mo> ＝</米o><米subsup> <mi> g</米我><米我>o</gydF4y2Ba米我><米o米一个thvariant="normal"> ”</米o></米subsup> <mo stretchy="false"> （</米o><米subsup> <mi> 一个</米我><米n> 1</米n> <mi> 米</米我></米subsup> <mo stretchy="false"> )</米o><米row><米ofence="true"> （</米o><米over accent="true"> <msub> <mi> y</米我><米我>d</gydF4y2Ba米我></米sub> <mo> ＾</米o></米over> <mo> −</米o><米sub> <mi> y</米我><米我>d</gydF4y2Ba米我></米sub> <mo fence="true"> )</米o></米row><米我米athvariant="normal"> ．</米我></米row><一个nnotation encoding="application/x-tex"> \ delta_1 ^ m = g_o ^ {\ '} (a_1 ^ m) \左(\帽子{y_d} -y_d \右)。</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.9613919999999999em;vertical-align:-0.247em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.7143919999999999em;"><span style="top:-2.4530000000000003em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">1</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">米</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.247em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.051892em;vertical-align:-0.25em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8018919999999999em;"><span style="top:-2.4530000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">o</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">”</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.247em;"><span></span></span></span></span></span></span><span class="mopen">（</gydF4y2Baspan><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.7143919999999999em;"><span style="top:-2.4530000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">1</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">米</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.247em;"><span></span></span></span></span></span></span><span class="mclose">)</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="minner"><span class="mopen delimcenter" style="top:0em;">（</gydF4y2Baspan><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.69444em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.25em;">＾</gydF4y2Baspan></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.19444em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">−</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose delimcenter" style="top:0em;">)</gydF4y2Baspan></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord">．</gydF4y2Baspan></span></span></span></span></p>  </blockquote> <blockquote class="definition"> <p>对于隐层的误差项，</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> δ</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> <mo> ＝</米o><米sup> <mi> g</米我><米o米一个thvariant="normal"> ”</米o></米sup> <mo fence="false"> （</米o><米subsup> <mi> 一个</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> <mo fence="false"> )</米o><米underover> <mo> ∑</米o><米row><米我>l</米我><米o>＝</米o><米n> 1</米n> </mrow> <msup> <mi> r</米我><米row><米我> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msup> </munderover> <msubsup> <mi> w</米我><米row><米我> j</米我><米我>l</gydF4y2Ba米我></米row><米row> <mi> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> <msubsup> <mi> δ</米我><米我>l</gydF4y2Ba米我><米row><米我> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> <mi mathvariant="normal"> ．</米我></米row><一个nnotation encoding="application/x-tex"> \ delta_j ^ k = g ^{\ '} \大(a_j ^ k \大)\ sum_ {l = 1} ^ {r ^ {k + 1}} w_ {jl} ^ {k + 1} \ delta_l ^ {k + 1}。</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.282216em;vertical-align:-0.383108em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.899108em;"><span style="top:-2.4530000000000003em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.1130000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.383108em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:3.301038em;vertical-align:-1.302113em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.801892em;"><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">”</gydF4y2Baspan></span></span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">（</gydF4y2Baspan></span><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.899108em;"><span style="top:-2.4530000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.1130000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.383108em;"><span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">)</gydF4y2Baspan></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mop op-limits"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.998925em;"><span style="top:-1.8478869999999998em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan><span class="mrel mtight">＝</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span><span style="top:-3.0500049999999996em;"><span class="pstrut" style="height:3.05em;"></span><span><span class="mop op-symbol large-op">∑</gydF4y2Baspan></span></span><span style="top:-4.300005em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.02778em;">r</gydF4y2Baspan><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.9270285714285714em;"><span style="top:-2.931em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span></span></span></span></span></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.302113em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8991079999999999em;"><span style="top:-2.4085610000000006em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan></span></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4275469999999999em;"><span></span></span></span></span></span></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8991079999999998em;"><span style="top:-2.408561em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.2914389999999999em;"><span></span></span></span></span></span></span><span class="mord">．</gydF4y2Baspan></span></span></span></span></p>  </blockquote> <blockquote class="definition"> <p>为了组合每个输入-输出对的偏导数，</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mfrac> <mrow> <mi mathvariant="normal"> ∂</米我><米我>E</gydF4y2Ba米我><米ostretchy="false"> （</米o><米我>X</gydF4y2Ba米我><米oseparator="true"> ，</米o><米我>θ</gydF4y2Ba米我><米ostretchy="false"> )</米o></米row><米row> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> </mfrac> <mo> ＝</米o><米fr一个c> <mn> 1</米n> <mi> N</米我></米fr一个c> <munderover> <mo> ∑</米o><米row><米我>d</米我><米o>＝</米o><米n> 1</米n> </mrow> <mi> N</米我></米underover> <mfrac> <mi mathvariant="normal"> ∂</米我><米row><米我米athvariant="normal"> ∂</米我><米subsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> </mfrac> <mrow> <mo fence="true"> （</米o><米fr一个c> <mn> 1</米n> <mn> 2</米n> </mfrac> <msup> <mrow> <mo fence="true"> （</米o><米over accent="true"> <msub> <mi> y</米我><米我>d</gydF4y2Ba米我></米sub> <mo> ＾</米o></米over> <mo> −</米o><米sub> <mi> y</米我><米我>d</gydF4y2Ba米我></米sub> <mo fence="true"> )</米o></米row><米n> 2</米n> </msup> <mo fence="true"> )</米o></米row><米o>＝</米o><米fr一个c> <mn> 1</米n> <mi> N</米我></米fr一个c> <munderover> <mo> ∑</米o><米row><米我>d</米我><米o>＝</米o><米n> 1</米n> </mrow> <mi> N</米我></米underover> <mfrac> <mrow> <mi mathvariant="normal"> ∂</米我><米sub> <mi> E</米我><米我>d</gydF4y2Ba米我></米sub> </mrow> <mrow> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> </mfrac> <mi mathvariant="normal"> ．</米我></米row><一个nnotation encoding="application/x-tex"> \压裂{\ E (X) \θ)的偏}{\部分w_ {ij} ^ k} = \压裂{1}{N} \ sum_ {d = 1} ^ N \压裂{\部分}{\部分w_ {ij} ^ k} \离开(\压裂{1}{2}\离开(\帽子{y_d} - y_d \右)^{2}\右)= \压裂{1}{N} \ sum_ {d = 1} ^ N \压裂{\部分E_d}{\部分w_ {ij} ^ k}。</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:2.56088em;vertical-align:-1.13388em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.427em;"><span style="top:-2.279092em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.830908em;"><span style="top:-2.4231360000000004em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.0448000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4129719999999999em;"><span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan><span class="mopen">（</gydF4y2Baspan><span class="mord mathdefault" style="margin-right:0.07847em;">X</gydF4y2Baspan><span class="mpunct">，</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord mathdefault" style="margin-right:0.02778em;">θ</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.13388em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:3.1304490000000005em;vertical-align:-1.302113em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.32144em;"><span style="top:-2.314em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.10903em;">N</gydF4y2Baspan></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord">1</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.686em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mop op-limits"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.8283360000000002em;"><span style="top:-1.8478869999999998em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan><span class="mrel mtight">＝</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span><span style="top:-3.0500049999999996em;"><span class="pstrut" style="height:3.05em;"></span><span><span class="mop op-symbol large-op">∑</gydF4y2Baspan></span></span><span style="top:-4.300005em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.10903em;">N</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.302113em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.37144em;"><span style="top:-2.279092em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.830908em;"><span style="top:-2.4231360000000004em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.0448000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4129719999999999em;"><span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.13388em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="minner"><span class="mopen delimcenter" style="top:0em;"><span class="delimsizing size3">（</gydF4y2Baspan></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.32144em;"><span style="top:-2.314em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord">2</gydF4y2Baspan></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord">1</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.686em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="minner"><span class="minner"><span class="mopen delimcenter" style="top:0em;">（</gydF4y2Baspan><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.69444em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.25em;">＾</gydF4y2Baspan></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.19444em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">−</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose delimcenter" style="top:0em;">)</gydF4y2Baspan></span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.954008em;"><span style="top:-3.2029em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">2</gydF4y2Baspan></span></span></span></span></span></span></span></span><span class="mclose delimcenter" style="top:0em;"><span class="delimsizing size3">)</gydF4y2Baspan></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:3.1304490000000005em;vertical-align:-1.302113em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.32144em;"><span style="top:-2.314em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.10903em;">N</gydF4y2Baspan></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord">1</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.686em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mop op-limits"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.8283360000000002em;"><span style="top:-1.8478869999999998em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan><span class="mrel mtight">＝</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span><span style="top:-3.0500049999999996em;"><span class="pstrut" style="height:3.05em;"></span><span><span class="mop op-symbol large-op">∑</gydF4y2Baspan></span></span><span style="top:-4.300005em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.10903em;">N</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.302113em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.37144em;"><span style="top:-2.279092em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.830908em;"><span style="top:-2.4231360000000004em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.0448000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4129719999999999em;"><span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.05764em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.13388em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mord">．</gydF4y2Baspan></span></span></span></span></p>  </blockquote> <blockquote class="definition"> <p>为了更新权重，</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi mathvariant="normal"> Δ</米我><米subsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> <mo> ＝</米o><米o>−</gydF4y2Ba米o><米我>α</gydF4y2Ba米我><米fr一个c> <mrow> <mi mathvariant="normal"> ∂</米我><米我>E</gydF4y2Ba米我><米ostretchy="false"> （</米o><米我>X</gydF4y2Ba米我><米oseparator="true"> ，</米o><米我>θ</gydF4y2Ba米我><米ostretchy="false"> )</米o></米row><米row> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> </mfrac> <mi mathvariant="normal"> ．</米我></米row><一个nnotation encoding="application/x-tex"> δw_ \ {ij} ^ k =α- \ \压裂{\部分E (X) \θ)}{\部分w_ {ij} ^ k}。</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.282216em;vertical-align:-0.383108em;"></span><span class="mord">Δ</gydF4y2Baspan><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.899108em;"><span style="top:-2.4530000000000003em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.1130000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.383108em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:2.56088em;vertical-align:-1.13388em;"></span><span class="mord">−</gydF4y2Baspan><span class="mord mathdefault" style="margin-right:0.0037em;">α</gydF4y2Baspan><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.427em;"><span style="top:-2.279092em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.830908em;"><span style="top:-2.4231360000000004em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.0448000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4129719999999999em;"><span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan><span class="mopen">（</gydF4y2Baspan><span class="mord mathdefault" style="margin-right:0.07847em;">X</gydF4y2Baspan><span class="mpunct">，</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord mathdefault" style="margin-right:0.02778em;">θ</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.13388em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mord">．</gydF4y2Baspan></span></span></span></span></p>  </blockquote> <p><strong>通用算法</gydF4y2Bastrong></p> <p>反向传播算法按照以下步骤进行，假设有一个合适的学习率<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> α</米我></米row><一个nnotation encoding="application/x-tex"> \α</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.43056em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.0037em;">α</gydF4y2Baspan></span></span></span>以及参数的随机初始化<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> <mo> ：</米o></米row><一个nnotation encoding="application/x-tex"> w_ {ij} ^ k:</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">：</gydF4y2Baspan></span></span></span></p> <blockquote class="definition"> <p>1）<gydF4y2Bastrong>计算正向相位</gydF4y2Bastrong>对于每个输入-输出对<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mo stretchy="false"> （</米o><米over accent="true"> <msub> <mi> x</米我><米我>d</gydF4y2Ba米我></米sub> <mo> ⃗</米o></米over> <mo separator="true"> ，</米o><米sub> <mi> y</米我><米我>d</gydF4y2Ba米我></米sub> <mo stretchy="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> (vec {x_d} \ y_d)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mopen">（</gydF4y2Baspan><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.714em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault">x</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.2355em;"><span class="overlay" style="height:0.714em;width:0.471em;"> <svg width="0.471em" height="0.714em" style="width:0.471em" viewbox="0 0 471 714" preserveaspectratio="xMinYMin"> <path d="M377 20c0-5.333 1.833-10 5.5-14S391 0 397 0c4.667 0 8.667 1.667 12 5 3.333 2.667 6.667 9 10 19 6.667 24.667 20.333 43.667 41 57 7.333 4.667 11 10.667 11 18 0 6-1 10-3 12s-6.667 5-14 9c-28.667 14.667-53.667 35.667-75 63 -1.333 1.333-3.167 3.5-5.5 6.5s-4 4.833-5 5.5c-1 .667-2.5 1.333-4.5 2s-4.333 1 -7 1c-4.667 0-9.167-1.833-13.5-5.5S337 184 337 178c0-12.667 15.667-32.333 47-59 H213l-171-1c-8.667-6-13-12.333-13-19 0-4.667 4.333-11.333 13-20h359 c-16-25.333-24-45-24-59z"></path> </svg></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span><span class="mpunct">，</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose">)</gydF4y2Baspan></span></span></span>并存储结果<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mover accent="true"> <msub> <mi> y</米我><米我>d</gydF4y2Ba米我></米sub> <mo> ＾</米o></米over> </mrow> <annotation encoding="application/x-tex"> 帽子\ {y_d}</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.8888799999999999em;vertical-align:-0.19444em;"></span><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.69444em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.25em;">＾</gydF4y2Baspan></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.19444em;"><span></span></span></span></span></span></span></span></span>，<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> 一个</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> <annotation encoding="application/x-tex"> a_j ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>,<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> o</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> <annotation encoding="application/x-tex"> o_j ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault">o</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>对于每个节点<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> j</米我></米row><一个nnotation encoding="application/x-tex"> j</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.85396em;vertical-align:-0.19444em;"></span><span class="mord mathdefault" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span>在层<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> k</米我></米row><一个nnotation encoding="application/x-tex"> k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.69444em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span>从一层开始<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mn> 0</米n> </mrow> <annotation encoding="application/x-tex"> 0</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.64444em;vertical-align:0em;"></span><span class="mord">0</gydF4y2Baspan></span></span></span>，输入层，到层<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> 米</米我></米row><一个nnotation encoding="application/x-tex"> 米</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.43056em;vertical-align:0em;"></span><span class="mord mathdefault">米</gydF4y2Baspan></span></span></span>，即输出层。</gydF4y2Bap> <p>2）<gydF4y2Bastrong>计算反向相位</gydF4y2Bastrong>对于每个输入-输出对<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mo stretchy="false"> （</米o><米over accent="true"> <msub> <mi> x</米我><米我>d</gydF4y2Ba米我></米sub> <mo> ⃗</米o></米over> <mo separator="true"> ，</米o><米sub> <mi> y</米我><米我>d</gydF4y2Ba米我></米sub> <mo stretchy="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> (vec {x_d} \ y_d)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mopen">（</gydF4y2Baspan><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.714em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault">x</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.2355em;"><span class="overlay" style="height:0.714em;width:0.471em;"> <svg width="0.471em" height="0.714em" style="width:0.471em" viewbox="0 0 471 714" preserveaspectratio="xMinYMin"> <path d="M377 20c0-5.333 1.833-10 5.5-14S391 0 397 0c4.667 0 8.667 1.667 12 5 3.333 2.667 6.667 9 10 19 6.667 24.667 20.333 43.667 41 57 7.333 4.667 11 10.667 11 18 0 6-1 10-3 12s-6.667 5-14 9c-28.667 14.667-53.667 35.667-75 63 -1.333 1.333-3.167 3.5-5.5 6.5s-4 4.833-5 5.5c-1 .667-2.5 1.333-4.5 2s-4.333 1 -7 1c-4.667 0-9.167-1.833-13.5-5.5S337 184 337 178c0-12.667 15.667-32.333 47-59 H213l-171-1c-8.667-6-13-12.333-13-19 0-4.667 4.333-11.333 13-20h359 c-16-25.333-24-45-24-59z"></path> </svg></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span><span class="mpunct">，</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose">)</gydF4y2Baspan></span></span></span>并存储结果<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mfrac> <mrow> <mi mathvariant="normal"> ∂</米我><米sub> <mi> E</米我><米我>d</gydF4y2Ba米我></米sub> </mrow> <mrow> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> </mfrac> </mrow> <annotation encoding="application/x-tex"> \frac{\partial E_d}{\partial w_{ij}^k}</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.6233679999999997em;vertical-align:-0.7213999999999998em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.9019679999999999em;"><span style="top:-2.60142em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8408285714285714em;"><span style="top:-2.177714285714286em;margin-left:-0.02691em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-2.8448em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.46117142857142857em;"><span></span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.41586em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.05764em;">E</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.3448em;"><span style="top:-2.3487714285714287em;margin-left:-0.05764em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15122857142857138em;"><span></span></span></span></span></span></span></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.7213999999999998em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span></span></span></span>对于每个权重<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> <annotation encoding="application/x-tex"> w_ {ij} ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>连接节点<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> 我</米我></米row><一个nnotation encoding="application/x-tex"> 我</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.65952em;vertical-align:0em;"></span><span class="mord mathdefault">我</gydF4y2Baspan></span></span></span>在层<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> k</米我><米o>−</gydF4y2Ba米o><米n> 1</米n> </mrow> <annotation encoding="application/x-tex"> k - 1</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.77777em;vertical-align:-0.08333em;"></span><span class="mord mathdefault" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">−</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:0.64444em;vertical-align:0em;"></span><span class="mord">1</gydF4y2Baspan></span></span></span>到节点<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> j</米我></米row><一个nnotation encoding="application/x-tex"> j</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.85396em;vertical-align:-0.19444em;"></span><span class="mord mathdefault" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span>在层<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> k</米我></米row><一个nnotation encoding="application/x-tex"> k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.69444em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span>从一层开始<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> 米</米我></米row><一个nnotation encoding="application/x-tex"> 米</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.43056em;vertical-align:0em;"></span><span class="mord mathdefault">米</gydF4y2Baspan></span></span></span>，输出层，到层<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mn> 1</米n> </mrow> <annotation encoding="application/x-tex"> 1</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.64444em;vertical-align:0em;"></span><span class="mord">1</gydF4y2Baspan></span></span></span>，即输入层。</gydF4y2Bap> <p><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mspace width="1em"></mspace> <mspace width="1em"></mspace> </mrow> <annotation encoding="application/x-tex"> \四\四</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0em;vertical-align:0em;"></span><span class="mspace" style="margin-right:1em;"></span><span class="mspace" style="margin-right:1em;"></span></span></span></span>a)计算最后一层的误差项<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> δ</米我><米n> 1</米n> <mi> 米</米我></米subsup> </mrow> <annotation encoding="application/x-tex"> m \ delta_1 ^</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.9425479999999999em;vertical-align:-0.24810799999999997em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.664392em;"><span style="top:-2.4518920000000004em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">1</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">米</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.24810799999999997em;"><span></span></span></span></span></span></span></span></span></span>用第二个方程。<br><gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mspace width="1em"></mspace> <mspace width="1em"></mspace> </mrow> <annotation encoding="application/x-tex"> \四\四</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0em;vertical-align:0em;"></span><span class="mspace" style="margin-right:1em;"></span><span class="mspace" style="margin-right:1em;"></span></span></span></span>b)反向传播隐层的误差项<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> δ</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> <annotation encoding="application/x-tex"> \ delta_j ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>，从最后的隐藏层向后工作<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> k</米我><米o>＝</米o><米我>米</米我><米o>−</gydF4y2Ba米o><米n> 1</米n> </mrow> <annotation encoding="application/x-tex"> K = m-1</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.69444em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:0.66666em;vertical-align:-0.08333em;"></span><span class="mord mathdefault">米</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">−</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:0.64444em;vertical-align:0em;"></span><span class="mord">1</gydF4y2Baspan></span></span></span>，通过重复使用第三个方程。<br><gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mspace width="1em"></mspace> <mspace width="1em"></mspace> </mrow> <annotation encoding="application/x-tex"> \四\四</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0em;vertical-align:0em;"></span><span class="mspace" style="margin-right:1em;"></span><span class="mspace" style="margin-right:1em;"></span></span></span></span>c)求个别误差的偏导数<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msub> <mi> E</米我><米我>d</gydF4y2Ba米我></米sub> </mrow> <annotation encoding="application/x-tex"> E_d</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.83333em;vertical-align:-0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.05764em;">E</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.05764em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span></span>关于<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> <annotation encoding="application/x-tex"> w_ {ij} ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>用第一个方程。</gydF4y2Bap> <p>3）<gydF4y2Bastrong>组合各个渐变</gydF4y2Bastrong>对于每个输入-输出对<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mfrac> <mrow> <mi mathvariant="normal"> ∂</米我><米sub> <mi> E</米我><米我>d</gydF4y2Ba米我></米sub> </mrow> <mrow> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> </mfrac> </mrow> <annotation encoding="application/x-tex"> \frac{\partial E_d}{\partial w_{ij}^k}</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.6233679999999997em;vertical-align:-0.7213999999999998em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.9019679999999999em;"><span style="top:-2.60142em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8408285714285714em;"><span style="top:-2.177714285714286em;margin-left:-0.02691em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-2.8448em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.46117142857142857em;"><span></span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.41586em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.05764em;">E</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.3448em;"><span style="top:-2.3487714285714287em;margin-left:-0.05764em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15122857142857138em;"><span></span></span></span></span></span></span></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.7213999999999998em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span></span></span></span>得到总的梯度<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mfrac> <mrow> <mi mathvariant="normal"> ∂</米我><米我>E</gydF4y2Ba米我><米ostretchy="false"> （</米o><米我>X</gydF4y2Ba米我><米oseparator="true"> ，</米o><米我>θ</gydF4y2Ba米我><米ostretchy="false"> )</米o></米row><米row> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> </mfrac> </mrow> <annotation encoding="application/x-tex"> \frac{\partial E(X， \theta)}{\partial w_{ij}^k}</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.7313999999999998em;vertical-align:-0.7213999999999998em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.01em;"><span style="top:-2.60142em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8408285714285714em;"><span style="top:-2.177714285714286em;margin-left:-0.02691em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-2.8448em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.46117142857142857em;"><span></span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.485em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05764em;">E</gydF4y2Baspan><span class="mopen mtight">（</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.07847em;">X</gydF4y2Baspan><span class="mpunct mtight">，</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.02778em;">θ</gydF4y2Baspan><span class="mclose mtight">)</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.7213999999999998em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span></span></span></span>对于整个输入-输出对集合<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> X</米我><米o>＝</米o><米ofence="false"> ｛</米o><米ostretchy="false"> （</米o><米over accent="true"> <msub> <mi> x</米我><米n> 1</米n> </msub> <mo> ⃗</米o></米over> <mo separator="true"> ，</米o><米sub> <mi> y</米我><米n> 1</米n> </msub> <mo stretchy="false"> )</米o><米oseparator="true"> ，</米o><米o>．．.</米o><米oseparator="true"> ，</米o><米ostretchy="false"> （</米o><米over accent="true"> <msub> <mi> x</米我><米我>N</gydF4y2Ba米我></米sub> <mo> ⃗</米o></米over> <mo separator="true"> ，</米o><米sub> <mi> y</米我><米我>N</gydF4y2Ba米我></米sub> <mo stretchy="false"> )</米o><米ofence="false"> ｝</米o></米row><一个nnotation encoding="application/x-tex"> X =大\ \ {(vec {x_1} \ y_1) \点,(vec {x_N} \推出)大\ \}</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.07847em;">X</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.20001em;vertical-align:-0.35001em;"></span><span class="mord"><span class="delimsizing size1">｛</gydF4y2Baspan></span><span class="mopen">（</gydF4y2Baspan><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.714em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault">x</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.30110799999999993em;"><span style="top:-2.5500000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">1</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.2355em;"><span class="overlay" style="height:0.714em;width:0.471em;"> <svg width="0.471em" height="0.714em" style="width:0.471em" viewbox="0 0 471 714" preserveaspectratio="xMinYMin"> <path d="M377 20c0-5.333 1.833-10 5.5-14S391 0 397 0c4.667 0 8.667 1.667 12 5 3.333 2.667 6.667 9 10 19 6.667 24.667 20.333 43.667 41 57 7.333 4.667 11 10.667 11 18 0 6-1 10-3 12s-6.667 5-14 9c-28.667 14.667-53.667 35.667-75 63 -1.333 1.333-3.167 3.5-5.5 6.5s-4 4.833-5 5.5c-1 .667-2.5 1.333-4.5 2s-4.333 1 -7 1c-4.667 0-9.167-1.833-13.5-5.5S337 184 337 178c0-12.667 15.667-32.333 47-59 H213l-171-1c-8.667-6-13-12.333-13-19 0-4.667 4.333-11.333 13-20h359 c-16-25.333-24-45-24-59z"></path> </svg></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span><span class="mpunct">，</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.30110799999999993em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">1</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose">)</gydF4y2Baspan><span class="mpunct">，</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="minner">.．.</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mpunct">，</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mopen">（</gydF4y2Baspan><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.714em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault">x</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.32833099999999993em;"><span style="top:-2.5500000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.10903em;">N</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.2355em;"><span class="overlay" style="height:0.714em;width:0.471em;"> <svg width="0.471em" height="0.714em" style="width:0.471em" viewbox="0 0 471 714" preserveaspectratio="xMinYMin"> <path d="M377 20c0-5.333 1.833-10 5.5-14S391 0 397 0c4.667 0 8.667 1.667 12 5 3.333 2.667 6.667 9 10 19 6.667 24.667 20.333 43.667 41 57 7.333 4.667 11 10.667 11 18 0 6-1 10-3 12s-6.667 5-14 9c-28.667 14.667-53.667 35.667-75 63 -1.333 1.333-3.167 3.5-5.5 6.5s-4 4.833-5 5.5c-1 .667-2.5 1.333-4.5 2s-4.333 1 -7 1c-4.667 0-9.167-1.833-13.5-5.5S337 184 337 178c0-12.667 15.667-32.333 47-59 H213l-171-1c-8.667-6-13-12.333-13-19 0-4.667 4.333-11.333 13-20h359 c-16-25.333-24-45-24-59z"></path> </svg></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span><span class="mpunct">，</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.32833099999999993em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.10903em;">N</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose">)</gydF4y2Baspan><span class="mord"><span class="delimsizing size1">｝</gydF4y2Baspan></span></span></span></span>通过使用第四个方程(单个梯度的简单平均值)。</gydF4y2Bap> <p>4）<gydF4y2Bastrong>更新权重</gydF4y2Bastrong>根据学习率<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> α</米我></米row><一个nnotation encoding="application/x-tex"> \α</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.43056em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.0037em;">α</gydF4y2Baspan></span></span></span>和总梯度<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mfrac> <mrow> <mi mathvariant="normal"> ∂</米我><米我>E</gydF4y2Ba米我><米ostretchy="false"> （</米o><米我>X</gydF4y2Ba米我><米oseparator="true"> ，</米o><米我>θ</gydF4y2Ba米我><米ostretchy="false"> )</米o></米row><米row> <mi mathvariant="normal"> ∂</米我><米subsup> <mi> w</米我><米row><米我> 我</米我><米我>j</gydF4y2Ba米我></米row><米我> k</米我></米subsup> </mrow> </mfrac> </mrow> <annotation encoding="application/x-tex"> \frac{\partial E(X， \theta)}{\partial w_{ij}^k}</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.7313999999999998em;vertical-align:-0.7213999999999998em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.01em;"><span style="top:-2.60142em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8408285714285714em;"><span style="top:-2.177714285714286em;margin-left:-0.02691em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">我</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span></span><span style="top:-2.8448em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.46117142857142857em;"><span></span></span></span></span></span></span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.485em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.05764em;">E</gydF4y2Baspan><span class="mopen mtight">（</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.07847em;">X</gydF4y2Baspan><span class="mpunct mtight">，</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.02778em;">θ</gydF4y2Baspan><span class="mclose mtight">)</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.7213999999999998em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span></span></span></span>通过使用第五个方程(沿负梯度方向移动)。</gydF4y2Bap>  </blockquote> <p><strong>Sigmoidal神经网络中的反向传播</gydF4y2Bastrong></p> <p>经典的反向传播算法是为具有s型激活单元的回归问题设计的。虽然反向传播可以应用于分类问题以及具有非sigmoidal激活函数的网络，但sigmoid函数具有方便的数学性质，当与适当的输出激活函数结合时，极大地简化了算法的理解。因此，在经典公式中，隐藏节点的激活函数是s型的<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mo fence="false"> （</米o><米我>g</gydF4y2Ba米我><米ostretchy="false"> （</米o><米我>x</gydF4y2Ba米我><米ostretchy="false"> )</米o><米o>＝</米o><米我>σ</gydF4y2Ba米我><米ostretchy="false"> （</米o><米我>x</gydF4y2Ba米我><米ostretchy="false"> )</米o><米ofence="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> \big(g(x) = \sigma(x)\big)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.20001em;vertical-align:-0.35001em;"></span><span class="mord"><span class="delimsizing size1">（</gydF4y2Baspan></span><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="mopen">（</gydF4y2Baspan><span class="mord mathdefault">x</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.20001em;vertical-align:-0.35001em;"></span><span class="mord mathdefault" style="margin-right:0.03588em;">σ</gydF4y2Baspan><span class="mopen">（</gydF4y2Baspan><span class="mord mathdefault">x</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan><span class="mord"><span class="delimsizing size1">)</gydF4y2Baspan></span></span></span></span>输出激活函数是恒等函数<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mo fence="false"> （</米o><米sub> <mi> g</米我><米我>o</gydF4y2Ba米我></米sub> <mo stretchy="false"> （</米o><米我>x</gydF4y2Ba米我><米ostretchy="false"> )</米o><米o>＝</米o><米我>x</gydF4y2Ba米我><米ofence="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> \big(g_o(x) = x\big)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.20001em;vertical-align:-0.35001em;"></span><span class="mord"><span class="delimsizing size1">（</gydF4y2Baspan></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.151392em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">o</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mopen">（</gydF4y2Baspan><span class="mord mathdefault">x</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.20001em;vertical-align:-0.35001em;"></span><span class="mord mathdefault">x</gydF4y2Baspan><span class="mord"><span class="delimsizing size1">)</gydF4y2Baspan></span></span></span></span>(网络输出只是其隐含层的加权和，即激活)。</gydF4y2Bap> <p>反向传播实际上是历史上使用sigmoid激活函数的主要激励因素，因为它的导数很方便:</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msup> <mi> g</米我><米o米一个thvariant="normal"> ”</米o></米sup> <mo stretchy="false"> （</米o><米我>x</gydF4y2Ba米我><米ostretchy="false"> )</米o><米o>＝</米o><米fr一个c> <mrow> <mi mathvariant="normal"> ∂</米我><米我>σ</gydF4y2Ba米我><米ostretchy="false"> （</米o><米我>x</gydF4y2Ba米我><米ostretchy="false"> )</米o></米row><米row> <mi mathvariant="normal"> ∂</米我><米我>x</gydF4y2Ba米我></米row></米frac> <mo> ＝</米o><米我>σ</gydF4y2Ba米我><米ostretchy="false"> （</米o><米我>x</gydF4y2Ba米我><米ostretchy="false"> )</米o><米ofence="false"> （</米o><米n> 1</米n> <mo> −</米o><米我>σ</gydF4y2Ba米我><米ostretchy="false"> （</米o><米我>x</gydF4y2Ba米我><米ostretchy="false"> )</米o><米ofence="false"> )</米o><米我米一个thvariant="normal"> ．</米我></米row><一个nnotation encoding="application/x-tex"> g ^ {\ '} (x) = \压裂{\部分\σ(x)} {x} \部分σ(x) = \ \大(1 -σ(x) \ \大)。</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.051892em;vertical-align:-0.25em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.801892em;"><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">”</gydF4y2Baspan></span></span></span></span></span></span></span></span><span class="mopen">（</gydF4y2Baspan><span class="mord mathdefault">x</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:2.113em;vertical-align:-0.686em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.427em;"><span style="top:-2.314em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mathdefault">x</gydF4y2Baspan></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mathdefault" style="margin-right:0.03588em;">σ</gydF4y2Baspan><span class="mopen">（</gydF4y2Baspan><span class="mord mathdefault">x</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.686em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.20001em;vertical-align:-0.35001em;"></span><span class="mord mathdefault" style="margin-right:0.03588em;">σ</gydF4y2Baspan><span class="mopen">（</gydF4y2Baspan><span class="mord mathdefault">x</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan><span class="mord"><span class="delimsizing size1">（</gydF4y2Baspan></span><span class="mord">1</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">−</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:1.20001em;vertical-align:-0.35001em;"></span><span class="mord mathdefault" style="margin-right:0.03588em;">σ</gydF4y2Baspan><span class="mopen">（</gydF4y2Baspan><span class="mord mathdefault">x</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan><span class="mord"><span class="delimsizing size1">)</gydF4y2Baspan></span><span class="mord">．</gydF4y2Baspan></span></span></span></span></p> <p>因此，计算sigmoid函数的导数只需要记住输出<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> σ</米我><米ostretchy="false"> （</米o><米我>x</gydF4y2Ba米我><米ostretchy="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> \σ(x)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord mathdefault" style="margin-right:0.03588em;">σ</gydF4y2Baspan><span class="mopen">（</gydF4y2Baspan><span class="mord mathdefault">x</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan></span></span></span>把它代入上面的方程。</gydF4y2Bap> <p>此外，输出激活函数的导数也非常简单:</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> g</米我><米我>o</gydF4y2Ba米我><米o米一个thvariant="normal"> ”</米o></米subsup> <mo stretchy="false"> （</米o><米我>x</gydF4y2Ba米我><米ostretchy="false"> )</米o><米o>＝</米o><米fr一个c> <mrow> <mi mathvariant="normal"> ∂</米我><米sub> <mi> g</米我><米我>o</gydF4y2Ba米我></米sub> <mo stretchy="false"> （</米o><米我>x</gydF4y2Ba米我><米ostretchy="false"> )</米o></米row><米row> <mi mathvariant="normal"> ∂</米我><米我>x</gydF4y2Ba米我></米row></米frac> <mo> ＝</米o><米fr一个c> <mrow> <mi mathvariant="normal"> ∂</米我><米我>x</gydF4y2Ba米我></米row><米row> <mi mathvariant="normal"> ∂</米我><米我>x</gydF4y2Ba米我></米row></米frac> <mo> ＝</米o><米n> 1.</米n> </mrow> <annotation encoding="application/x-tex"> g_o ^ {\ '} (x) = \压裂{\部分g_o (x)} {x} \部分= \压裂{\部分x} {x} \部分= 1。</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.051892em;vertical-align:-0.25em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8018919999999999em;"><span style="top:-2.4530000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">o</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">”</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.247em;"><span></span></span></span></span></span></span><span class="mopen">（</gydF4y2Baspan><span class="mord mathdefault">x</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:2.113em;vertical-align:-0.686em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.427em;"><span style="top:-2.314em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mathdefault">x</gydF4y2Baspan></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.151392em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">o</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mopen">（</gydF4y2Baspan><span class="mord mathdefault">x</gydF4y2Baspan><span class="mclose">)</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.686em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:2.05744em;vertical-align:-0.686em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.37144em;"><span style="top:-2.314em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mathdefault">x</gydF4y2Baspan></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord" style="margin-right:0.05556em;">∂</gydF4y2Baspan><span class="mord mathdefault">x</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.686em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:0.64444em;vertical-align:0em;"></span><span class="mord">1</gydF4y2Baspan><span class="mord">．</gydF4y2Baspan></span></span></span></span></p> <p>因此，使用这两个激活函数就不需要记住激活值<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> 一个</米我><米n> 1</米n> <mi> 米</米我></米subsup> </mrow> <annotation encoding="application/x-tex"> a_1 m ^</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.9125em;vertical-align:-0.24810799999999997em;"></span><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.664392em;"><span style="top:-2.4518920000000004em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">1</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">米</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.24810799999999997em;"><span></span></span></span></span></span></span></span></span></span>而且<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> 一个</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> <annotation encoding="application/x-tex"> a_j ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>除了输出值<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> o</米我><米n> 1</米n> <mi> 米</米我></米subsup> </mrow> <annotation encoding="application/x-tex"> o_1 m ^</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.9125em;vertical-align:-0.24810799999999997em;"></span><span class="mord"><span class="mord mathdefault">o</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.664392em;"><span style="top:-2.4518920000000004em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">1</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">米</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.24810799999999997em;"><span></span></span></span></span></span></span></span></span></span>而且<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> o</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> </mrow> <annotation encoding="application/x-tex"> o_j ^ k</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.2438799999999999em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault">o</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span></span></span></span>，大大减少了算法的内存占用。这是因为反向阶段的sigmoid激活函数的导数只需要回忆该函数在正向阶段的输出，而不依赖于实际的激活值，这是更一般的反向传播公式中的情况<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msup> <mi> g</米我><米o米一个thvariant="normal"> ”</米o></米sup> <mo fence="false"> （</米o><米subsup> <mi> 一个</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> <mo fence="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> g ^{\ '} \大(a_j ^ k \大)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.244772em;vertical-align:-0.394772em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">g</gydF4y2Baspan><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.751892em;"><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">”</gydF4y2Baspan></span></span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">（</gydF4y2Baspan></span><span class="mord"><span class="mord mathdefault">一个</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.394772em;"><span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">)</gydF4y2Baspan></span></span></span></span>必须计算。类似地，恒等激活函数的导数不依赖于任何东西，因为它是常数。</gydF4y2Bap> <p>因此，对于具有s型隐单元和单位输出单元的前馈神经网络，误差项方程为:</gydF4y2Bap> <blockquote class="definition"> <p>对于最后一层的误差项，</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> δ</米我><米n> 1</米n> <mi> 米</米我></米subsup> <mo> ＝</米o><米over accent="true"> <msub> <mi> y</米我><米我>d</gydF4y2Ba米我></米sub> <mo> ＾</米o></米over> <mo> −</米o><米sub> <mi> y</米我><米我>d</gydF4y2Ba米我></米sub> <mi mathvariant="normal"> ．</米我></米row><一个nnotation encoding="application/x-tex"> \delta_1^m = \hat{y_d}-y_d。</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.9613919999999999em;vertical-align:-0.247em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.7143919999999999em;"><span style="top:-2.4530000000000003em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">1</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">米</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.247em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:0.8888799999999999em;vertical-align:-0.19444em;"></span><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.69444em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.25em;">＾</gydF4y2Baspan></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.19444em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">−</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:0.625em;vertical-align:-0.19444em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mord">．</gydF4y2Baspan></span></span></span></span></p>  </blockquote> <blockquote class="definition"> <p>对于隐层的误差项，</gydF4y2Bap> <p><span class="katex-display"><span class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <msubsup> <mi> δ</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> <mo> ＝</米o><米subsup> <mi> o</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> <mo fence="false"> （</米o><米n> 1</米n> <mo> −</米o><米subsup> <mi> o</米我><米我>j</gydF4y2Ba米我><米我>k</gydF4y2Ba米我></米subsup> <mo fence="false"> )</米o><米underover> <mo> ∑</米o><米row><米我>l</米我><米o>＝</米o><米n> 1</米n> </mrow> <msup> <mi> r</米我><米row><米我> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msup> </munderover> <msubsup> <mi> w</米我><米row><米我> j</米我><米我>l</gydF4y2Ba米我></米row><米row> <mi> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> <msubsup> <mi> δ</米我><米我>l</gydF4y2Ba米我><米row><米我> k</米我><米o>+</gydF4y2Ba米o><米n> 1</米n> </mrow> </msubsup> <mi mathvariant="normal"> ．</米我></米row><一个nnotation encoding="application/x-tex"> \ \ delta_j ^ k = o_j ^ k大(1 - o_j ^ k \大)\ sum_ {l = 1} ^ {r ^ {k + 1}} w_ {jl} ^ {k + 1} \ delta_l ^ {k + 1}。</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.282216em;vertical-align:-0.383108em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.899108em;"><span style="top:-2.4530000000000003em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.1130000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.383108em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">＝</gydF4y2Baspan><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.282216em;vertical-align:-0.383108em;"></span><span class="mord"><span class="mord mathdefault">o</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.899108em;"><span style="top:-2.4530000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.1130000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.383108em;"><span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">（</gydF4y2Baspan></span><span class="mord">1</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">−</gydF4y2Baspan><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:3.301038em;vertical-align:-1.302113em;"></span><span class="mord"><span class="mord mathdefault">o</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.899108em;"><span style="top:-2.4530000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan></span></span><span style="top:-3.1130000000000004em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.383108em;"><span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">)</gydF4y2Baspan></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mop op-limits"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.998925em;"><span style="top:-1.8478869999999998em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan><span class="mrel mtight">＝</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span><span style="top:-3.0500049999999996em;"><span class="pstrut" style="height:3.05em;"></span><span><span class="mop op-symbol large-op">∑</gydF4y2Baspan></span></span><span style="top:-4.300005em;margin-left:0em;"><span class="pstrut" style="height:3.05em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.02778em;">r</gydF4y2Baspan><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.9270285714285714em;"><span style="top:-2.931em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span></span></span></span></span></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:1.302113em;"><span></span></span></span></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.02691em;">w</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8991079999999999em;"><span style="top:-2.4085610000000006em;margin-left:-0.02691em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.05724em;">j</gydF4y2Baspan><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan></span></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.4275469999999999em;"><span></span></span></span></span></span></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03785em;">δ</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8991079999999998em;"><span style="top:-2.408561em;margin-left:-0.03785em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right:0.01968em;">l</gydF4y2Baspan></span></span><span style="top:-3.113em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</gydF4y2Baspan><span class="mbin mtight">+</gydF4y2Baspan><span class="mord mtight">1</gydF4y2Baspan></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.2914389999999999em;"><span></span></span></span></span></span></span><span class="mord">．</gydF4y2Baspan></span></span></span></span></p>  </blockquote> <p><strong>代码示例</gydF4y2Bastrong></p> <p>下面的代码示例是前面小节中描述的sigmoidal神经网络。它有一个隐藏层和输出层中的一个输出节点。代码是用Python3编写的，并大量使用NumPy库来执行矩阵数学。因为单独的输入输出对的梯度计算<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mo stretchy="false"> （</米o><米over accent="true"> <msub> <mi> x</米我><米我>d</gydF4y2Ba米我></米sub> <mo> ⃗</米o></米over> <mo separator="true"> ，</米o><米sub> <mi> y</米我><米我>d</gydF4y2Ba米我></米sub> <mo stretchy="false"> )</米o></米row><一个nnotation encoding="application/x-tex"> (vec {x_d} \ y_d)</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mopen">（</gydF4y2Baspan><span class="mord accent"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.714em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord"><span class="mord mathdefault">x</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.2355em;"><span class="overlay" style="height:0.714em;width:0.471em;"> <svg width="0.471em" height="0.714em" style="width:0.471em" viewbox="0 0 471 714" preserveaspectratio="xMinYMin"> <path d="M377 20c0-5.333 1.833-10 5.5-14S391 0 397 0c4.667 0 8.667 1.667 12 5 3.333 2.667 6.667 9 10 19 6.667 24.667 20.333 43.667 41 57 7.333 4.667 11 10.667 11 18 0 6-1 10-3 12s-6.667 5-14 9c-28.667 14.667-53.667 35.667-75 63 -1.333 1.333-3.167 3.5-5.5 6.5s-4 4.833-5 5.5c-1 .667-2.5 1.333-4.5 2s-4.333 1 -7 1c-4.667 0-9.167-1.833-13.5-5.5S337 184 337 178c0-12.667 15.667-32.333 47-59 H213l-171-1c-8.667-6-13-12.333-13-19 0-4.667 4.333-11.333 13-20h359 c-16-25.333-24-45-24-59z"></path> </svg></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span><span class="mpunct">，</gydF4y2Baspan><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">d</gydF4y2Baspan></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose">)</gydF4y2Baspan></span></span></span>可以并行完成，并且许多计算是基于取两个向量的点积，矩阵是表示输入数据、输出数据和层权重的自然方式。NumPy对矩阵乘积的高效计算和使用现代gpu(针对矩阵运算进行了优化)的能力可以在计算的正向和反向阶段提供显著的加速。</gydF4y2Bap> <div class="codex-static-code" data-controller="app/codex/controllers:expandableCode"> <button class="codex-expand-toggle" style="display:none;"></button> <table class="has-lang codehilitetable"> <tbody> <tr> <td class="linenos"> <div class="linenodiv"> <pre>12 34 56 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71</gydF4y2Bapre> </div></td> <td class="code"> <div class="has-lang codehilite"> <pre><span></span><code data-lang="Python"><span class="kn">进口</gydF4y2Baspan><span class="nn">numpy</gydF4y2Baspan><span class="k">作为</gydF4y2Baspan><span class="nn">np</gydF4y2Baspan><span class="c1">#定义sigmoid函数</gydF4y2Baspan><span class="k">def</gydF4y2Baspan><span class="nf">乙状结肠</gydF4y2Baspan><span class="p">（</gydF4y2Baspan><span class="n">x</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="n">导数</gydF4y2Baspan><span class="o">＝</gydF4y2Baspan><span class="kc">假</gydF4y2Baspan><span class="p">)：</gydF4y2Baspan><span class="k">如果</gydF4y2Baspan><span class="p">（</gydF4y2Baspan><span class="n">导数</gydF4y2Baspan><span class="o">= =</gydF4y2Baspan><span class="kc">真正的</gydF4y2Baspan><span class="p">)：</gydF4y2Baspan><span class="k">返回</gydF4y2Baspan><span class="n">乙状结肠</gydF4y2Baspan><span class="p">（</gydF4y2Baspan><span class="n">x</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="n">导数</gydF4y2Baspan><span class="o">＝</gydF4y2Baspan><span class="kc">假</gydF4y2Baspan><span class="p">)</gydF4y2Baspan><span class="o">＊</gydF4y2Baspan><span class="p">（</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="o">-</gydF4y2Baspan><span class="n">乙状结肠</gydF4y2Baspan><span class="p">（</gydF4y2Baspan><span class="n">x</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="n">导数</gydF4y2Baspan><span class="o">＝</gydF4y2Baspan><span class="kc">假</gydF4y2Baspan><span class="p">）)</gydF4y2Baspan><span class="k">其他的</gydF4y2Baspan><span class="p">：</gydF4y2Baspan><span class="k">返回</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="o">/</gydF4y2Baspan><span class="p">（</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="o">+</gydF4y2Baspan><span class="n">np</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">经验值</gydF4y2Baspan><span class="p">（</gydF4y2Baspan><span class="o">-</gydF4y2Baspan><span class="n">x</gydF4y2Baspan><span class="p">）)</gydF4y2Baspan><span class="c1">#选择一个随机的种子以获得可重复的结果</gydF4y2Baspan><span class="n">np</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">随机</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">种子</gydF4y2Baspan><span class="p">（</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="p">)</gydF4y2Baspan><span class="c1">#学习率</gydF4y2Baspan><span class="n">α</gydF4y2Baspan><span class="o">＝</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="c1">#隐藏层的节点数</gydF4y2Baspan><span class="n">num_hidden</gydF4y2Baspan><span class="o">＝</gydF4y2Baspan><span class="mi">3.</gydF4y2Baspan><span class="c1">#输入</gydF4y2Baspan><span class="n">X</gydF4y2Baspan><span class="o">＝</gydF4y2Baspan><span class="n">np</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">数组</gydF4y2Baspan><span class="p">([</gydF4y2Baspan><span class="p">［</gydF4y2Baspan><span class="mi">0</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="mi">0</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="p">),</gydF4y2Baspan><span class="p">［</gydF4y2Baspan><span class="mi">0</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="p">),</gydF4y2Baspan><span class="p">［</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="mi">0</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="mi">0</gydF4y2Baspan><span class="p">),</gydF4y2Baspan><span class="p">［</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="mi">0</gydF4y2Baspan><span class="p">),</gydF4y2Baspan><span class="p">［</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="mi">0</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="p">),</gydF4y2Baspan><span class="p">［</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="p">),</gydF4y2Baspan><span class="p">])</gydF4y2Baspan><span class="c1">#输出</gydF4y2Baspan><span class="c1"># x.T是x的转置，使它成为列向量</gydF4y2Baspan><span class="n">y</gydF4y2Baspan><span class="o">＝</gydF4y2Baspan><span class="n">np</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">数组</gydF4y2Baspan><span class="p">([[</gydF4y2Baspan><span class="mi">0</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="mi">0</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="mi">0</gydF4y2Baspan><span class="p">]]）</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">T</gydF4y2Baspan><span class="c1">#随机初始化权重，均值为0，范围为[- 1,1]</gydF4y2Baspan><span class="c1">权重矩阵第1维中的+1是偏置权重</gydF4y2Baspan><span class="n">hidden_weights</gydF4y2Baspan><span class="o">＝</gydF4y2Baspan><span class="mi">2</gydF4y2Baspan><span class="o">＊</gydF4y2Baspan><span class="n">np</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">随机</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">随机</gydF4y2Baspan><span class="p">（(</gydF4y2Baspan><span class="n">X</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">形状</gydF4y2Baspan><span class="p">［</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="p">］</gydF4y2Baspan><span class="o">+</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="n">num_hidden</gydF4y2Baspan><span class="p">）)</gydF4y2Baspan><span class="o">-</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="n">output_weights</gydF4y2Baspan><span class="o">＝</gydF4y2Baspan><span class="mi">2</gydF4y2Baspan><span class="o">＊</gydF4y2Baspan><span class="n">np</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">随机</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">随机</gydF4y2Baspan><span class="p">（(</gydF4y2Baspan><span class="n">num_hidden</gydF4y2Baspan><span class="o">+</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="n">y</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">形状</gydF4y2Baspan><span class="p">［</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="p">)))</gydF4y2Baspan><span class="o">-</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="c1">#梯度下降的迭代次数</gydF4y2Baspan><span class="n">num_iterations</gydF4y2Baspan><span class="o">＝</gydF4y2Baspan><span class="mi">10000</gydF4y2Baspan><span class="c1">#用于梯度下降的每次迭代</gydF4y2Baspan><span class="k">为</gydF4y2Baspan><span class="n">我</gydF4y2Baspan><span class="ow">在</gydF4y2Baspan><span class="nb">范围</gydF4y2Baspan><span class="p">（</gydF4y2Baspan><span class="n">num_iterations</gydF4y2Baspan><span class="p">)：</gydF4y2Baspan><span class="c1">#正向阶段</gydF4y2Baspan><span class="c1"># np.hstack((np.ones(…)，X)为偏差权重添加一个固定的输入1</gydF4y2Baspan><span class="n">input_layer_outputs</gydF4y2Baspan><span class="o">＝</gydF4y2Baspan><span class="n">np</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">hstack</gydF4y2Baspan><span class="p">（(</gydF4y2Baspan><span class="n">np</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">的</gydF4y2Baspan><span class="p">（(</gydF4y2Baspan><span class="n">X</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">形状</gydF4y2Baspan><span class="p">［</gydF4y2Baspan><span class="mi">0</gydF4y2Baspan><span class="p">),</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="p">))，</gydF4y2Baspan><span class="n">X</gydF4y2Baspan><span class="p">）)</gydF4y2Baspan><span class="n">hidden_layer_outputs</gydF4y2Baspan><span class="o">＝</gydF4y2Baspan><span class="n">np</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">hstack</gydF4y2Baspan><span class="p">（(</gydF4y2Baspan><span class="n">np</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">的</gydF4y2Baspan><span class="p">（(</gydF4y2Baspan><span class="n">X</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">形状</gydF4y2Baspan><span class="p">［</gydF4y2Baspan><span class="mi">0</gydF4y2Baspan><span class="p">),</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="p">))，</gydF4y2Baspan><span class="n">乙状结肠</gydF4y2Baspan><span class="p">（</gydF4y2Baspan><span class="n">np</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">点</gydF4y2Baspan><span class="p">（</gydF4y2Baspan><span class="n">input_layer_outputs</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="n">hidden_weights</gydF4y2Baspan><span class="p">））））</gydF4y2Baspan><span class="n">output_layer_outputs</gydF4y2Baspan><span class="o">＝</gydF4y2Baspan><span class="n">np</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">点</gydF4y2Baspan><span class="p">（</gydF4y2Baspan><span class="n">hidden_layer_outputs</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="n">output_weights</gydF4y2Baspan><span class="p">)</gydF4y2Baspan><span class="c1">#反向阶段</gydF4y2Baspan><span class="c1">#输出层错误术语</gydF4y2Baspan><span class="n">output_error</gydF4y2Baspan><span class="o">＝</gydF4y2Baspan><span class="n">output_layer_outputs</gydF4y2Baspan><span class="o">-</gydF4y2Baspan><span class="n">y</gydF4y2Baspan><span class="c1">#隐藏层错误术语</gydF4y2Baspan><span class="c1">#[:， 1:]从反向传播中移除偏差项</gydF4y2Baspan><span class="n">hidden_error</gydF4y2Baspan><span class="o">＝</gydF4y2Baspan><span class="n">hidden_layer_outputs</gydF4y2Baspan><span class="p">(:,</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="p">:]</gydF4y2Baspan><span class="o">＊</gydF4y2Baspan><span class="p">（</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="o">-</gydF4y2Baspan><span class="n">hidden_layer_outputs</gydF4y2Baspan><span class="p">(:,</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="p">:])</gydF4y2Baspan><span class="o">＊</gydF4y2Baspan><span class="n">np</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">点</gydF4y2Baspan><span class="p">（</gydF4y2Baspan><span class="n">output_error</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="n">output_weights</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">T</gydF4y2Baspan><span class="p">(:,</gydF4y2Baspan><span class="mi">1</gydF4y2Baspan><span class="p">:])</gydF4y2Baspan><span class="c1">#偏导数</gydF4y2Baspan><span class="n">hidden_pd</gydF4y2Baspan><span class="o">＝</gydF4y2Baspan><span class="n">input_layer_outputs</gydF4y2Baspan><span class="p">(:,</gydF4y2Baspan><span class="p">：，</gydF4y2Baspan><span class="n">np</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">newaxis</gydF4y2Baspan><span class="p">］</gydF4y2Baspan><span class="o">＊</gydF4y2Baspan><span class="n">hidden_error</gydF4y2Baspan><span class="p">[:</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="n">np</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">newaxis</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="p">:]</gydF4y2Baspan><span class="n">output_pd</gydF4y2Baspan><span class="o">＝</gydF4y2Baspan><span class="n">hidden_layer_outputs</gydF4y2Baspan><span class="p">(:,</gydF4y2Baspan><span class="p">：，</gydF4y2Baspan><span class="n">np</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">newaxis</gydF4y2Baspan><span class="p">］</gydF4y2Baspan><span class="o">＊</gydF4y2Baspan><span class="n">output_error</gydF4y2Baspan><span class="p">(:,</gydF4y2Baspan><span class="n">np</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">newaxis</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="p">:]</gydF4y2Baspan><span class="c1">#平均的总梯度</gydF4y2Baspan><span class="n">total_hidden_gradient</gydF4y2Baspan><span class="o">＝</gydF4y2Baspan><span class="n">np</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">平均</gydF4y2Baspan><span class="p">（</gydF4y2Baspan><span class="n">hidden_pd</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="n">轴</gydF4y2Baspan><span class="o">＝</gydF4y2Baspan><span class="mi">0</gydF4y2Baspan><span class="p">)</gydF4y2Baspan><span class="n">total_output_gradient</gydF4y2Baspan><span class="o">＝</gydF4y2Baspan><span class="n">np</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">平均</gydF4y2Baspan><span class="p">（</gydF4y2Baspan><span class="n">output_pd</gydF4y2Baspan><span class="p">，</gydF4y2Baspan><span class="n">轴</gydF4y2Baspan><span class="o">＝</gydF4y2Baspan><span class="mi">0</gydF4y2Baspan><span class="p">)</gydF4y2Baspan><span class="c1">#更新权重</gydF4y2Baspan><span class="n">hidden_weights</gydF4y2Baspan><span class="o">＋＝</gydF4y2Baspan><span class="o">-</gydF4y2Baspan><span class="n">α</gydF4y2Baspan><span class="o">＊</gydF4y2Baspan><span class="n">total_hidden_gradient</gydF4y2Baspan><span class="n">output_weights</gydF4y2Baspan><span class="o">＋＝</gydF4y2Baspan><span class="o">-</gydF4y2Baspan><span class="n">α</gydF4y2Baspan><span class="o">＊</gydF4y2Baspan><span class="n">total_output_gradient</gydF4y2Baspan><span class="c1">#在输入X上打印神经网络的最终输出</gydF4y2Baspan><span class="nb">打印</gydF4y2Baspan><span class="p">（</gydF4y2Baspan><span class="s2">培训后输出:</gydF4y2Baspan><span class="se">\ n</gydF4y2Baspan><span class="si">{}</gydF4y2Baspan><span class="s2">＂</gydF4y2Baspan><span class="o">．</gydF4y2Baspan><span class="n">格式</gydF4y2Baspan><span class="p">（</gydF4y2Baspan><span class="n">output_layer_outputs</gydF4y2Baspan><span class="p">）)</gydF4y2Baspan></code></pre> </div><p></p></td> </tr> </tbody> </table> </div> <p></p> <p>矩阵<gydF4y2Bacode>X</gydF4y2Bacode>是输入的集合吗<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mover accent="true"> <mi> x</米我><米o>⃗</gydF4y2Ba米o></米over> </mrow> <annotation encoding="application/x-tex"> vec {x} \</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.714em;vertical-align:0em;"></span><span class="mord accent"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.714em;"><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord mathdefault">x</gydF4y2Baspan></span></span><span style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="accent-body" style="left:-0.20772em;"><span class="overlay" style="height:0.714em;width:0.471em;"> <svg width="0.471em" height="0.714em" style="width:0.471em" viewbox="0 0 471 714" preserveaspectratio="xMinYMin"> <path d="M377 20c0-5.333 1.833-10 5.5-14S391 0 397 0c4.667 0 8.667 1.667 12 5 3.333 2.667 6.667 9 10 19 6.667 24.667 20.333 43.667 41 57 7.333 4.667 11 10.667 11 18 0 6-1 10-3 12s-6.667 5-14 9c-28.667 14.667-53.667 35.667-75 63 -1.333 1.333-3.167 3.5-5.5 6.5s-4 4.833-5 5.5c-1 .667-2.5 1.333-4.5 2s-4.333 1 -7 1c-4.667 0-9.167-1.833-13.5-5.5S337 184 337 178c0-12.667 15.667-32.333 47-59 H213l-171-1c-8.667-6-13-12.333-13-19 0-4.667 4.333-11.333 13-20h359 c-16-25.333-24-45-24-59z"></path> </svg></span></span></span></span></span></span></span></span></span></span>这个矩阵<gydF4y2Bacode>y</gydF4y2Bacode>输出的集合是<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> y</米我></米row><一个nnotation encoding="application/x-tex"> y</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.625em;vertical-align:-0.19444em;"></span><span class="mord mathdefault" style="margin-right:0.03588em;">y</gydF4y2Baspan></span></span></span>．隐藏层的节点数可以通过设置变量的值来定制<gydF4y2Bacode>num_hidden</gydF4y2Bacode>．学习率<gydF4y2Baspan class="katex"><span class="katex-mathml"> <math> <semantics> <mrow> <mi> α</米我></米row><一个nnotation encoding="application/x-tex"> \α</一个nnotation> </semantics> </math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.43056em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.0037em;">α</gydF4y2Baspan></span></span></span>是否由变量控制<gydF4y2Bacode>α</gydF4y2Bacode>．梯度下降的迭代次数由变量控制<gydF4y2Bacode>num_iterations</gydF4y2Bacode>．</gydF4y2Bap> <p>通过改变这些变量并将程序的输出与目标值进行比较<gydF4y2Bacode>y</gydF4y2Bacode>，可以看到这些变量如何控制反向传播学习数据集的效果<gydF4y2Bacode>X</gydF4y2Bacode>而且<gydF4y2Bacode>y</gydF4y2Bacode>．例如，隐藏层中更多的节点和更多的梯度下降迭代通常会改善对训练数据集的拟合。然而，使用过大或过小的学习率分别会导致模型发散或收敛太慢。</gydF4y2Bap> </div> </div> </div> </div> </div> <div class="wiki-self-citation" data-controller="app/wiki:getCitationTime"> <strong>引用:</gydF4y2Bastrong>反向传播。<gydF4y2Baem>Brilliant.org</gydF4y2Baem>．检索<gydF4y2Baspan class="retrieval-time"></span>从<一个href="//www.parkandroid.com/wiki/backpropagation/">//www.parkandroid.com/wiki/backpropagation/</一个></d我v> <div class="wiki-rating-feedback-wrapper row" data-controller="app/wiki:feedback"></div> </div> <div class="wiki-overlay"></div> <div class="wiki-footer recommended-course" id="loggedout-wiki-footer" data-controller="app/wiki:showSignUpModal,app/wiki:wikiFooter"> <a href="//www.parkandroid.com/courses/computer-science-fundamentals/" class="course-banner ax-click" data-ax-id="wiki_clicked_course_footer_logged_out"> <div class="img col"> <img class="no-zoom" src="https://ds055uzetaobb.cloudfront.net/brioche/chapter/data_structures-wvUKwz.png?width=100" srcset="https://ds055uzetaobb.cloudfront.net/brioche/chapter/data_structures-wvUKwz.png?width=100 1x, https://ds055uzetaobb.cloudfront.net/brioche/chapter/data_structures-wvUKwz.png?width=200 2x, https://ds055uzetaobb.cloudfront.net/brioche/chapter/data_structures-wvUKwz.png?width=300 3x"> </div> <div class="text col col-5"> <h4>掌握这些概念</gydF4y2Bah4> <button class="btn btn-accent">开始</bgydF4y2Bautton> <p>在我们的数据结构课程中了解更多信息，由专家为您构建。</gydF4y2Bap> </div></a> </div> <div class="public-signup-modal-experiment modal hide" id="signup-modal-wiki" data-controller="app/signup:signUpModal"> <div class="public-signup-left col col-last public-signup-left-experiment" id="public-signup-tour"></div> <div class="public-signup-experiment show-signup" id="public-signup"> <span class="css-sprite-signup-modal signup-modal-image"></span> <div class="text row"> 注册阅读所有关于数学、科学和工程主题的维基和测验。</d我v> <div class="public-buttons row" data-controller="app/solvables:preventSocialButtonDoubleClick"> <div class="login-buttons"> <a href="//www.parkandroid.com/account/facebook/login/?next=/wiki/backpropagation/" id="login-fb" class="btn btn-f-b signup-social ax-click" data-ax-id="clicked_login_from_problem_modal_facebook" data-ax-type="button" data-is_modal="true"><span class="fb css-sprite-index"></span>登录Facebook</一个><一个href="//www.parkandroid.com/account/google/login/?next=/wiki/backpropagation/" id="login-google" class="btn btn-google signup-social ax-click" data-ax-id="clicked_login_from_problem_modal_google" data-ax-type="button" data-is_modal="true"><span class="google css-sprite-index"></span>以谷歌登录</一个><一个href="//www.parkandroid.com/account/login/?next=/wiki/backpropagation/" id="problem-login-link" class="btn btn-email ax-click" data-ax-id="clicked_login_from_problem_modal_email" data-ax-type="button" data-is_modal="true" data-next="/wiki/backpropagation/">用电子邮件登录</一个></d我v> <div class="signup-buttons"> <a href="//www.parkandroid.com/account/facebook/login/?next=/wiki/backpropagation/" id="signup-fb" class="btn btn-f-b signup-social ax-click" data-ax-id="clicked_signup_from_problem_modal_facebook" data-ax-type="button"><span class="fb css-sprite-index"></span>使用Facebook加入</一个><一个href="//www.parkandroid.com/account/google/login/?next=/wiki/backpropagation/" id="signup-google" class="btn btn-google signup-social ax-click" data-ax-id="clicked_signup_from_problem_modal_google" data-ax-type="button"><span class="google css-sprite-index"></span>使用谷歌加入</一个><一个href="//www.parkandroid.com/account/signup/?signup=true&next=/wiki/backpropagation/" id="signup-email" class="btn btn-email ax-click" data-ax-id="clicked_signup_from_problem_modal_email" data-ax-type="button" data-next="/wiki/backpropagation/">使用电子邮件加入</一个></d我v> </div> <div class="signup-form-container" id="signup-form-container" data-url="/signup_form" data-page-key="wiki_canonical_page"></div> <div class="login-form-container row" id="login-form-container" data-url="/login_form" data-page-key="wiki_canonical_page"></div> <div class="alternative"> <div class="login-alternative"> <p><a href="//www.parkandroid.com/account/password/reset/" class="btn-link forget">忘记了密码?</一个>新用户?<一个href="//www.parkandroid.com/account/signup/?signup=true&next=/wiki/backpropagation/" id="problem-signup-link-alternative" class="btn-link ax-click" data-ax-id="clicked_signup_from_problem_modal" data-ax-type="button" data-next="/wiki/backpropagation/">报名</一个></p> </div> <div class="signup-alternative"> <p>现有的用户?<一个href="//www.parkandroid.com/account/login/?next=/wiki/backpropagation/" id="problem-login-link-alternative" class="btn-link ax-click" data-ax-id="clicked_login_from_problem_modal" data-ax-type="button" data-is_modal="true" data-next="/wiki/backpropagation/">登录</一个></p> </div> </div> </div> </div> <div data-controller="util/mathjax_loader:controller"></div> <div data-controller="util/analytics:init" data-analytics-live="true" data-segment-key="ttlCaHQqOWtslnGGJ9W4bBeRpfYGksuD" data-segment-url="https://in.www.parkandroid.com" data-amplitude-key="2d768258f0a7507203c7998a3e2678f0" data-cio-key="9b180e7983a5a792f198" data-cio-identify-data="{"id": "iZst28YxE7vfBpZQmloIEWJMa7DaZCWr"}" data-analytics-identity="iZst28YxE7vfBpZQmloIEWJMa7DaZCWr" data-analytics-super-properties="{"locale": "en", "account_type": "anonymous", "debug": false, "client": "desktop-browser", "sessionid": null, "user_agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36", "identity": "iZst28YxE7vfBpZQmloIEWJMa7DaZCWr", "anon_ident_latest": "iZst28YxE7vfBpZQmloIEWJMa7DaZCWr", "ab_test__send_startalk_welcome_email_04_2018": true, "ab_test__reduce_nux_email_volumes_2018_08": false}" data-analytics-user-properties="{"exp__discounts_05_2021": "control", "exp__nux_onboarding_03_2021": "specific_paths", "exp__intermediate_math_lp_w_pre_algebra_july_2021": "experiment", "exp__new_lesson_navigation_sep_2021": "experiment", "exp__csf_reshuffle2_oct_2021": "experiment", "exp__lesson_sounds_oct_2021": "experiment", "exp__dc_automation": "experiment", "exp__one_step_signup_login_10_2021": "control", "exp__premium_referrals_10_2021": "credit_on_subscribe", "exp__trial_paywall_after_nux_oct_2021": "control", "exp__reactivated_user_free_trials_10_2021": "control", "exp__nux_progressbar_oct_2021": "experiment", "exp__chargebee_paywall_08_2020_round_3": "chargebee", "exp__sem_landing_page_08_2021": "control", "exp__v2_sem_landing_banner_experiment_05_2021": "control", "exp__paywall_redesign_02_2021": "control", "exp__logged_in_premium_banners_04_2021": "control", "exp__highlight_1st_lesson_03_2021": "experiment", "exp__sem_landing_banner_experiment_05_2021": "control", "exp__paywall_redesign_02_2021_v2": "control", "exp__premium_referrals_03_2021": "control", "exp__chargebee_paywall_mature_06_2021": "chargebee", "exp__v2_nux_onboarding_05_2021": "experiment_v2", "exp__logic_foundations_lp_w_pre_algebra_aug_2021": "experiment", "exp__signup_behind_nux_11_2021": "paywall_after_signup_v1", "exp__nux_replace_welcome_slides_v1": "control", "exp__youtube_sponsors_hard_paywall_12_2021": "control", "exp__logged_in_home_and_streaks": "experiment", "exp__probfund_1221_2": "experiment", "exp__nux_slides_12_2021": "control", "exp__prealg_ch1_dec2021": "experiment_long", "exp__cian_icp_images": "experiment", "exp__signup_age_replace_birthday_11_2021_v2": "experiment", "exp__trial_paywall_monthly_price_aug_2021": "experiment", "exp__sponsor_landing_pages_10_2021_v5": "control", "exp__st_mirror_streamlined": "control", "exp__prealg_vs_intro_to_alg_aug_2021": "control", "exp__home_btn_copy_11_2021": "control", "exp__gift_focused_premium_banner_12_2021": "experiment", "exp__trial_cancellation_flow_july_2021": "control", "exp__worldwide_discounts_09_2021": "control"}" data-facebook-ad-pixel-id="712046235504105" data-google-ad-pixel-id="1007657493" data-ltv-event-id="0" data-ltv-event-ltv="" data-ltv-event-currency="" data-ltv-event-interval="" data-ltv-event-confirm-url="" data-send-ga-trial-subscription-event="" data-displayed-recommended-course-banner="true" data-recommended-course-id="44" data-is-tracked-user="true"> <div class="ax-event" data-ax-name="sign_of_life" data-ax-properties="{"path": "/wiki/backpropagation/", "full_path": "/wiki/backpropagation/?subtopic=machine-learning&chapter=artificial-neural-networks", "method": "GET", "ajax": false, "from_request": true, "is_android": false}"></div> </div> <div id="footer-notifs"></div> </div> <div id="default-ajax-error" class="hide" data-error-title="Error" data-error-content="We encountered an error while talking to our servers. Refresh the page and try again in a few seconds. If the problem persists, please <a href='mailto:support@www.parkandroid.com'>email us</a>." data-timeout-content="That action is taking longer than expected. This is likely due to network issues. Please try again in a few seconds, and if the problem persists, <a href='mailto:support@www.parkandroid.com'>send us an email</a>."></div> <div id="fb-root"></div> <div class="nf-feeditem-modal hide" id="nf-feeditem-modal"> <div class="nf-modal-close close" id="nf-modal-close"> ×</d我v> <div class="nf-modal-loading"> <div class="logo"></div> <div class="stripe"></div> <p class="solvable-text">问题加载…</gydF4y2Bap> <p class="note-text">注意加载…</gydF4y2Bap> <p class="set-text">设置加载…</gydF4y2Bap> </div> <div class="nf-feeditem-modal-wrapper"> <div class="nf-solvable-modal-content nf-modal-content solv-modal clearfix" id="cmp_assessment_modal_public_solvable_component