netouch的图书馆

他的首页他的馆藏他的动态馆友反馈关于他分享对话

netouch IP属地：北京

文章		关注		粉丝		访问		贡献

关注

粉丝

访问

贡献

他的首页

他的馆藏

他的动态

馆友反馈

关于他

共 5877 篇文章

显示摘要

每页显示

条

Proximal Policy Optimization(近端策略优化)(PPO)原理详解

阅2 转0 评0 公众公开 24-04-25 06:08

探索PPO算法：面向初学者的实现与应用指南

项目链接提供了一个简洁易懂的Python实现，帮助新手快速理解并实践PPO算法。PPO算法是基于Policy Gradient方法的改进，它引入了两个主要创新点：近似边界约束（Clipping）：为了避免更新过程中策略的大幅波动，PPO通过限制新旧策略概率的比例在一个较小的范围内，确保了策略优化过程的稳定性。如果你对强化学习感兴趣，想要入门PPO算法，或者...

阅1 转0 评0 公众公开 24-04-24 23:05

Transformer模型是什么？带你从零详细解读Transformer模型（图解最完整版）

红色圈中的部分为 Multi-Head Attention，是由多个 Self-Attention组成的，可以看到 Encoder block 包含一个 Multi-Head Attention，而 Decoder block 包含两个 Multi-Head Attention (其中有一个用到 Masked)。第一个 Encoder block 的输入为句子单词的表示向量矩阵，后续 Encoder block 的输入是前一个 Encoder block 的输出，最后一个 Encod...

阅1 转0 评0 公众公开 24-04-24 22:16

Transformer 初学者入门

向量->矩阵。Q K T QK^T QKT 是一个 d m o d e l × d m o d e l d_{model}×d_{model} dmodel?×dmodel? 的注意力矩阵，每一个元素 ( Q K T ) i j (QK^T)_{ij} (QKT)ij? 表示第 i i i 个词和第 j j j 个词的相联程度，而这种相联程度使用对应词向量的点积进行描述。我们说注意力机制是一种词和词之间的关系，一个词在每个...

阅3 转0 评0 公众公开 24-04-24 22:02

Transformer模型入门详解及代码实现

dec_outputs, dec_self_attns, dec_enc_attns = self.decoder(dec_inputs, enc_inputs, enc_outputs) ## 解码端输出结果到词表的映射 ## dec_outputs做映射到词表大小 dec_logits = self.projection(dec_outputs) # dec_logits : [batch_size x src_vocab_size x tgt_vocab_size] return dec_logits.view(-1, dec_logits.size(-1)), enc_self_a...

阅1 转0 评0 公众公开 24-04-24 22:02

图文详解Transformer（初学者版）

正如上面所提到的，Encoder 接收向量作为输入，这些向量首先传递到Attention layer中，然后再通过FFNN，然后输出向量给下一个编码器来处理。为每个输入Encoder的向量创建三个独特的向量，分别为query向量 Q Q Q,key向量 K K K,value向量 V V V,这些向量是通过词嵌入向量 X X X 乘以三个我们需要训练的三个权重矩阵 W Q W_Q WQ? , W K W_K WK...

阅2 转0 评0 公众公开 24-04-24 22:02

【深度学习|基础算法】快速入门Transformer教程（小白友好向）

然后使用softmax将每个位置上的分数进行归一化，因此最后每个分数都是正的，并且相加等于1，如下图所示：对于每一个特定的位置，其他位置上的单词都会与它有一个softmax处理后的分数，这个分数反映的也是其他位置与这个特定位置的关联程度，很明显自己位置上的分数肯定是最高的，但是其他位置上单词有时也会获得很高的分数，即句子中与这个特...

阅1 转0 评0 公众公开 24-04-24 21:30

《neural network and deep learning》题解——ch02 反向传播

\\ &\text{0} &&σ_{n-1}\\ &&&&σ_n \end{pmatrix} \begin{pmatrix} w1\\ w2\\...\\wn \end{pmatrix}\begin{pmatrix} δ1\\ δ2\\...\\δn \end{pmatrix}= \begin{pmatrix} w1δ1σ1\\ w2δ2σ1\\...\\wnδnσn \end{pmatrix} = δ^l }问题三.\large \color{blue}{ δ_j^l = \frac{?C}{?b^l_j} \frac{?bl_j}{?zl_...

阅1 转0 评0 公众公开 24-04-24 20:26

Gemma模型论文详解（附源码）

dtype, None)def get_config_for_7b() -> GemmaConfig: return GemmaConfig()def get_config_for_2b() -> GemmaConfig: return GemmaConfig( num_hidden_layers=18, num_attention_heads=8, num_key_value_heads=1, hidden_size=2048, intermediate_size=16384 )Module): def __init__( self, config: gemma_config.down_proj = Linear(i...

阅1 转0 评0 公众公开 24-04-23 07:54

梯度下降算法综述背景介绍梯度下降算法最经典的优化算法之一，在最优化领域占据十分重要的地位。随机梯度下降随机梯度下降(Stochastic gradient descent, SGD)与BGD不同，SGD每次更新时仅仅是用一个样本来计算梯度，因此SGD算法单次迭代的复杂度约为，与BGD相比计算效率大大提升，而且SGD适用于在线学习的情形，来一个样本就可以通过SGD更新一...

阅1 转自非著名问天公众公开 24-04-23 07:35

他的文章
他的书籍

筛选

不限类型

网文

撰写

文档

不限 Word PPT Excel RTF PDF TXT

思维导图

相册

音乐

视频

显示摘要不显示摘要

每页10条每页30条每页50条

返回
顶部