快捷搜索:  汽车  科技

神经网络数字识别的完整代码(时间延迟网络TDNN)

神经网络数字识别的完整代码(时间延迟网络TDNN)2、Sigmoid:sigmoid函数也叫Logistic函数,用于隐层神经元输出,取值范围为(0 1),它可以将一个实数映射到(0 1)的区间,可以用来做二分类。在特征相差比较复杂或是相差不是特别大时效果比较好。列表中数字的含义为:(卷积核尺寸)×卷积核通道(与输入数据通道数相同)×卷积核个数。TDNN的输出层和两个卷积层均使用Sigmoid函数(见名词2)作为激励函数。除上述原始版本外,TDNN的后续研究中出现了应用于字符识别和物体识别的算法,其工作方式是将空间在通道维度展开并使用时间上的一维卷积核,即时间延迟进行学习。名词:1、FFT:FFT是一种DFT的高效算法,称为快速傅立叶变换(fast Fourier transform)。傅里叶变换是时域一频域变换分析中最基本的方法之一。

TDNN(见结构图1)是一类应用于语音识别问题的一维卷积神经网络,也是历史上最早被提出的卷积神经网络算法之一。这里以TDNN的原始版本Waibel et al. (1987)为例进行介绍。

TDNN的学习目标为对FFT变换(见名词1解释)的3个语音音节/b d g/进行分类,其隐含层完全由单位步长,无填充的卷积层组成 。在文献中,TDNN的卷积核尺寸使用“延迟(delay)”表述,由尺寸为3的一维卷积核构成的隐含层被定义为“时间延迟为2的隐含层”,即感受野包含无延迟输入和2个延迟输入。

在此基础上,TDNN有两个卷积层,时间延迟分别为2和4,神经网络中每个输入信号与8个隐含层神经元相连 。TDNN没有全连接层,而是将尾端卷积层的输出直接相加通过激励函数得到分类结果。按原作,输入TDNN的预处理数据为15个10毫秒采样的样本(frame),每个样本包含16个通道参数(filterbank coefficients),此时TDNN的结构如下 :

神经网络数字识别的完整代码(时间延迟网络TDNN)(1)

TDNN结构图1

  1. (3)×16×8的卷积层(步长为1,无填充,Sigmoid函数)
  2. (5)×8×3的卷积层(步长为1,无填充,Sigmoid函数)
  3. 对9×3的特征图求和输出

列表中数字的含义为:(卷积核尺寸)×卷积核通道(与输入数据通道数相同)×卷积核个数。TDNN的输出层和两个卷积层均使用Sigmoid函数(见名词2)作为激励函数。除上述原始版本外,TDNN的后续研究中出现了应用于字符识别和物体识别的算法,其工作方式是将空间在通道维度展开并使用时间上的一维卷积核,即时间延迟进行学习。

名词:

1、FFT:FFT是一种DFT的高效算法,称为快速傅立叶变换(fast Fourier transform)。傅里叶变换是时域一频域变换分析中最基本的方法之一。

2、Sigmoid:sigmoid函数也叫Logistic函数,用于隐层神经元输出,取值范围为(0 1),它可以将一个实数映射到(0 1)的区间,可以用来做二分类。在特征相差比较复杂或是相差不是特别大时效果比较好。

猜您喜欢: