Patent9专利在线

当前查询到68条专利与查询词 "蒋泳森"相关，搜索用时0.4375498秒!排序方式：

发明专利：42实用新型: 26外观设计: 0

申请号：201910814977.X 公开号：CN110516806A 主分类号：G06N3/08

申请人：苏州思必驰信息科技有限公司申请日:2019.08.30 公开日：2019.11.29

摘要：本发明公开神经网络参数矩阵的稀疏化方法和装置，其中，一种神经网络参数矩阵的稀疏化方法，包括：在对神经网络参数进行每一轮迭代训练之前，选出所述神经网络参数矩阵中最冗余的多个参数；将所述最冗余的多个参数置0；对置0后的参数进行标记并在之后的迭代训练过程中不再更新标记后的参数。本申请的方法和装置提供的方案通过增量式稀疏化算法，网络最终的稀疏化能够达到80％以上，大大的降低了参数所需的存储空间，提升计算速度，并且因为是增量式的稀疏化算法，每一轮虽然置0了部分权值，但是非0部分还是会参与训练，所以识别的性能不会降低。

详细信息下载全文

2：[发明] 文本内容匹配方法、装置、电子设备及存储介质

申请号：202111016289.2 公开号：CN113724709A 主分类号：G10L15/26

申请人：北京字跳网络技术有限公司申请日:2021.08.31 公开日：2021.11.30

发明人：蒋泳森

摘要：本公开实施例公开了一种文本内容匹配方法、装置、电子设备及存储介质，该方法包括：在采集到待处理语音信息时，确定与待处理语音信息相对应的待处理声学特征；基于音频跟随方法对待处理声学特征进行处理，得到与待处理声学特征相对应的待匹配语句；确定待匹配语句在目标文本中所关联的目标语句，并将目标语句在目标文本中区别显示。本公开实施例的技术方案，解决了现有技术中提词器仅仅起到展示播报文本，无法对用户进行有效提示，导致提示效果不佳的问题，实现了在目标用户播报的过程中，采集播报用户的语音信息，并根据语音信息确定其在播报文本中的具体位置，并将其区别显示在提词器上，达到了提词器可以智能跟随播报用户的技术效果。

详细信息下载全文

3：[发明] 一种神经网络模型的获取方法及装置

申请号：202111248541.2 公开号：CN116029353A 主分类号：G06N3/08

申请人：北京字跳网络技术有限公司申请日:2021.10.26 公开日：2023.04.28

发明人：蒋泳森

摘要：本发明实施例提供了一种神经网络模型的获取方法及装置，涉及神经网络模型技术领域。该方法包括：构建目标神经网络模型的初始网络模型，初始网络模型包括多个位宽为第一位宽的模型参数；将初始网络模型作为初始输入进行n轮模型参数量化；第m轮模型参数量化包括：基于样本数据对第m‑1轮的量化结果进行训练，获取第m轮的中间模型，以及将第m轮的中间模型的模型参数中符合预设条件的模型参数的位宽转换为第二位宽，获取第m轮模的量化结果；n、m均为大于1的整数，且n≥m；第二位宽小于第一位宽；获取第n轮的量化结果作为目标神经网络模型。本发明实施例用于在避免严重影响神经网络模型精度的同时减少神经网络模型占用的磁盘空间。

详细信息下载全文

4：[发明] 一种关键词检测方法、装置、电子设备和存储介质

申请号：202111664577.9 公开号：CN116416981A 主分类号：G10L15/22

申请人：北京字跳网络技术有限公司申请日:2021.12.31 公开日：2023.07.11

发明人：蒋泳森

摘要：本公开实施例公开了一种关键词检测方法、装置、电子设备和存储介质，该方法包括：对于目标音频中的目标音频片段，确定所述目标音频片段中的目标音频帧对应目标字符单元的第一概率，所述目标字符单元为预设关键词所包括的字符单元，所述目标音频帧在所述目标音频片段中的位置与所述目标字符单元在所述预设关键词中的位置相对应；根据所述第一概率确定所述目标音频片段对应所述预设关键词的第二概率，所述第二概率表示所述目标音频片段中的各音频帧按顺序分别为所述预设关键词中各字符单元的概率；根据所述第二概率确定所述目标音频片段是否为所述预设关键词的语音片段。实现了对音频片段中预设关键词的检测。

详细信息下载全文

5：[发明] 一种语音识别方法、装置、电子设备和存储介质

申请号：202210426886.0 公开号：CN116994572A 主分类号：G10L15/16

申请人：北京字跳网络技术有限公司申请日:2022.04.21 公开日：2023.11.03

发明人：蒋泳森

摘要：本公开实施例公开了一种语音识别方法、装置、电子设备和存储介质，该方法包括：将待识别语音片段输入至长短时记忆LSTM模型；通过所述LSTM模型对所述待识别语音片段进行处理，获得语音识别结果；其中，所述LSTM模型包括至少一个处理层，各所述处理层分别包括多个处理单元，各所述处理单元基于对应单元的输入数据集和目标时刻之前的历史状态数据集通过两个一重循环确定对应单元目标时刻的输出量。本公开达到了降低运算量、提高运算速度以及语音识别效率的目的。

详细信息下载全文

6：[发明] 一种用于语音识别的方法和设备

申请号：202210766769.9 公开号：CN117373458A 主分类号：G10L15/26

申请人：抖音视界（北京）有限公司申请日:2022.06.30 公开日：2024.01.09

发明人：蒋泳森

摘要：一种用于语音识别的方法和设备，该方法包括：获取待识别的语音；将语音输入至解码器，以输出符合自然语言的文本，其中，解码器包括声学模型、发音词典以及语言模型；其中，语言模型包括基础语言模型和至少一个关键词语言模型，基础语言模型所使用的第一训练语料中包括至少一个关键词类别标志；至少一个关键词语言模型是分别对至少一个第二训练语料进行训练生成的，至少一个第二训练语料与至少一个关键词类别标志一一对应；语言模型用于在基础语言模型输出关键词类别标志的情况下，调用关键词类别标志对应的关键词语言模型搜索并返回对应的关键词。该方法能够提高训练和识别关键词的效率，减少资源占用和时间成本。

详细信息下载全文

7：[发明] 用于量化神经网络模型的方法、装置、计算设备和介质

申请号：202210910943.2 公开号：CN117540778A 主分类号：G06N3/0495

申请人：抖音视界有限公司申请日:2022.07.29 公开日：2024.02.09

发明人：蒋泳森

摘要：本公开的实施例涉及用于量化神经网络模型的方法、装置、计算设备和介质。方法包括基于训练数据集对神经网络模型进行更新，将经更新的神经网络模型的第一部分的第一组参数调整到第一范围内，并且将经更新的神经网络模型的第二部分的第二组参数调整到第二范围内，第二范围的大小超过第一范围的大小。方法还包括使用第一数目的位来量化经调整的第一组参数。方法还包括使用第二数目的位来量化经调整的第二组参数，第二数目大于第一数目。基于这种方式，结合训练过程对神经网络模型的参数进行差异化的量化，在保持参数精度和模型性能的情况下，提高了神经网络模型的压缩效率和执行效率。

详细信息下载全文

8：[发明] 数据处理方法、装置及电子设备

申请号：202211649330.4 公开号：CN118233645A 主分类号：H04N19/42

申请人：抖音视界有限公司申请日:2022.12.20 公开日：2024.06.21

发明人：蒋泳森

摘要：本公开提供一种数据处理方法、装置及电子设备，该方法包括：获取2N个压缩数据、以及所述2N个压缩数据相关联的2N个压缩权重，压缩数据的位宽为压缩权重的位宽的2倍，所述N为正整数；将所述2N个压缩权重交叉存储至第一寄存器，将所述2N个压缩数据中的前N个压缩数据存储至第二寄存器，以及将所述2N个压缩数据中的后N个压缩数据存储至第三寄存器；对所述第一寄存器、所述第二寄存器和所述第三寄存器中的数据进行解压缩，得到所述2N个压缩数据对应的解压缩数据。节约电子设备的内存，提高数据解压的准确度。

详细信息下载全文

9：[发明] 文本校验方法、装置、电子设备和存储介质

申请号：202311348363.X 公开号：CN119851654A 主分类号：G10L15/01

申请人：北京字跳网络技术有限公司申请日:2023.10.17 公开日：2025.04.18

发明人：蒋泳森

摘要：本公开实施例提供了一种文本校验方法、装置、电子设备和存储介质，其中方法包括：获取第一文本和对所述第一文本进行音频转换后得到的第一音频数据；将所述第一音频数据转换为第二文本；获取所述第一文本的去掉声调的第一拼音序列和所述第二文本的去掉声调的第二拼音序列；根据所述第一文本、所述第二文本、所述第一拼音序列和所述第二拼音序列，识别音频转换错误的第一文本；所述音频转换错误的第一文本所对应的所述第一音频数据与所述音频转换错误的第一文本相比具有多读、少读、错读中的至少一种。

详细信息下载全文

10：[发明] 一种音素序列标注方法、装置、设备及存储介质

申请号：202311694942.X 公开号：CN120148480A 主分类号：G10L15/02

申请人：北京字跳网络技术有限公司申请日:2023.12.11 公开日：2025.06.13

发明人：蒋泳森

摘要：本公开提供了一种音素序列标注方法、装置、设备及存储介质，所述方法包括：首先，获取目标音频文本对，然后，将目标音频文本中的目标音频片段和目标文本片段输入至经过训练的音素序列标注模型中，经过音素序列标注模型的处理后，得到目标音频文本对的目标音素序列。其中，目标音素序列中包括具有时间顺序关系的音素，目标音素序列中的第一音素在音素序列标注模型中采用第一拓扑结构表示，第一拓扑结构包括具有时间顺序关系的预设第一数量的状态，各个状态分别配置有用于表征发音持续时长的时间参数。

详细信息下载全文

共 42 条，当前第 1-10 条　下一页　最后一页　返回搜索页