Patent9 专利在线
高级搜索 ▼
申请号或专利号
公开号
专利名称
专利摘要
申请人
发明人
全部专利
发明专利
实用新型专利
外观设计专利
高级搜索 - 多字段组合检索
+ 增加条件
查询语句:
(请输入搜索条件)
普通搜索
当前查询到
233
条专利与查询词 "
李索恒
"相关,搜索用时1.6562539秒!
排序方式:
按相关度排序
按申请日升序↑
按申请日降序↓
按公开日升序↑
按公开日降序↓
发明专利:
148
实用新型:
82
外观设计:
3
共
148
条,当前第
1-10
条
下一页
最后一页
返回搜索页
1:
[发明]
一种结合语音识别的实时人脸轨迹跟踪方法及装置
申请号:
201910818913.7
公开号:CN110517295A 主分类号:G06T7/246
申请人:
上海依图信息技术有限公司
申请日:2019.08.30 公开日:2019.11.29
发明人:
汪俊
;
李索恒
;
张志齐
摘要:本发明涉及通信技术领域,特别涉及一种结合语音识别的实时人脸轨迹跟踪方法及装置。该方法为:将第二时段采集的音频信号进行语音识别,确定第三说话对象及所述第三说话对象对应的音频帧;在确定所述第三说话对象为已关联对象时,将所述第二时段采集的视频信号的图像帧与所述已关联对象的人脸图像进行匹配,从所述第二时段采集的视频信号中确定包含所述已关联对象的图像帧;所述已关联对象的人脸图像是通过所述第一时段采集的视频信号得到的;确定所述第三说话对象对应的音频帧与所述第二时段采集的包含所述已关联对象的图像帧的所述对应关系。
详细信息
下载全文
2:
[发明]
一种结合语音识别的身体轨迹实时跟踪方法及装置
申请号:
201910818930.0
公开号:CN110516755A 主分类号:G06K9/62
申请人:
上海依图信息技术有限公司
申请日:2019.08.30 公开日:2019.11.29
发明人:
汪俊
;
李索恒
;
张志齐
摘要:本发明涉及通信技术领域,特别涉及一种结合语音识别的身体轨迹实时跟踪方法及装置。该方法为:将第二时段采集的音频信号进行语音识别,确定第五说话对象及所述第五说话对象对应的音频帧;在确定所述第五说话对象为已关联对象时,将所述第二时段采集的视频信号的图像帧与所述已关联对象的身体图像进行匹配,从所述第二时段采集的视频信号中确定包含所述已关联对象的图像帧;所述已关联对象是根据第一时段采集的音频信号和第一时段采集的视频信号建立的对应关系中指示的对象;确定所述第五说话对象对应的音频帧与所述第二时段采集的包含所述已关联对象的图像帧之间的所述对应关系。
详细信息
下载全文
3:
[发明]
一种基于图像去噪的语音识别方法及装置
申请号:
201910818956.5
公开号:CN110503957A 主分类号:G10L15/25
申请人:
上海依图信息技术有限公司
申请日:2019.08.30 公开日:2019.11.26
发明人:
李索恒
;
汪俊
;
郑达
;
张志齐
摘要:本发明涉及通信技术领域,特别涉及一种基于图像去噪的语音识别方法及装置。该方法为:获取第一时段采集的音频信号;将所述第一时段采集的视频信号进行人脸识别,确定包含说话对象的图像帧;所述说话对象为根据所述视频信号中的图像帧中同一人脸的唇动特征确定的;将所述包含说话对象的图像帧与所述第一时段采集的音频信号进行帧对齐;将帧对齐后的所述包含说话对象的图像帧与所述第一时段采集的音频信号输入至语音识别模型中,确定所述说话对象的语音识别结果。
详细信息
下载全文
4:
[发明]
一种去噪的语音识别方法及装置
申请号:
201910817758.7
公开号:CN110544479A 主分类号:G10L15/25
申请人:
上海依图信息技术有限公司
申请日:2019.08.30 公开日:2019.12.06
发明人:
李索恒
;
汪俊
;
郑达
;
张志齐
摘要:本发明涉及通信技术领域,特别涉及一种去噪的语音识别方法及装置。该方法为:获取第一时段采集的音频信号;将所述第一时段采集的视频信号进行人脸识别,确定包含说话对象的图像帧;所述说话对象为根据所述视频信号中的图像帧中同一人脸的唇动特征确定的;根据所述包含说话对象的图像帧确定所述图像帧中说话对象的唇语特征;将所述包含说话对象的图像帧、所述图像帧中说话对象的唇语特征与所述第一时段采集的音频信号进行帧对齐;将帧对齐后所述包含说话对象的图像帧、所述图像帧中说话对象的唇语特征及所述第一时段采集的音频信号输入至语音识别模型中,确定所述说话对象的语音识别结果。
详细信息
下载全文
5:
[发明]
一种实时关联说话人及其语音识别结果的方法及装置
申请号:
201910817760.4
公开号:CN110544491A 主分类号:G10L25/57
申请人:
上海依图信息技术有限公司
申请日:2019.08.30 公开日:2019.12.06
发明人:
汪俊
;
李索恒
;
张志齐
摘要:本发明涉及通信技术领域,特别涉及一种实时关联说话人及其语音识别结果的方法及装置。该方法为:将第一时段采集的音频信号进行语音识别,确定第一说话对象及所述第一说话对象对应的音频帧;将所述第一时段采集的视频信号进行人脸识别,确定第二说话对象及所述第二说话对象对应的图像帧;所述第二说话对象是根据所述视频信号的图像帧中同一人脸的唇动特征确定的;确定所述第一说话对象对应的音频帧与所述第二说话对象对应的图像帧的对应关系;所述对应关系用于指示具有对应关系的音频帧和图像帧是针对同一对象的。
详细信息
下载全文
6:
[发明]
一种基于定位去噪的语音识别方法及装置
申请号:
201910817769.5
公开号:CN110545396A 主分类号:H04N7/15
申请人:
上海依图信息技术有限公司
申请日:2019.08.30 公开日:2019.12.06
发明人:
李索恒
;
汪俊
;
郑达
;
张志齐
摘要:本发明涉及通信技术领域,特别涉及一种基于定位去噪的语音识别方法及装置。该方法为:获取第一时段采集的音频信号;从所述第一时段采集的视频信号中确定包含说话对象的图像帧;所述说话对象为根据所述视频信号中同一人脸的唇动特征及所述音频信号中的声源位置信息确定的;将所述包含说话对象的图像帧与所述第一时段采集的音频信号进行帧对齐;将帧对齐后的所述包含说话对象的图像帧与所述第一时段采集的音频信号输入至语音识别模型中,确定所述说话对象的语音识别结果。
详细信息
下载全文
7:
[发明]
结合语音识别且实时预测人脸追踪轨迹方法及装置
申请号:
201910817876.8
公开号:CN110544270A 主分类号:G06T7/246
申请人:
上海依图信息技术有限公司
申请日:2019.08.30 公开日:2019.12.06
发明人:
汪俊
;
李索恒
;
张志齐
摘要:本发明涉及通信技术领域,特别涉及结合语音识别且实时预测人脸追踪轨迹方法及装置。该方法为:将第二时段采集的音频信号进行语音识别,确定第四说话对象及所述第四说话对象对应的音频帧;在确定所述第四说话对象为已关联对象时,根据所述已关联对象在第一时段的图像帧中的位置,预测所述已关联对象在所述第二时段采集的视频信号中的预测位置;针对所述第二时段采集的视频信号的任一图像帧,将所述图像帧中所述预测位置对应的图像与所述已关联对象的人脸图像进行匹配,确定包含所述已关联对象的图像帧;确定所述第四说话对象对应的音频帧与所述第二时段采集的包含所述已关联对象的图像帧之间的所述对应关系。
详细信息
下载全文
8:
[发明]
结合麦克风声源角度和语音特征相似度分离说话人的方法
申请号:
201910908195.2
公开号:CN110491411A 主分类号:G10L21/0272
申请人:
上海依图信息技术有限公司
申请日:2019.09.25 公开日:2019.11.22
发明人:
汪俊
;
李索恒
;
张志齐
摘要:本发明公开了一种结合麦克风声源角度和语音特征相似度分离说话人的方法,该方法的步骤包括:实时计算麦克风声源信号相对于麦克风的角度变化率;根据麦克风输入的语音信号的特征相似度实时计算说话人的概率变化值;结合所述角度变化率和概率变化值,实时判定说话人是否发生变化。本发明通过将麦克风声源信号角度和语音信号相结合进行说话人分离,不仅提高了说话人分离的灵活度和准确度,而且减少了说话人分离的限制条件。
详细信息
下载全文
9:
[发明]
一种基于会议概要提升会议转写性能的方法与系统
申请号:
201910905601.X
公开号:CN110648666A 主分类号:G10L15/26
申请人:
上海依图信息技术有限公司
申请日:2019.09.24 公开日:2020.01.03
发明人:
汪俊
;
李索恒
;
张志齐
摘要:本发明公开了一种基于会议概要提升会议转写性能的方法与系统,通过对会议进行语音的获取并将语音翻译为文本,摘取其中一段语音与一段文本并进行编码分别得到各时刻的隐态,再进行Attention处理,基于相似度矩阵获取相关性矩阵,计算相似度记,选取相关性矩阵中最大值并对其进行softmax归一化;最后得到拼接矩阵;根据拼接矩阵经过Decoder与softmax归一化得到与输入音频对应的文本输出结果,只需采集语音,因此在复杂场景下也能够正常的使用,提高专有名词的获取准确度,提高转写结果上下文衔接度,无需进行二次整体,便于进行查找与使用。
详细信息
下载全文
10:
[发明]
一种语音识别数据扩充方法与系统
申请号:
202010235000.5
公开号:CN111354346A 主分类号:G10L15/06
申请人:
上海依图信息技术有限公司
申请日:2020.03.30 公开日:2020.06.30
发明人:
郑达
;
李索恒
;
张志齐
摘要:本发明公开了一种语音识别数据扩充方法与系统,方法包括:将音频进行处理得到一个或多个分段语音;对每个分段语音进行特征抽取得到语音特征;将语音特征进行整合得到特征库;在特征库中抽取语音特征进行拼接形成新音频;输出新音频;系统包括:音频处理单元,用于对音频进行处理,生成一个或多个分段语音;语音处理单元,用于对一个或多个分段语音进行分别的特征抽取,得到语音特征;特征库单元,用于接收语音特征并进行存储形成特征库;抽取特征单元,用于抽取特征库中的语音特征;语音拼接单元,用于将抽取的多个语音特征进行拼接形成新音频;音频输出单元,用于输出新音频。
详细信息
下载全文
共
148
条,当前第
1-10
条
下一页
最后一页
返回搜索页