中国专利数据库

专利名称:一种新词发现方法和装置

专利申请号201910904945.9
申请日2019.09.24
公开(公告)号CN112632981A
公开(公告)日2021.04.09
主分类号G06F40/289
分案原申请号
分类号G06F40/289 G06F40/295 G06F40/117 G06F16/35 G06F16/36 G06K9/62
优先权
申请(专利权)人北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
地址100086 北京市海淀区知春路76号8层
发明(设计)人张美娜;仲济源;邵佳帅
国际申请
国际公布
进入国家阶段日期
专利代理机构中原信达知识产权代理有限责任公司 11219
代理人王志远
专利类型发明专利
摘要本发明公开了一种新词发现方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:基于词库对待分割字符串进行分词处理;对分词处理后的结果进行BIO标注;使用BIO标注后的结果进行无监督训练,用以获取命名实体识别模型;使用所述命名实体识别模型,预测待预测字符串的BIO标注;根据所述待预测字符串的BIO标注合成词语;对比合成的词语与所述待预测字符串的分词处理结果,用以获取新词。该实施方式避免了获取训练样本时大量打标的问题,基于发现的新词提高了分词处理的准确性以及发现新词的效率。
全文下载下载
©2021 Patent9.com All rights reserved.