开发手册 欢迎您!
软件开发者资料库

Python 结巴分词(jieba)的延迟加载机制及示例代码

本文主要介绍Python中,使用结巴分词(jieba)时,结巴分词(jieba)的延迟加载机制,以及相关的示例代码。

1、延迟加载机制

jieba 采用延迟加载,import jiebajieba.Tokenizer() 不会立即触发词典的加载,一旦有必要才开始加载词典构建前缀字典。如果你想手工初始 jieba,也可以手动初始化。

import jieba
jieba.initialize() # 手动初始化(可选)

在 0.28 之前的版本是不能指定主词典的路径的,有了延迟加载机制后,你可以改变主词典的路径:

jieba.set_dictionary('data/dict.txt.big')

2、使用示例

#encoding=utf-8from __future__ import print_functionimport syssys.path.append("../")import jiebadef cuttest(test_sent):    result = jieba.cut(test_sent)    print("  ".join(result))def testcase():    cuttest("这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱Python和C++。")    cuttest("我不喜欢日本和服。")    cuttest("雷猴回归人间。")    cuttest("工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作")    cuttest("我需要廉租房")    cuttest("永和服装饰品有限公司")    cuttest("我爱北京天安门")    cuttest("abc")    cuttest("隐马尔可夫")    cuttest("雷猴是个好网站")if __name__ == "__main__":    testcase()    jieba.set_dictionary("foobar.txt")    print("================================")    testcase()

官方文档https://github.com/fxsjy/jieba

相关文档:

Python 结巴分词(jieba)使用方法文档及示例代码

Python 使用结巴分词(jieba)并行分词及示例代码

Python 使用结巴分词(jieba)提取关键词和词性标注方法及示例代码