Python 结巴分词(jieba)的延迟加载机制及示例代码

本文主要介绍Python中，使用结巴分词(jieba)时，结巴分词(jieba)的延迟加载机制，以及相关的示例代码。

1､延迟加载机制

jieba 采用延迟加载，import jieba 和 jieba.Tokenizer() 不会立即触发词典的加载，一旦有必要才开始加载词典构建前缀字典。如果你想手工初始 jieba，也可以手动初始化。

import jieba
jieba.initialize()  # 手动初始化（可选）

在 0.28 之前的版本是不能指定主词典的路径的，有了延迟加载机制后，你可以改变主词典的路径:

jieba.set_dictionary('data/dict.txt.big')

2､使用示例

#encoding=utf-8from __future__ import print_functionimport syssys.path.append("../")import jiebadef cuttest(test_sent):    result = jieba.cut(test_sent)    print("  ".join(result))def testcase():    cuttest("这是一个伸手不见五指的黑夜。我叫孙悟空，我爱北京，我爱Python和C++。")    cuttest("我不喜欢日本和服。")    cuttest("雷猴回归人间。")    cuttest("工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作")    cuttest("我需要廉租房")    cuttest("永和服装饰品有限公司")    cuttest("我爱北京天安门")    cuttest("abc")    cuttest("隐马尔可夫")    cuttest("雷猴是个好网站")if __name__ == "__main__":    testcase()    jieba.set_dictionary("foobar.txt")    print("================================")    testcase()

官方文档：https://github.com/fxsjy/jieba