php使用结巴分词【中文分词】
分词
php
使用
结巴
中文
seg_list=Jieba
var_dump
seg_list
Jieba
cut
编程技术
发布日期
2022-11-23
更新日期
2023-05-13
阅读次数 139
文章字数 624
使用composer拉取
composer require fukuball/jieba-php:dev-master
示例
<?php
require("app/app_core.php");
ini_set('memory_limit', '1024M');
use FukuballJiebaJieba;
use FukuballJiebaFinalseg;
Jieba::init();
Finalseg::init();
$seg_list = Jieba::cut("怜香惜玉也得要看对象啊!");
var_dump($seg_list);
$seg_list = Jieba::cut("我来到北京清华大学", true);
var_dump($seg_list); #全模式
$seg_list = Jieba::cut("我来到北京清华大学", false);
var_dump($seg_list); #默認精確模式
$seg_list = Jieba::cut("他来到了网易杭研大厦");
var_dump($seg_list);
$seg_list = Jieba::cutForSearch("小明硕士毕业于中国科学院计算所,后在日本京都大学深造"); #搜索引擎模式
var_dump($seg_list);
全模式,会把单词分得太细,比如英文单词,每个都会被分为单个字母
所以在分词时,推荐使用cutForSearch对长单词进行会召,能分得更细致,在搜索时直接匹配cut精确模式就可以了。
另外在英文里,下划线_会被认定为连词符号,也就是例如 0_笔记.xlsx,其中的 0_xlsx 就会被认为是一个词,有需要的话可以先把 _ 替换为空格,再分词。
文章作者: 朱丰华
文章链接: https://smart.52dixiaowo.com/blog/post-209.html
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。
分词
php
使用
结巴
中文
seg_list=Jieba
var_dump
seg_list
Jieba
cut
发表评论
相关推荐