php使用结巴分词【中文分词】

分词 php 使用 结巴 中文 seg_list=Jieba var_dump seg_list Jieba cut 编程技术
发布日期 2022-11-23 更新日期 2023-05-13 阅读次数 139 文章字数 624

使用composer拉取

composer require fukuball/jieba-php:dev-master

示例

<?php


require("app/app_core.php");


ini_set('memory_limit', '1024M');


use FukuballJiebaJieba;
use FukuballJiebaFinalseg;
Jieba::init();
Finalseg::init();

$seg_list = Jieba::cut("怜香惜玉也得要看对象啊!");
var_dump($seg_list);

$seg_list = Jieba::cut("我来到北京清华大学", true);
var_dump($seg_list); #全模式

$seg_list = Jieba::cut("我来到北京清华大学", false);
var_dump($seg_list); #默認精確模式

$seg_list = Jieba::cut("他来到了网易杭研大厦");
var_dump($seg_list);

$seg_list = Jieba::cutForSearch("小明硕士毕业于中国科学院计算所,后在日本京都大学深造"); #搜索引擎模式
var_dump($seg_list);

全模式,会把单词分得太细,比如英文单词,每个都会被分为单个字母

所以在分词时,推荐使用cutForSearch对长单词进行会召,能分得更细致,在搜索时直接匹配cut精确模式就可以了。

另外在英文里,下划线_会被认定为连词符号,也就是例如 0_笔记.xlsx,其中的 0_xlsx 就会被认为是一个词,有需要的话可以先把 _ 替换为空格,再分词。


文章作者: 朱丰华

文章链接: https://smart.52dixiaowo.com/blog/post-209.html

版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。

分词 php 使用 结巴 中文 seg_list=Jieba var_dump seg_list Jieba cut

发表评论

相关推荐
朱丰华   |   1周前   |   sql · mysql · 字节 · 字符

mysql常用字段类型详解

44    评论    点赞
朱丰华   |   9个月前   |   php

php判断是否被iframe

247    评论    点赞
朱丰华   |   1年前   |   php

php正则表达式定界符:异常Delimiter must not be alphanumeric or backslash

201    评论    点赞
朱丰华   |   1年前   |   php · 缓存 · opcache

php 加速、提高并发opcache

223    评论    点赞
朱丰华   |   1年前   |   正则 · 表达

正则表达式,实现if...then...else

128    评论    点赞
朱丰华   |   1年前   |   sql · php

PHP如何使用PDO批量执行SQL?

131    评论    点赞
朱丰华   |   1年前   |   php · 字符 · 字符串

如何在 PHP 中将字符串的第一个字母转换为大写

165    评论    点赞
朱丰华   |   1年前   |   php · 字符 · 正则

php正则表达式原生字符

95    评论    点赞
朱丰华   |   1年前   |   字符 · php · 比较

PHP比较字符串大小相关函数

120    评论    点赞
朱丰华   |   1年前   |   php

windows下编写、编译php扩展

177    评论    点赞
朱丰华   |   1年前   |   linux · php

linux下编写、编译php扩展

161    评论    点赞
朱丰华   |   1年前   |   php · 混淆 · obfuscate · git

yakpro-po混淆php代码

115    评论    点赞
朱丰华   |   1年前   |   php

php扩展编译nts的方法

97    评论    点赞
朱丰华   |   1年前   |   linux · 变量 · 环境

linux查看环境变量、设置环境变量

102    评论    点赞
朱丰华   |   1年前   |   js · php · 字符 · 字符串

php json_encode对字符串转义用法

144    评论    点赞
朱丰华   |   1年前   |   php · 捕获

php Fatal error怎么捕获

137    评论    点赞
朱丰华   |   1年前   |   php · 编译

ubuntu、centos系统从源码编译指定版本php--超详细

168    评论    点赞
朱丰华   |   1年前   |   php · git · 编译

从源码编译php

143    评论    点赞
朱丰华   |   1年前   |   php · zend · 反射 · api

php zend引擎api接口:ZENDAPI阅读,反射调用示例

134    评论    点赞
朱丰华   |   1年前   |   php · 引用 · 变量 · c语言

php扩展内存管理与引用计数

139    评论    点赞
{{item.author_name}}   |   {{new Date(item.date*1000).log()}}   |   {{it}} ·

{{item.title}}

{{item.uv}}    评论    点赞