php使用结巴分词【中文分词】
                        
                                                            分词
                                                            php
                                                            使用
                                                            结巴
                                                            中文
                                                            seg_list=Jieba
                                                            var_dump
                                                            seg_list
                                                            Jieba
                                                            cut
                                                    
                         编程技术
                    
                    
                        
                             发布日期
                            2022-11-23 
                        
                        
                             更新日期
                            2023-05-13 
                        
                        
                             阅读次数 228
                        
                        
                             文章字数 624
                        
                    
                使用composer拉取
composer require fukuball/jieba-php:dev-master
示例
<?php
require("app/app_core.php");
ini_set('memory_limit', '1024M');
use FukuballJiebaJieba;
use FukuballJiebaFinalseg;
Jieba::init();
Finalseg::init();
$seg_list = Jieba::cut("怜香惜玉也得要看对象啊!");
var_dump($seg_list);
$seg_list = Jieba::cut("我来到北京清华大学", true);
var_dump($seg_list); #全模式
$seg_list = Jieba::cut("我来到北京清华大学", false);
var_dump($seg_list); #默認精確模式
$seg_list = Jieba::cut("他来到了网易杭研大厦");
var_dump($seg_list);
$seg_list = Jieba::cutForSearch("小明硕士毕业于中国科学院计算所,后在日本京都大学深造"); #搜索引擎模式
var_dump($seg_list);
全模式,会把单词分得太细,比如英文单词,每个都会被分为单个字母
所以在分词时,推荐使用cutForSearch对长单词进行会召,能分得更细致,在搜索时直接匹配cut精确模式就可以了。
另外在英文里,下划线_会被认定为连词符号,也就是例如 0_笔记.xlsx,其中的 0_xlsx 就会被认为是一个词,有需要的话可以先把 _ 替换为空格,再分词。
文章作者: 朱丰华
文章链接: https://smart.52dixiaowo.com/blog/post-209.html
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。
                
                                            分词
                                            php
                                            使用
                                            结巴
                                            中文
                                            seg_list=Jieba
                                            var_dump
                                            seg_list
                                            Jieba
                                            cut
                                    
                
                    
                    
                    
                    
                
            
            发表评论
相关推荐