网上已有不少教程了。
http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html
http://blog.sina.com.cn/s/blog_4c9d7da201013wv2.html
这里只说两点:
- dic文件要用 “无dom的UTF-8”格式编码
- dic文件最好是放在项目的src文件夹下。
我的一个范例截图
对应的IKAnalyzer.cfg.xml文件设置如下:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典 -->
<entry key="ext_dict">./dic/scut.dic;</entry>
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords">./dic/stopword.dic;</entry>
</properties>
分享到:
相关推荐
IKAnalyzer配置文件、扩展词典和停用词词典.zip
Ikanalyzer分词器动态自定义词库的方法.doc
3. IKAnalyzer.cfg.xml(分词器扩展配置文件) 4. stopword.dic(停止词典) 5. LICENSE.TXT ; NOTICE.TXT (apache版权申明) 它的安装部署十分简单,将 IKAnalyzer2012.jar 部署于项目的 lib 目录中; IK...
近期整理的IKAnalyzer中文停用词列表,大约有2000多个词,希望可以帮到大家,下载希望给个好评,谢谢
关于IKAnalyzer3.2.8扩展词典配置的个人心得和意见,希望对大家有参考价值
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。
使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IKAnalyzer2012_u6.jar solr-4.10.3下载地址:...
-a---- 2017/10/29 1:41 866397 IKAnalyzer中文分词器V2012使用手册.pdf -a---- 2017/10/29 1:41 17778 LICENSE.txt -a---- 2017/10/29 1:41 278 NOTICE.txt -a---- 2017/10/29 1:41 161 stopword.dic
中文分词库 IKAnalyzer
IKAnalyzer 非常不错的分词器,JAVA版本
IKAnalyzer中文分词器V3.1.1使用手册 IKAnalyzer中文分词器V3.1.1使用手册
解决lucene4.0与IKAnalyzer的冲突。解决Exception in thread "main" java.lang.VerifyError...原因IKAnalyzer中参考手册中的例子是使用的lucene3.4,与4.0已经是不兼容了。本资源包含了IKAnalyzer2012_FF_hf1.jar及源码
IKAnalyzer2012_u6
IKAnalyzer2012.jar 中文分词包
IKAnalyzer继承Lucene的Analyzer抽象类,使用IKAnalyzer和Lucene自带的分析器方法一样,将Analyzer测试代码改为IKAnalyzer测试中文分词效果。 如果使用中文分词器ik-analyzer,就需要在索引和搜索程序中使用一致的...
IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包
网上的包基本都没有智能分词了,下载下来基本也是缺的,此包已经包含智能分词,并附上相应的IKAnalyzer源码包,可以自行修改相关字典
IkAnalyzer3.2的jar包 IK Analyzer 是一个开源的,基于java 语言开发的轻量级的中文分词工具包。从2006 年12 月推出1.0 版开始, IKAnalyzer 已经推出了3 个大版本。最初,它是以开源项目 Luence 为应用主体的,结合...
从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开始,IK发展为面向Java的公用分词组件,独立于Lucene...
3. IKAnalyzer.cfg.xml(分词器扩展配置文件) 4. ext_stopword.dic(扩展的stopword词典,3.2以上版本提供) 它的安装部署十分简单,将IKAnalyzer3.X.jar部署于项目的lib目录中;IKAnalyzer.cfg.xml 与 ext_...