`

Apache Solr 实践(一)solr在Tomcat中部署部署及中文分词配置

    博客分类:
  • Solr
 
阅读更多

之前看过Lucen方面的资料,但是一直没机会使用,也就没深入。当时觉得中文分词效果一直不理想,也尝试过几个开元插件,IK,paoding... 直到去年因项目需要,开始了解Lucen的封装框架Solr,同时实践了中科院分词的Java开元版本imdict-chinese-analyzer ,效果很好。以下是实践的过程,solr版本为4.3.0

第一步按照http://wiki.apache.org/solr/SolrInstall开始搭建开发环境

1、将solr-4.3.0.war拷贝到tomcat/webapps/重命名为solr.war

2、修改solr.war/WEB-INF/web.xml,配置solr/home,将以下片段取消注释

 

    <env-entry>
       <env-entry-name>solr/home</env-entry-name>
       <env-entry-value>E:/SOLR_HOME/solr</env-entry-value>
       <env-entry-type>java.lang.String</env-entry-type>
    </env-entry> 

这里将solr/home配置为E:/SOLR_HOME/solr,其内容拷贝自solr-4.3.0\example\solr

3、拷贝slf4j-api-1.6.6.jar,slf4j-log4j12-1.6.6.jar,log4j-1.2.16.jar,commons-logging-1.0.4.jar到solr.war/WEB-INF/lib目录

 

4、新建solr.war/WEB-INF/classes/目录,新建log4j.properties配置日志

启动tomcat,访问http://localhost/solr/看见solr管理控制台,部署成功。

第二步配置中文分词。

imdict.jar已经集成到solr发布版本中,位于solr-4.3.0\contrib\analysis-extras\lucene-libs包名为lucene-analyzers-smartcn-4.3.0.jar,增加配置即可。

1、修改sole/home/collection1/conf/schema.xml,在types节电下增加如下片段

	<!-- 配置smartcn分词器 -->
	<fieldType name="text_zh" class="solr.TextField"  positionIncrementGap="100">			
			<analyzer type="index">
				<!-- 此处需要配置主要的分词类 -->
				<tokenizer class="org.apache.lucene.analysis.cn.smart.SmartChineseSentenceTokenizerFactory" />
				<filter class="solr.SmartChineseWordTokenFilterFactory" />
			</analyzer>
			<analyzer type="query">
				<!-- 此处配置同上 -->
				<tokenizer class="org.apache.lucene.analysis.cn.smart.SmartChineseSentenceTokenizerFactory" />
				<filter class="solr.SmartChineseWordTokenFilterFactory" />
			</analyzer>		
	</fieldType>

 2、将相关jar拷贝至solr.war/WEB-INF/lib目录下

重新启动Tomcat,访问solr控制台即可看到效果。如图

solr zh

 

 以上solr/home硬编码到程序中,不便维护,也可以通过配置的方式部署,即不拷贝solr.war,新建tomcat/conf/Catalina/localhost/solr.xml内容如下

<?xml version="1.0" encoding="GB2312"?>
<Context docBase="position_of_solr.war" debug="0" crossContext="true">
	<Environment name="solr/home" type="java.lang.String" 
		value="your_solr_home" override="true"/>
</Context>

 

  • 大小: 56.6 KB
分享到:
评论

相关推荐

    Solr3.6 + 中文分词 完整Tomcat工程部署包

    在tomcat的conf文件夹建立Catalina文件夹,然后在Catalina文件夹中在建立localhost文件夹,在该文件夹下面建立 apache-solr-3.6.0.xml 提交搜索资源并建立索引 cd /Volumes/Date/apache-tomcat-7.0.27/webapps/...

    tomcat集成solr服务器以及配置好了中文分词器

    只需要解压然后启动tomcat即可访问solr服务器,需要自行在apache-tomcat-solr-7.0.52\webapps\solr\solrhome\collection1\conf\schema.xml修改适合自己的配置的域即可

    solr中文分词器文件及配置.zip

    tomcat-9.0.20\webapps\solr\WEB-INF\lib下(Tomcat项目里solr项目)其他三个文件放到apache-tomcat-9.0.20\webapps\solr\WEB-INF\classes下(Tomcat项目里solr项目)然后进行ik分词器的配置,编辑cor下路径的...

    solar1.4环境配置

    在X:\Tomcat 6.0\conf\Catalina\localhost下(目录不存在则手工建)创建配置文件solr.xml,内容为…… 4、配置索引数据格式 在X:\solr\solr\conf当中有schema.xml文件,可以配置索引数据格式。 5、运行solr 启动...

    solr&ik;分词器&tomcat;.zip

    内含3个压缩文件,分别是solr-4.10.3.zip, IK Analyzer 2012FF_hf1.zip 和 Apache-tomcat-7.0.81-windows-x64.zip

    Solr相关压缩包.zip

    包含Tomcat8在Linux环境下的压缩包apache-tomcat-8.5.32.tar.gz、中文分词器IKAnalyzer.zip、Solr安装包solr-4.10.3.tar、solrJ.rar四个文件。

    SOLR搭建企业搜索平台

    主要介绍了如和用solr搭建搜索平台的详细步骤,同时对配置文件进行了详细介绍。 运行容器:Tomcat6.0.20 Solr版本:apache-solr-1.4.0 分词器:mmseg4j-1.6.2 词库:sogou-dic

    apache-tomcat8.5.4-solr7-sql-ik-8081

    根据readme说明,更改目录和数据库信息后直接启动tomcat便可运行,分词,SQL数据库导数据配置都已集成

    solr入门学习

    运行容器:Tomcat6.0.20 Solr版本:apache-solr-1.4.0 分词器:mmseg4j-1.6.2 词库:sogou-dic

    solr6.2完整版

    是一个tomcat和solrhome的压缩包,下载后只需要修改一下apache-tomcat-8.5.6\webapps\solr\WEB-INF\web.xml里面的第43行&lt;env-entry-value&gt;D:\solrhome,将目录修改成你自己用来存放solrhome文件夹的路径即可,需要...

    solr7.2搭建环境.zip

    apache-tomcat-8.5.24+ikanalyzer-solr6.5+solr-7.2.0,目前使用docker进行镜像安装,安装参考:https://www.jianshu.com/p/7c4d9d7dcd94

    开源bbs源码java-solr:索尔

    apache-tomcat-8.0.35/webapps/solr/WEB-INF/web.xml 修改 {solr_home} 为clone下来保存在本地的 solr_home 启动tomcat 注意:使用高亮就不要开拼音检索,使用拼音就不要开高亮 案例 源码地址: 索引,查询工具: ...

    IK分词器+tomcat-7.0.47+jdk+sol+zookeepe

    IK分词器+apache-tomcat-7.0.47.tar.gz+jdk-7u55-linux-i586.tar.gz+solr-4.10.3.tgz.tgz+zookeeper-3.4.6.tar.gz

    JAVA上百实例源码以及开源项目

     用JAVA开发的一个小型的目录监视系统,系统会每5秒自动扫描一次需要监视的目录,可以用来监视目录中文件大小及文件增减数目的变化。 Java日期选择控件完整源代码 14个目标文件 内容索引:JAVA源码,系统相关,日历,...

    java开源包1

    JCaptcha4Struts2 是一个 Struts2的插件,用来增加验证码的支持,使用时只需要用一个 JSP 标签 (&lt;jcaptcha:image label="Type the text "/&gt; ) 即可,直接在 struts.xml 中进行配置,使用强大的 JCaptcha来生成验证码...

    java开源包11

    JCaptcha4Struts2 是一个 Struts2的插件,用来增加验证码的支持,使用时只需要用一个 JSP 标签 (&lt;jcaptcha:image label="Type the text "/&gt; ) 即可,直接在 struts.xml 中进行配置,使用强大的 JCaptcha来生成验证码...

    java开源包2

    JCaptcha4Struts2 是一个 Struts2的插件,用来增加验证码的支持,使用时只需要用一个 JSP 标签 (&lt;jcaptcha:image label="Type the text "/&gt; ) 即可,直接在 struts.xml 中进行配置,使用强大的 JCaptcha来生成验证码...

    java开源包3

    JCaptcha4Struts2 是一个 Struts2的插件,用来增加验证码的支持,使用时只需要用一个 JSP 标签 (&lt;jcaptcha:image label="Type the text "/&gt; ) 即可,直接在 struts.xml 中进行配置,使用强大的 JCaptcha来生成验证码...

    java开源包6

    JCaptcha4Struts2 是一个 Struts2的插件,用来增加验证码的支持,使用时只需要用一个 JSP 标签 (&lt;jcaptcha:image label="Type the text "/&gt; ) 即可,直接在 struts.xml 中进行配置,使用强大的 JCaptcha来生成验证码...

    java开源包5

    JCaptcha4Struts2 是一个 Struts2的插件,用来增加验证码的支持,使用时只需要用一个 JSP 标签 (&lt;jcaptcha:image label="Type the text "/&gt; ) 即可,直接在 struts.xml 中进行配置,使用强大的 JCaptcha来生成验证码...

Global site tag (gtag.js) - Google Analytics