折纸SEO SEO优化 java如何用lucene+nutch搭建漫衍式搜索引擎?

java如何用lucene+nutch搭建漫衍式搜索引擎?

1.可以用lucene,lucene现在已经生长到1.9.1版了,相当稳固,网上中英文资源很厚实,甚至关于这个…

java如何用lucene+nutch搭建漫衍式搜索引擎?

1.可以用lucene,lucene现在已经生长到1.9.1版了,相当稳固,网上中英文资源很厚实,甚至关于这个工具包的书(lucene in action)都有了.若是只是做站内搜索,可以直接从读数据库中读数据,挪用lucene做索引.再写一个前台查询界面,挪用lucene查询索引并在前台显示效果.

想一点程序都不写的话可以参考下面2个方案

2.用heritrix + nutchwax,heritrix也是一个很成熟的crawler,他将网页下载并压缩保留到arc花样的文件中,一个arc文件一样平常100兆左右,heritrix不剖析提取网页的内容,nutchwax认真剖析网页,提取内容并建索引,nutchwax提供检索界面.瑕玷是nutchwax的安装很穷苦.

3.用nutch,一个超强的开源软件,作者就是lucene的作者,该软件的目的是做到和Google一样壮大,nutch的许多漫衍式实现的头脑泉源于Google,现在已实现漫衍式crawler,和漫衍式检索,已经有人用他抓了几亿的网页,nutch功效包罗了下载网页,剖析网页,盘算网页主要度,建索引,前台搜索等一个搜索引擎需要的绝大部门功效,用他来做站内搜索也很利便.该软件支持中文. nutch现在稳固的版本是0.7.2 用该软件的瑕玷是网上的中文资料不多.你要习惯看英文资料

搜索引擎的使用方法

本文来自网络,不代表折纸SEO立场,转载请注明出处:https://www.30th-feb.com/5554

作者: DAR_KING

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

在线咨询: QQ交谈

邮箱: luckiestmjt@163.com

工作时间:周一至周五,9:00-17:30,节假日休息

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部