博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
七、 基于Nutch主题搜索引擎方案设计
阅读量:4168 次
发布时间:2019-05-26

本文共 677 字,大约阅读时间需要 2 分钟。

主题搜索引擎

主题搜索引模块设计

7.2.1 系统组成

7.2.2 主题确立模块

7.2.3 优化初始种子模块

7.2.4 主题相关度分析模块

7.2.5 排序模块

Yahoo API
简介

基于Nutch主题搜索引擎方案

Nutch是基于lucene技术的,可能是最好的,并且可以在Apache许可下获得。它提供了一个完整的搜索引擎服务,用java语言完成,提供了一个合适的基点。在开始实施之前有两个任务必须完成。首先是对所提出的实现机制进行可行性研究。这包括分析构建过程中技术方案的风险因素;第二个前提是原型系统,这可能会占到项目一半的时间,原型系统的关键词集合由专家用户人工产生。

项目实施包含以下步骤:

1.      安装一个简单的Nutch搜索引擎,由于Nutch自身的插件机制特性,我们可以判断可以满足进行扩展的特定需求

2.      使用Yahoo API生成种子URL,并且放入一个Crawl文件

3.      做一个简单的页面分析工具,用于产生基本的关键词。

4.      修改Nutch使之从基本页面集也就是Crawl文件开始爬行。

5.      修改Nutch使之对每个爬行页面调用相关性分析算法并停止爬行低于临界值的链接。

6.      修改Nutch使之与一个相关性引擎协调工作,取代PageRank等评价机制。

7.      实现页面相关性分析工具,使之连接到Nutch接口。

8.      合并这个相关性水平融入到Nutch框架,用于索引和评价。

9.      提供经典视图。

我们可以有下面的设计思路,从而建立基于Nutch的主题搜索引擎架构。

图7.2 基于Nutch的主题搜索引擎架构

转载地址:http://zjgxi.baihongyu.com/

你可能感兴趣的文章
android中SharedPreferences的简单例子
查看>>
android中使用TextView来显示某个网址的内容,使用<ScrollView>来生成下拉列表框
查看>>
andorid里关于wifi的分析
查看>>
Spring MVC和Struts2的比较
查看>>
Hibernate和IBatis对比
查看>>
Spring MVC 教程,快速入门,深入分析
查看>>
Android 的source (需安装 git repo)
查看>>
LOCAL_PRELINK_MODULE和prelink-linux-arm.map
查看>>
Ubuntu Navicat for MySQL安装以及破解方案
查看>>
java多线程中的join方法详解
查看>>
idea添加gradle模块报错The project is already registered
查看>>
在C++中如何实现模板函数的外部调用
查看>>
HTML5学习之——HTML 5 拖放
查看>>
HTML5学习之——HTML 5 Canvas vs. SVG
查看>>
HTML5学习之——HTML 5 应用程序缓存
查看>>
HTML5学习之——HTML 5 Web Workers
查看>>
HTML5学习之——HTML 5 Canvas
查看>>
HTML5学习之——HTML5 内联 SVG
查看>>
HTML5学习之——HTML 5 服务器发送事件
查看>>
SVG学习之——HTML 页面中的 SVG
查看>>