| 個人檔案LiLiang相片部落格清單更多 |
|
6 June 关于元搜索引擎元搜索引擎是搜索其它搜索引擎的一种搜索引擎。 省去了索引器&爬虫部分,如果做信息检索的人,我觉得最好不要涉及元搜索引擎,因为它 可做的工作非常少,最好还是直接从搜索引擎下手去做些事情。 元搜索引擎&跨库检索技术有很多相似的地方。 都是从多个数据源获取数据进行融合,然后用统一的接口推送给用户。 元搜索引擎如果要做研究主要的技术我认为有2点: 1。对于数据源即独立搜索引擎的调度问题,采用什么样子的算法调度, 在我实现的mse中我采用的是id3的方法,我见过有人采用遗传算法的方法据说效果也不错 id3的问题在于有时候需要用户进行投票选择,根据My yahoo!的经验,用户是不愿意参加这样的 投票的。 2。如何解析。对于HTML的解析方法其实还是很多的,很多人都可以做,首先要清楚HTML 这类标签语言的结构,然后不管利用哪种语法分析都可以得。问题是这种方法难以简单的加入新的 独立数据源。元搜索引擎的管理者未必是开发者,如果每加入一个数据源都要分析结构确定方法, 进行编程,那是非常困难的一种方法了。跨库检索也有这种问题。 3。有人认为元搜索引擎的排序算法是很值得研究的,我觉得没必要,独立搜索引擎的排序算法 才是值得研究的,元搜索引擎只能叫做结果融合的算法,不敢说是排序算法。获取数据源数据的 时候已经有一个非常好的排序结果了,没有必要去修改,真正的问题在于如何融合。 我说的很简单,但是实现其实还是很麻烦的,但是我还是认为没有研究的必要,不知道大家怎么看。
引用通告此內容的引用通告是: http://liliang366.spaces.live.com/blog/cns!68EFD72ECE46CDC4!114.trak 引述這則內容的部落格
|
|
|