個人檔案LiLiang相片部落格清單更多 工具 說明
6 June

关于元搜索引擎

元搜索引擎是搜索其它搜索引擎的一种搜索引擎。

省去了索引器&爬虫部分,如果做信息检索的人,我觉得最好不要涉及元搜索引擎,因为它

可做的工作非常少,最好还是直接从搜索引擎下手去做些事情。

元搜索引擎&跨库检索技术有很多相似的地方。

都是从多个数据源获取数据进行融合,然后用统一的接口推送给用户。

元搜索引擎如果要做研究主要的技术我认为有2点:

1。对于数据源即独立搜索引擎的调度问题,采用什么样子的算法调度,

在我实现的mse中我采用的是id3的方法,我见过有人采用遗传算法的方法据说效果也不错

id3的问题在于有时候需要用户进行投票选择,根据My yahoo!的经验,用户是不愿意参加这样的

投票的。

2。如何解析。对于HTML的解析方法其实还是很多的,很多人都可以做,首先要清楚HTML

这类标签语言的结构,然后不管利用哪种语法分析都可以得。问题是这种方法难以简单的加入新的

独立数据源。元搜索引擎的管理者未必是开发者,如果每加入一个数据源都要分析结构确定方法,

进行编程,那是非常困难的一种方法了。跨库检索也有这种问题。

3。有人认为元搜索引擎的排序算法是很值得研究的,我觉得没必要,独立搜索引擎的排序算法

才是值得研究的,元搜索引擎只能叫做结果融合的算法,不敢说是排序算法。获取数据源数据的

时候已经有一个非常好的排序结果了,没有必要去修改,真正的问题在于如何融合。

我说的很简单,但是实现其实还是很麻烦的,但是我还是认为没有研究的必要,不知道大家怎么看。

 

回應 (2)

請稍候...
很抱歉,您輸入的回應過長。請縮短您的回應。
您尚未輸入內容,請再試一次。
很抱歉,目前無法新增您的回應,請稍後再試。
若要新增回應,您的父母必須先給您權限。要求權限
您的家長已關閉回應功能。
很抱歉,目前無法刪除您的回應,請稍後再試。
您已超過每日回應上限次數,請於 24 小時後再試一次。
由於系統顯示您可能傳送垃圾郵件給其他使用者,因此您帳號中的回應功能已遭停用。 如果您認為自己帳號遭錯誤停用,請連絡 Windows Live 支援
請完成下列安全檢查,以完成回應。
您輸入的安全檢查字元必須與圖片或音訊中的字元相符。

若要新增回應,請以您的 Windows Live ID 登入 (若您使用 Hotmail、Messenger 或 Xbox LIVE,則您已擁有 Windows Live ID)。登入


沒有 Windows Live ID?註冊

匿名 的圖片
LiLiang 撰寫:
呵呵,被你发现了:)

等我到了武汉自然找你啦:)
6 月 28 日
匿名 的圖片
乌蒙洗金沙 撰寫:
冒个泡,呵呵,你到武汉再给你寄茶叶吧,最近忙,都没时间跑昆明了。

我同意你的看法,元搜索引擎真正的问题在于如何融合。(自然,我理解的层次是很低di :P)
6 月 28 日

引用通告

此內容的引用通告是:
http://liliang366.spaces.live.com/blog/cns!68EFD72ECE46CDC4!114.trak
引述這則內容的部落格