| Profil de 梁LiLiangPhotosBlogListesPlus |
|
6 juin 我看搜索引擎技术我做过一段时间信息检索的某些技术,希望能够抛砖引玉,大家共同讨论研究 搜索引擎说到底有3个主要部分:爬虫部分,索引器&存储部分,用户推送部分。 我认为爬虫部分主要的技术问题在于3点:爬虫的爬行策略,爬虫自身的效率,爬虫的稳定性。 当然爬行策略是非常重要的,我自己利用VC设计了一种爬虫,可惜在多线程上面有电问题,但是基本功能都实现了。 索引器&存储部分的关键是索引器,如何对爬行得到的网页,文档等进行索引那,这个问题比较关键。我研究的少,而且我做的也非常基本,希望牛人能指点一二。 用户推送部分我做的比较多,其实主要在于排序算法的研究,当然如何排序说到底是个匹配度量的问题,匹配系数越高,当然越应该放在前面,google之所以受欢迎当然是排序上面的功夫做的好 当然它肯定是不会公开它的排序算法,不过我们都知道它竟然对不同的字体字号都有相关系数,可见它的功夫做的多么到位。baidu号称有最大的中文数据库,但是在排序上作不好就等于什么都没有做好。 这方面研究的论文&方法也很多,以后我慢慢地说把。 对于搜索引擎的各种评论在www.searchenginewatch.com上面讲述的比较清楚,我这里不再多说。
CommentairesPour ajouter un commentaire, connectez-vous avec votre identifiant Windows Live ID (si vous utilisez Messenger ou Xbox LIVE, vous avez un identifiant Windows Live ID). Connectez-vous Vous n'avez pas d'identifiant Windows Live ID ? Inscrivez-vous RétroliensL'URL de rétrolien de ce billet est : http://liliang366.spaces.live.com/blog/cns!68EFD72ECE46CDC4!112.trak Blogs Web qui font référence à ce billet
|
|
|