資源描述:
《web搜索引擎.net實現(xiàn)技術研究》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在教育資源-天天文庫。
1、WEB搜索引擎.NET實現(xiàn)技術研究第24卷第10期2007年10月計算機應用與軟件ComputerApplicationsandSoftwareVo1.24No.100ct.20o7WEB搜索引擎.NET實現(xiàn)技術研究蔣志剛葉勇(中國科學技術大學計算機科學與技術系安徽合肥230027)摘要隨著網(wǎng)絡信息量的爆炸式增長,人們查找信息越來越難.Web搜索引擎的出現(xiàn)在一定程度上解決了這種矛盾.講述了搜索引擎的現(xiàn)狀及發(fā)展趨勢,并基于.net對搜索引擎的關鍵技術提出了實現(xiàn)方法.關鍵詞搜索引擎采集器正則表達式全文索TECHNO
2、LOGYOFTHEREALIZATIONOFWEBSEARCHENGINEBASEDON.NETJiangZhigangYeYong(DepartmentofComputerScienceandTechnology,UniversityofScienceandTechnologyofChina,Hefei230027,Anhui,China)AbstractWiththeexplosiveincreaseofthenetworkinformation,itbecomesmoreandmoredifficult.
3、forpeopletofindtheinformationtheyneeded.Theoccurrenceofwebsearchenginesolvesthisproblemtoadegree,Thecurrentstateandthetrendofthesearchengineayedis-cussed,andbasedon,net,amethodfortherealizationofthekeytechniqueofsearchengineisproposed.KeywordsSearchengineSpi
4、derRegularexpressionFulltextindex0引言隨著Internet/lntranet的迅速發(fā)展,網(wǎng)絡正深刻地改變著我們的生活.而在網(wǎng)上發(fā)展最為迅猛的www技術,以其直觀,方便的使用方式和豐富的表達能力,已逐漸成為Internet上最重要的信息發(fā)布和傳輸方式,Web上的信息也如雨后春筍般迅速增長起來.然而,Web信息的急速膨脹,在給人們提供豐富信息的同時,又使人們在對它們的有效使用方面面臨一個巨大的挑戰(zhàn).一方面網(wǎng)上的信息多種多樣,豐富多彩,而另一方面用戶卻找不到他們所需要的信息.因而基于
5、www的網(wǎng)上信息的采集,發(fā)布和相關的信息處理日益成為人們關注的焦點.Web搜索引擎正是其中的一項核心技術.搜索引擎現(xiàn)狀及發(fā)展趨勢搜索引擎通常指的是基于因特網(wǎng)的搜索引擎,它們收集因特網(wǎng)上幾千萬到幾億個網(wǎng)頁,并且每一個網(wǎng)頁上的每一個詞都被搜索引擎所收錄,也就是我們所說的全文檢索.典型的因特網(wǎng)搜索引擎包括FirstSearch,Google,HotBot,Infoseek,Northernlight,百度等.現(xiàn)在大多數(shù)的搜索引擎以搜索文字信息為主,并基于關鍵字的匹配為用戶提供檢索服務.隨著網(wǎng)絡帶寬的不斷加大,多媒體信
6、息在網(wǎng)上迅速增加.這就對多媒體信息的檢索提出了要求.新一代的搜索引擎應該在自然語言處理,數(shù)據(jù)挖掘和機器學習技術,基于內(nèi)容的多媒體查詢技術,多通道用戶界面(語音,自然語言,多媒體)方面有所突破.有人指出基于關鍵字的查詢很難表達很多復雜的概念,而且常常得到太多不相關的結果(浪費時間和精力).隨著語音識別技術和多媒體技術的發(fā)展,未來的搜索引擎應該可以利用語音作為輸入,由于人們各自感興趣的領域不同,各自對詞意的理解也不盡相同,不同的用戶對同一個檢索請求得到的檢索結果有不同的評價.一個理想的搜索引擎應該對不同的用戶在相同
7、的檢索請求下有不同的檢索結果,即對用戶具有自適應能力.2搜索引擎工作原理搜索引擎通常使用一個或多個采集器從Internet上收集各種數(shù)據(jù)(如www,丌P,Email,News),然后在本地服務器上為這些數(shù)據(jù)建立索引,當用戶檢索時根據(jù)用戶提交的檢索條件從索引庫中迅速查找到所需的信息.Web信息采集器是搜索引擎的核心部分,它通過Web頁面之間的鏈接關系,從Web上自動地獲取頁面信息,并且隨著鏈接不斷向所需要的Web頁面擴展.傳統(tǒng)Web信息采集的目標就是盡可能多地采集信息頁面,甚至是整個Web上的資源,而在這一過程中
8、它并不太在意采集的順序和被采集頁面的相關主題.這樣做的一個極大好處是能夠集中精力在采集的速度和數(shù)量上,并且實現(xiàn)起來也相對簡單,例如Google采集系統(tǒng)在并行4個采集器時的速度可以達到每秒100頁,從而它配合信息檢索服務給網(wǎng)絡用戶的通用信息查詢帶來了很大的便利.但是,這種傳統(tǒng)的采集方法對服務器的要求是非常高的,并且因為其采集的信息過于廣泛,對整個in-ternet的遍歷周期過長,從而造成