資源描述:
《web搜索引擎.net實現(xiàn)技術(shù)研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、WEB搜索引擎.NET實現(xiàn)技術(shù)研究第24卷第10期2007年10月計算機應(yīng)用與軟件ComputerApplicationsandSoftwareVo1.24No.100ct.20o7WEB搜索引擎.NET實現(xiàn)技術(shù)研究蔣志剛?cè)~勇(中國科學(xué)技術(shù)大學(xué)計算機科學(xué)與技術(shù)系安徽合肥230027)摘要隨著網(wǎng)絡(luò)信息量的爆炸式增長,人們查找信息越來越難.Web搜索引擎的出現(xiàn)在一定程度上解決了這種矛盾.講述了搜索引擎的現(xiàn)狀及發(fā)展趨勢,并基于.net對搜索引擎的關(guān)鍵技術(shù)提出了實現(xiàn)方法.關(guān)鍵詞搜索引擎采集器正則表達式全文索TECHNOLOGYOFTHEREALIZATIONOFWEBSEARC
2、HENGINEBASEDON.NETJiangZhigangYeYong(DepartmentofComputerScienceandTechnology,UniversityofScienceandTechnologyofChina,Hefei230027,Anhui,China)AbstractWiththeexplosiveincreaseofthenetworkinformation,itbecomesmoreandmoredifficult.forpeopletofindtheinformationtheyneeded.Theoccurrenceofwebse
3、archenginesolvesthisproblemtoadegree,Thecurrentstateandthetrendofthesearchengineayedis-cussed,andbasedon,net,amethodfortherealizationofthekeytechniqueofsearchengineisproposed.KeywordsSearchengineSpiderRegularexpressionFulltextindex0引言隨著Internet/lntranet的迅速發(fā)展,網(wǎng)絡(luò)正深刻地改變著我們的生活.而在網(wǎng)上發(fā)展最為迅猛的www
4、技術(shù),以其直觀,方便的使用方式和豐富的表達能力,已逐漸成為Internet上最重要的信息發(fā)布和傳輸方式,Web上的信息也如雨后春筍般迅速增長起來.然而,Web信息的急速膨脹,在給人們提供豐富信息的同時,又使人們在對它們的有效使用方面面臨一個巨大的挑戰(zhàn).一方面網(wǎng)上的信息多種多樣,豐富多彩,而另一方面用戶卻找不到他們所需要的信息.因而基于www的網(wǎng)上信息的采集,發(fā)布和相關(guān)的信息處理日益成為人們關(guān)注的焦點.Web搜索引擎正是其中的一項核心技術(shù).搜索引擎現(xiàn)狀及發(fā)展趨勢搜索引擎通常指的是基于因特網(wǎng)的搜索引擎,它們收集因特網(wǎng)上幾千萬到幾億個網(wǎng)頁,并且每一個網(wǎng)頁上的每一個詞都被搜索引
5、擎所收錄,也就是我們所說的全文檢索.典型的因特網(wǎng)搜索引擎包括FirstSearch,Google,HotBot,Infoseek,Northernlight,百度等.現(xiàn)在大多數(shù)的搜索引擎以搜索文字信息為主,并基于關(guān)鍵字的匹配為用戶提供檢索服務(wù).隨著網(wǎng)絡(luò)帶寬的不斷加大,多媒體信息在網(wǎng)上迅速增加.這就對多媒體信息的檢索提出了要求.新一代的搜索引擎應(yīng)該在自然語言處理,數(shù)據(jù)挖掘和機器學(xué)習(xí)技術(shù),基于內(nèi)容的多媒體查詢技術(shù),多通道用戶界面(語音,自然語言,多媒體)方面有所突破.有人指出基于關(guān)鍵字的查詢很難表達很多復(fù)雜的概念,而且常常得到太多不相關(guān)的結(jié)果(浪費時間和精力).隨著語音識別
6、技術(shù)和多媒體技術(shù)的發(fā)展,未來的搜索引擎應(yīng)該可以利用語音作為輸入,由于人們各自感興趣的領(lǐng)域不同,各自對詞意的理解也不盡相同,不同的用戶對同一個檢索請求得到的檢索結(jié)果有不同的評價.一個理想的搜索引擎應(yīng)該對不同的用戶在相同的檢索請求下有不同的檢索結(jié)果,即對用戶具有自適應(yīng)能力.2搜索引擎工作原理搜索引擎通常使用一個或多個采集器從Internet上收集各種數(shù)據(jù)(如www,丌P,Email,News),然后在本地服務(wù)器上為這些數(shù)據(jù)建立索引,當(dāng)用戶檢索時根據(jù)用戶提交的檢索條件從索引庫中迅速查找到所需的信息.Web信息采集器是搜索引擎的核心部分,它通過Web頁面之間的鏈接關(guān)系,從Web
7、上自動地獲取頁面信息,并且隨著鏈接不斷向所需要的Web頁面擴展.傳統(tǒng)Web信息采集的目標(biāo)就是盡可能多地采集信息頁面,甚至是整個Web上的資源,而在這一過程中它并不太在意采集的順序和被采集頁面的相關(guān)主題.這樣做的一個極大好處是能夠集中精力在采集的速度和數(shù)量上,并且實現(xiàn)起來也相對簡單,例如Google采集系統(tǒng)在并行4個采集器時的速度可以達到每秒100頁,從而它配合信息檢索服務(wù)給網(wǎng)絡(luò)用戶的通用信息查詢帶來了很大的便利.但是,這種傳統(tǒng)的采集方法對服務(wù)器的要求是非常高的,并且因為其采集的信息過于廣泛,對整個in-ternet的遍歷周期過長,從而造成