web搜索引擎.net實現(xiàn)技術(shù)研究

ID：13147549

大?。?2.50 KB

頁數(shù)：10頁

時間：2018-07-20

資源描述：

《web搜索引擎.net實現(xiàn)技術(shù)研究》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、WEB搜索引擎.NET實現(xiàn)技術(shù)研究第24卷第10期2007年10月計算機應(yīng)用與軟件ComputerApplicationsandSoftwareVo1.24No.100ct.20o7WEB搜索引擎.NET實現(xiàn)技術(shù)研究蔣志剛?cè)~勇(中國科學(xué)技術(shù)大學(xué)計算機科學(xué)與技術(shù)系安徽合肥230027)摘要隨著網(wǎng)絡(luò)信息量的爆炸式增長,人們查找信息越來越難.Web搜索引擎的出現(xiàn)在一定程度上解決了這種矛盾.講述了搜索引擎的現(xiàn)狀及發(fā)展趨勢,并基于.net對搜索引擎的關(guān)鍵技術(shù)提出了實現(xiàn)方法.關(guān)鍵詞搜索引擎采集器正則表達式全文索TECHNOLOGYOFTHEREALIZATIONOFWEBSEARC

2、HENGINEBASEDON.NETJiangZhigangYeYong(DepartmentofComputerScienceandTechnology,UniversityofScienceandTechnologyofChina,Hefei230027,Anhui,China)AbstractWiththeexplosiveincreaseofthenetworkinformation,itbecomesmoreandmoredifficult.forpeopletofindtheinformationtheyneeded.Theoccurrenceofwebse

3、archenginesolvesthisproblemtoadegree,Thecurrentstateandthetrendofthesearchengineayedis-cussed,andbasedon,net,amethodfortherealizationofthekeytechniqueofsearchengineisproposed.KeywordsSearchengineSpiderRegularexpressionFulltextindex0引言隨著Internet/lntranet的迅速發(fā)展,網(wǎng)絡(luò)正深刻地改變著我們的生活.而在網(wǎng)上發(fā)展最為迅猛的www

4、技術(shù),以其直觀,方便的使用方式和豐富的表達能力,已逐漸成為Internet上最重要的信息發(fā)布和傳輸方式,Web上的信息也如雨后春筍般迅速增長起來.然而,Web信息的急速膨脹,在給人們提供豐富信息的同時,又使人們在對它們的有效使用方面面臨一個巨大的挑戰(zhàn).一方面網(wǎng)上的信息多種多樣,豐富多彩,而另一方面用戶卻找不到他們所需要的信息.因而基于www的網(wǎng)上信息的采集,發(fā)布和相關(guān)的信息處理日益成為人們關(guān)注的焦點.Web搜索引擎正是其中的一項核心技術(shù).搜索引擎現(xiàn)狀及發(fā)展趨勢搜索引擎通常指的是基于因特網(wǎng)的搜索引擎,它們收集因特網(wǎng)上幾千萬到幾億個網(wǎng)頁,并且每一個網(wǎng)頁上的每一個詞都被搜索引

5、擎所收錄,也就是我們所說的全文檢索.典型的因特網(wǎng)搜索引擎包括FirstSearch,Google,HotBot,Infoseek,Northernlight,百度等.現(xiàn)在大多數(shù)的搜索引擎以搜索文字信息為主,并基于關(guān)鍵字的匹配為用戶提供檢索服務(wù).隨著網(wǎng)絡(luò)帶寬的不斷加大,多媒體信息在網(wǎng)上迅速增加.這就對多媒體信息的檢索提出了要求.新一代的搜索引擎應(yīng)該在自然語言處理,數(shù)據(jù)挖掘和機器學(xué)習(xí)技術(shù),基于內(nèi)容的多媒體查詢技術(shù),多通道用戶界面(語音,自然語言,多媒體)方面有所突破.有人指出基于關(guān)鍵字的查詢很難表達很多復(fù)雜的概念,而且常常得到太多不相關(guān)的結(jié)果(浪費時間和精力).隨著語音識別

6、技術(shù)和多媒體技術(shù)的發(fā)展,未來的搜索引擎應(yīng)該可以利用語音作為輸入,由于人們各自感興趣的領(lǐng)域不同,各自對詞意的理解也不盡相同,不同的用戶對同一個檢索請求得到的檢索結(jié)果有不同的評價.一個理想的搜索引擎應(yīng)該對不同的用戶在相同的檢索請求下有不同的檢索結(jié)果,即對用戶具有自適應(yīng)能力.2搜索引擎工作原理搜索引擎通常使用一個或多個采集器從Internet上收集各種數(shù)據(jù)(如www,丌P,Email,News),然后在本地服務(wù)器上為這些數(shù)據(jù)建立索引,當(dāng)用戶檢索時根據(jù)用戶提交的檢索條件從索引庫中迅速查找到所需的信息.Web信息采集器是搜索引擎的核心部分,它通過Web頁面之間的鏈接關(guān)系,從Web

7、上自動地獲取頁面信息,并且隨著鏈接不斷向所需要的Web頁面擴展.傳統(tǒng)Web信息采集的目標(biāo)就是盡可能多地采集信息頁面,甚至是整個Web上的資源,而在這一過程中它并不太在意采集的順序和被采集頁面的相關(guān)主題.這樣做的一個極大好處是能夠集中精力在采集的速度和數(shù)量上,并且實現(xiàn)起來也相對簡單,例如Google采集系統(tǒng)在并行4個采集器時的速度可以達到每秒100頁,從而它配合信息檢索服務(wù)給網(wǎng)絡(luò)用戶的通用信息查詢帶來了很大的便利.但是,這種傳統(tǒng)的采集方法對服務(wù)器的要求是非常高的,并且因為其采集的信息過于廣泛,對整個in-ternet的遍歷周期過長,從而造成

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 10



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

国产乱人视频免费观看网站,九九精品视频在线观看,九九久re8在线精品视频,日韩久久精品五月综合

web搜索引擎.net實現(xiàn)技術(shù)研究

web搜索引擎.net實現(xiàn)技術(shù)研究

相關(guān)文章

相關(guān)標(biāo)簽