国产乱人视频免费观看网站,九九精品视频在线观看,九九久re8在线精品视频,日韩久久精品五月综合

<menu id="zjelp"></menu>

<th id="zjelp"><tbody id="zjelp"><form id="zjelp"></form></tbody></th>

<small id="zjelp"><menuitem id="zjelp"></menuitem></small>

<small id="zjelp"></small>

<address id="zjelp"></address>

<sup id="tuecw"><track id="tuecw"></track></sup>

<th id="tuecw"><tbody id="tuecw"><listing id="tuecw"></listing></tbody></th>

<pre id="tuecw"></pre>

<small id="tuecw"><menu id="tuecw"></menu></small>

<listing id="tuecw"><menuitem id="tuecw"></menuitem></listing>

返回

網絡爬蟲需求

網絡爬蟲需求

ID：42676921

大?。?82.77 KB

頁數(shù)：15頁

時間：2019-09-20

網絡爬蟲需求_第1頁

網絡爬蟲需求_第2頁

網絡爬蟲需求_第3頁

網絡爬蟲需求_第4頁

網絡爬蟲需求_第5頁

資源描述：

《網絡爬蟲需求》由會員上傳分享，免費在線閱讀，更多相關內容在應用文檔-天天文庫。

1、課題名稱：Web資源自動獲取技術研究與應用(JAVA實現(xiàn))學校：中南大學學院：信息科學與技術學院專業(yè)班別：計算機軟件專業(yè)NIIT081姓名：　譚東方　指導教師：　　　　　　完成日期：　　　　　　　　　摘要隨著網絡的迅速發(fā)展，萬維網成為大量信息的載體，如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。搜索引擎(SearchEngine)，例如傳統(tǒng)的通用搜索引擎AltaVista，Yahoo!和Google等，作為一個輔助人們檢索信息的工具成為用戶訪問萬維網的入口和指南。但是，這些通用性搜索引擎也存在著一定的局限性，如：　　(

2、1)不同領域、不同背景的用戶往往具有不同的檢索目的和需求，通用搜索引擎所返回的結果包含大量用戶不關心的網頁。　　(2)通用搜索引擎的目標是盡可能大的網絡覆蓋率，有限的搜索引擎服務器資源與無限的網絡數(shù)據(jù)資源之間的矛盾將進一步加深。　　(3)萬維網數(shù)據(jù)形式的豐富和網絡技術的不斷發(fā)展，圖片、數(shù)據(jù)庫、音頻/視頻多媒體等不同數(shù)據(jù)大量出現(xiàn)，通用搜索引擎往往對這些信息含量密集且具有一定結構的數(shù)據(jù)無能為力，不能很好地發(fā)現(xiàn)和獲取。　　(4)通用搜索引擎大多提供基于關鍵字的檢索，難以支持根據(jù)語義信息提出的查詢。為了解決上述問題，定向抓

3、取相關網頁資源的聚焦爬蟲應運而生。聚焦爬蟲是一個自動下載網頁的程序，它根據(jù)既定的抓取目標，有選擇的訪問萬維網上的網頁與相關的鏈接，獲取所需要的信息。與通用爬蟲(generalpurposewebcrawler)不同，聚焦爬蟲并不追求大的覆蓋，而將目標定為抓取與某一特定主題內容相關的網頁，為面向主題的用戶查詢準備數(shù)據(jù)資源。關鍵字：網絡爬蟲程序,WEB爬蟲,網頁蜘蛛，網絡機器人AbstractThispaperfirstintroducesthekeytechniquesandtheorieswhicharerequire

4、dintherealizationoftheextensibleSpider,onthebasisofwhichwethenusetheoriented-objectmethodstohaveanalyzedanddesignedaWebSpiderwithextensibility.Finally,theprogrammingworkhasbeenrealizedontheJCreatorplatformwiththeJavalanguage.ThedesigningoftheextensibleSpiderismade

5、upoftwomajorparts:theClientcrawlerandtheServermonitor.TheClientisresponsibleforthepage-collectionjob,whichreceivesURLofthewebpagestobecrawledfromtheserverandtransmitsthoseoutofitscrawlingrange.Inordertoreducetheresponsetime,thepage-collectionhasborrowedthemultithr

6、eadingtechniquetoimprovethesystem’sperformance.TheURLtransitionhasutilizedthe“CharacterConversion”functionoftheMD5algorithmandthe“SplittingConstructor”ofthehashingfunction.TheservermonitortakeschargeofthearrangementoftheactivespidersandthetransitionofthearrivingUR

7、L:thesystemwouldallocateanuniqueIDforeverycrawlertorealizeunifiedmanagementaswellasmakingareasonablejudgmentforeveryURLfromclientstodeterminewhichactivespiderthisURLshouldbesentto.Inthesystem,therunningprocess,includingthestartandinterruption,ofthecrawlersiscomple

8、telycontrolledbytheserver,andtheservercandynamicallysupervisethecollectionstatusofeachofthecrawler.Ithasbeenprovedbytheexperimentthatthissystemhasthecha

當前文檔最多預覽五頁，下載文檔查看全文

侵權申訴



1 1 2 3 4 5 / 15



此文檔下載收益歸作者所有

當前文檔最多預覽五頁，下載文檔查看全文

溫馨提示：
1. 部分包含數(shù)學公式或PPT動畫的文件，查看預覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容，確認文檔內容符合您的需求后進行下載，若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。