資源描述:
《網絡爬蟲需求》由會員上傳分享,免費在線閱讀,更多相關內容在應用文檔-天天文庫。
1、課題名稱:Web資源自動獲取技術研究與應用(JAVA實現(xiàn))學校:中南大學學院:信息科學與技術學院專業(yè)班別:計算機軟件專業(yè)NIIT081姓名: 譚東方 指導教師: 完成日期: 摘要隨著網絡的迅速發(fā)展,萬維網成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。搜索引擎(SearchEngine),例如傳統(tǒng)的通用搜索引擎AltaVista,Yahoo!和Google等,作為一個輔助人們檢索信息的工具成為用戶訪問萬維網的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性,如: (
2、1)不同領域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結果包含大量用戶不關心的網頁。 (2)通用搜索引擎的目標是盡可能大的網絡覆蓋率,有限的搜索引擎服務器資源與無限的網絡數(shù)據(jù)資源之間的矛盾將進一步加深。 (3)萬維網數(shù)據(jù)形式的豐富和網絡技術的不斷發(fā)展,圖片、數(shù)據(jù)庫、音頻/視頻多媒體等不同數(shù)據(jù)大量出現(xiàn),通用搜索引擎往往對這些信息含量密集且具有一定結構的數(shù)據(jù)無能為力,不能很好地發(fā)現(xiàn)和獲取。 (4)通用搜索引擎大多提供基于關鍵字的檢索,難以支持根據(jù)語義信息提出的查詢。為了解決上述問題,定向抓
3、取相關網頁資源的聚焦爬蟲應運而生。聚焦爬蟲是一個自動下載網頁的程序,它根據(jù)既定的抓取目標,有選擇的訪問萬維網上的網頁與相關的鏈接,獲取所需要的信息。與通用爬蟲(generalpurposewebcrawler)不同,聚焦爬蟲并不追求大的覆蓋,而將目標定為抓取與某一特定主題內容相關的網頁,為面向主題的用戶查詢準備數(shù)據(jù)資源。關鍵字:網絡爬蟲程序,WEB爬蟲,網頁蜘蛛,網絡機器人AbstractThispaperfirstintroducesthekeytechniquesandtheorieswhicharerequire
4、dintherealizationoftheextensibleSpider,onthebasisofwhichwethenusetheoriented-objectmethodstohaveanalyzedanddesignedaWebSpiderwithextensibility.Finally,theprogrammingworkhasbeenrealizedontheJCreatorplatformwiththeJavalanguage.ThedesigningoftheextensibleSpiderismade
5、upoftwomajorparts:theClientcrawlerandtheServermonitor.TheClientisresponsibleforthepage-collectionjob,whichreceivesURLofthewebpagestobecrawledfromtheserverandtransmitsthoseoutofitscrawlingrange.Inordertoreducetheresponsetime,thepage-collectionhasborrowedthemultithr
6、eadingtechniquetoimprovethesystem’sperformance.TheURLtransitionhasutilizedthe“CharacterConversion”functionoftheMD5algorithmandthe“SplittingConstructor”ofthehashingfunction.TheservermonitortakeschargeofthearrangementoftheactivespidersandthetransitionofthearrivingUR
7、L:thesystemwouldallocateanuniqueIDforeverycrawlertorealizeunifiedmanagementaswellasmakingareasonablejudgmentforeveryURLfromclientstodeterminewhichactivespiderthisURLshouldbesentto.Inthesystem,therunningprocess,includingthestartandinterruption,ofthecrawlersiscomple
8、telycontrolledbytheserver,andtheservercandynamicallysupervisethecollectionstatusofeachofthecrawler.Ithasbeenprovedbytheexperimentthatthissystemhasthecha