資源描述:
《基于多路集成網(wǎng)絡(luò)的多標(biāo)簽視頻分類(lèi)算法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、工程碩士學(xué)位論文基于多路集成網(wǎng)絡(luò)的多標(biāo)簽視頻分類(lèi)算法研究作者姓名曹峻許工程領(lǐng)域軟件工程校內(nèi)指導(dǎo)教師陳健教授校外指導(dǎo)教師丁圣勇工程師所在學(xué)院軟件學(xué)院論文提交日期2018年5月Multi-LabelVideoClassificationBasedonMulti-PathEnsembleNetworkADissertationSubmittedfortheDegreeofMasterCandidate:CaoJunxuSupervisor:Prof.ChenJianEngineerDingShengyongSouthChinaUniversity
2、ofTechnologyGuangzhou,China分類(lèi)號(hào):TP3學(xué)校代號(hào):10561學(xué)號(hào):201621034843華南理工大學(xué)碩士學(xué)位論文基于多路集成網(wǎng)絡(luò)的多標(biāo)簽視頻分類(lèi)算法研究作者姓名:曹峻許指導(dǎo)教師姓名、職稱(chēng):陳健教授;丁圣勇工程師申請(qǐng)學(xué)位級(jí)別:工程碩士工程領(lǐng)域名稱(chēng):軟件工程論文形式:□產(chǎn)品研發(fā)□工程設(shè)計(jì)?應(yīng)用研究□工程/項(xiàng)目管理□調(diào)研報(bào)告研究方向:機(jī)器學(xué)習(xí)論文提交日期:2018年4月23日論文答辯日期:2018年5月21日學(xué)位授予單位:華南理工大學(xué)學(xué)位授予日期:年月日答辯委員會(huì)成員:主席:吳慶耀委員:陳健、杜卿、陳俊穎、陳陽(yáng)摘要隨
3、著騰訊視頻、優(yōu)酷和愛(ài)奇藝等視頻網(wǎng)站近年來(lái)的蓬勃發(fā)展,對(duì)視頻的精確檢索、分類(lèi)以及個(gè)性化推薦等需求變得日益迫切起來(lái)。目前,對(duì)視頻的自動(dòng)分類(lèi)大多數(shù)是根據(jù)上傳視頻的標(biāo)題或者字幕等信息來(lái)分類(lèi)的,技術(shù)的限制使得分類(lèi)時(shí)往往遺漏了視頻的真正內(nèi)容。近年來(lái),圖像領(lǐng)域深度學(xué)習(xí)算法飛速發(fā)展,促進(jìn)了視頻分類(lèi)技術(shù)的更新?lián)Q代,使得基于視頻內(nèi)容的視頻自動(dòng)化分類(lèi)成為了可能。本文利用深度學(xué)習(xí)強(qiáng)大的特征提取能力,直接從視頻的內(nèi)容著手對(duì)視頻進(jìn)行多標(biāo)簽分類(lèi),針對(duì)視頻的固有特點(diǎn),本文的主要工作包括以下幾點(diǎn):1)遷移多個(gè)文本特征提取算法應(yīng)用到視頻時(shí)序特征提取。視頻和文本都由圖片(即幀)
4、和詞語(yǔ)組成,都存在關(guān)鍵幀和關(guān)鍵詞。與文本不同的是,視頻相鄰幀相似,所以本文在遷移算法的同時(shí),還做出了相應(yīng)的優(yōu)化,使得算法能更好地提取視頻時(shí)序特征。2)改進(jìn)C-LSTM特征提取網(wǎng)絡(luò),結(jié)合Bi-LSTM和Attention機(jī)制以提取視頻關(guān)鍵信息。現(xiàn)實(shí)中,視頻信息較為冗余,可能只有小部分視頻對(duì)分類(lèi)起關(guān)鍵作用,還有大量片頭片尾,切換鏡頭等噪聲需要去除。通過(guò)結(jié)合Attention機(jī)制,模型對(duì)視頻內(nèi)容給予不同的權(quán)重,以達(dá)到提取關(guān)鍵信息的效果,從視頻中提取更有區(qū)分度的分類(lèi)特征。3)改進(jìn)時(shí)序分割網(wǎng)絡(luò)(TSN)以適用于多標(biāo)簽視頻分類(lèi)。本文通過(guò)提出多種互補(bǔ)采樣
5、策略,在減少視頻冗余信息的同時(shí),盡可能地保留重要信息;基于Bagging的思想,本文提出結(jié)合混合專(zhuān)家模型的集成策略,在單個(gè)模型中通過(guò)共享參數(shù),多路集成,最后達(dá)到Bagging的效果,提高視頻分類(lèi)性能,避免訓(xùn)練多個(gè)模型。最后,本文通過(guò)一系列的實(shí)驗(yàn),證明了本文改進(jìn)的視頻時(shí)序特征提取器(C-Bi-LSTMAttention)和多路集成網(wǎng)絡(luò)(MpEN),在視頻的多標(biāo)簽分類(lèi)數(shù)據(jù)集上取得了更好的性能。關(guān)鍵詞:視頻分類(lèi);多標(biāo)簽分類(lèi);深度學(xué)習(xí)IAbstractWiththeriseofTencentVideo,YoukuandIqiyiVideoandso
6、on,theneedforvideosearch,classificationandrecommendationhasbecomeincreasinglyurgent.Atpresent,mostoftheautomaticclassificationsystemsofvideoarebasedoninformationsuchasvideotitles,subtitlesandsoon.Duetotechnicallimitations,thecontentofvideoisignored.Inrecentyears,thankstoth
7、erapiddevelopmentofdeeplearningalgorithmsintheimagedomain,agreatprogresshasbeenmadeinthevideoclassificationtechnology,whichmakestheautomaticvideoclassificationbasedonthecontentofvideopossible.Thisarticleappliesdeeplearninganditspowerfulfeatureextractioncapabilitiesindirect
8、lyclassifyingthevideowithmulti–labelsaccordingtothevideocontents.Ourinnovationsandworksin