資源描述:
《貝葉斯分類器講義》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、貝葉斯分類器一、分類器的概念分類特征提取特征:對(duì)象的特殊屬性特征向量:特征的描述參數(shù)方法:列出特征表用排除方法計(jì)算不同特征的相對(duì)概率,然后選取良好的特征的特點(diǎn):可區(qū)別性、可靠性、獨(dú)立性、數(shù)量少分類器的設(shè)計(jì)邏輯結(jié)構(gòu):(分類規(guī)則)相似程度分類規(guī)則的數(shù)學(xué)基礎(chǔ):(閾值規(guī)則)特征空間分類器的訓(xùn)練基本方法:用一組已知的對(duì)象來訓(xùn)練分類器目的的區(qū)分:1.分類錯(cuò)誤的總量最少2.對(duì)不同的錯(cuò)誤分類采用適當(dāng)?shù)募訖?quán)使分類器的整個(gè)“風(fēng)險(xiǎn)”達(dá)到最低偏差:分類錯(cuò)誤分類器的性能測(cè)試已知類別的測(cè)試集;已知對(duì)象特征PDF的測(cè)試集PDF的獲?。寒嫵鰠?shù)的直方圖,并計(jì)算均值和方差
2、,再規(guī)劃到算法面積,需要的話再做一次平滑,就可將這個(gè)直方圖作為相應(yīng)的PDF設(shè)計(jì)獨(dú)立每一類的測(cè)試集使用循環(huán)的方法特征選擇特征選擇可以看作是一個(gè)(從最差的開始)不斷刪去無用特征并組合有關(guān)聯(lián)特征的過程,直至特征的數(shù)目減少至易于駕馭的程度,同時(shí)分類器的性能仍然滿足要求為止。例如,從一個(gè)具有M個(gè)特征的特征集中挑選出較少的N個(gè)特征時(shí),要使采用這N個(gè)特征的分類器的性能最好。特征方差類間距離降維二、概率論基本知識(shí)概率論基本知識(shí)確定事件:概念是確定的,發(fā)生也是確定的;隨機(jī)事件:概念是確定的,發(fā)生是不確定的;模糊事件:概念本身就不確定。聯(lián)合概率和條件概率聯(lián)合
3、概率:設(shè)A,B是兩個(gè)隨機(jī)事件,A和B同時(shí)發(fā)生的概率稱為聯(lián)合概率,記為:P(AB);條件概率:在B事件發(fā)生的條件下,A事件發(fā)生的概率稱為條件概率,記為:P(A
4、B),P(A
5、B)=P(AB)/P(B);乘法定理:P(AB)=P(B)P(A
6、B)=P(A)P(B
7、A)。概率密度函數(shù)概率分布函數(shù):設(shè)X為連續(xù)型隨機(jī)變量,定義分布函數(shù);F(x)=P(X≤x);概率密度函數(shù):給定X是隨機(jī)變量,如果存在一個(gè)非負(fù)函數(shù)f(x),使得對(duì)任意實(shí)數(shù)a,b(a
8、空間的劃分全概率公式說明:全概率公式的主要用途在于它可以將一個(gè)復(fù)雜事件的概率計(jì)算問題,分解為若干個(gè)簡(jiǎn)單事件的概率計(jì)算問題,最后應(yīng)用概率的可加性求出最終結(jié)果。貝葉斯公式Bayes公式的意義Bayes公式,其意義是:假設(shè)導(dǎo)致事件A發(fā)生的“原因”有Bi(i=1,2,…,n)個(gè)。它們互不相容?,F(xiàn)已知事件A確已經(jīng)發(fā)生了,若要估計(jì)它是由“原因”Bi所導(dǎo)致的概率,則可用Bayes公式求出.即可從結(jié)果分析原因.三、貝葉斯分類器確定性分類和隨機(jī)性統(tǒng)計(jì)分類以兩類分類問題來討論,設(shè)有兩個(gè)類別ω1和ω2,理想情況,ω1和ω2決定了特征空間中的兩個(gè)決策區(qū)域。確定性
9、分類:我們?nèi)稳∫粋€(gè)樣本x,當(dāng)它位于ω1的決策區(qū)域時(shí),我們判別x∈ω1;當(dāng)它位于ω2的決策區(qū)域時(shí),我們判別x∈ω1。也可以說:當(dāng)x位于ω1的決策區(qū)域時(shí),它屬于ω1的概率為1,屬于ω2的概率為0。隨機(jī)性統(tǒng)計(jì)分類:如我們?nèi)稳∫粋€(gè)樣本x,當(dāng)它位于ω1的決策區(qū)域時(shí),它屬于ω1的概率為小于1,屬于ω2的概率大于0,確定性分類問題就變成了依照概率判決規(guī)則進(jìn)行決策的統(tǒng)計(jì)判別問題。貝葉斯分類原理先驗(yàn)概率、后驗(yàn)概率和類(條件)概率密度:先驗(yàn)概率:根據(jù)大量樣本情況的統(tǒng)計(jì),在整個(gè)特征空間中,任取一個(gè)特征向量x,它屬于類ωj的概率為P(ωj),也就是說,在樣本集中
10、,屬于類ωj的樣本數(shù)量于總樣本數(shù)量的比值為P(ωj)。我們稱P(ωj)為先驗(yàn)概率。顯然,有:P(ω1)+P(ω2)+……+P(ωc)=1如果沒有這一先驗(yàn)知識(shí),那么可以簡(jiǎn)單地將每一候選類別賦予相同的先驗(yàn)概率。不過通常我們可以用樣例中屬于類ωj的樣例數(shù)
11、ωj
12、比上總樣例數(shù)
13、D
14、來近似,即由以往的數(shù)據(jù)分析得到的概率,叫做先驗(yàn)概率.后驗(yàn)概率:當(dāng)我們獲得了某個(gè)樣本的特征向量x,則在x條件下樣本屬于類ωj的概率P(ωj
15、x)稱為后驗(yàn)概率。在得到信息之后再重新加以修正的概率叫做后驗(yàn)概率,后驗(yàn)概率就是我們要做統(tǒng)計(jì)判別的依據(jù)。類(條件)概率密度:P(x
16、ω
17、j)是指當(dāng)已知類別為ωj的條件下,看到樣本x出現(xiàn)的概率。若設(shè)x=,則P(x
18、ωj)=P(a1,a2…am
19、ωj)后驗(yàn)概率的獲得:后驗(yàn)概率是無法直接得到的,因此需要根據(jù)推理計(jì)算由已知的概率分布情況獲得。根據(jù)貝葉斯公式可得:其中:p(x
20、ωj)為類ωj所確定的決策區(qū)域中,特征向量x出現(xiàn)的概率密度,稱為類條件概率密度。P(x)為全概率密度,可由全概率公式計(jì)算得到。貝葉斯分類原理:根據(jù)已知各類別在整個(gè)樣本空間中的出現(xiàn)的先驗(yàn)概率,以及某個(gè)類別空間中特征向量X出現(xiàn)的類條件概率密度,計(jì)算在特征向量X出現(xiàn)的條件下,樣本屬于各類的概率,
21、把樣本分類到概率大的一類中。利用貝葉斯方法分類的條件:各類別總體的概率分布是已知的;要分類的類別數(shù)是一定的;癌細(xì)胞識(shí)別,兩類別問題——細(xì)胞正常與異常若僅利用先驗(yàn)概率進(jìn)行分類統(tǒng)計(jì)的角度得出的兩類