什麼時候使用PCA和LDA?

2025-05-07 08:35:15 字數 2088 閱讀 9368

1樓:網友

當你的特徵數量p過多,甚至多過資料量n的時候,森毀降維是必須的。為什麼是必須的?有個東西叫curse of dimensionality,維度越高,你的資料在每個特徵維度上的分佈就越稀疏,這對機器學習演算法基本都是災難性的。

你說特徵數量過多,砍一點就行了嘛?但是對不起,就有這樣的問題存在,砍不了。你要研究某個罕見病跟什麼基因有關?

基因很多哦,人類已知的基因有幾千個,可是病例通常也就幾百個,有時連幾百個都沒有……當你的特徵有比較明顯的自相關的時候,也可以考慮降維。自相關會讓很多模型的效果變差,主要是線性模型。這些模型效果不好,但是算的快,很多時候很有用。

先降維再算會好的多。還有的應用跟降維沒多大關係,純粹只是去雜音而已。這是乙個典型的應用:

分析籃球攻防組合的表現。就是給定乙個籃球進攻球員,和他的對位防守球員,求出在一次進攻中這名進攻球員的(1)出世春轎手概率(2)如果出手,得分期望,根據籃球知識,我們容易知道,如果乙個人防「射手a」防的好,但是防「突破手b」防的差,那他防「射手c」也防的好的可能性大過防「突破手d」防的好的可能性。於是這裡有必要把進攻球員(防守球員也類似)做個相似度出來,根據這個相似度再來構建模型(比如可以用bayes net)。

相似度怎麼構建?pca就可以了,把選手的出手位置的分佈做成特徵,然後pca之,取前若干維的相似度即可。(為啥不直接用出手位置的分佈來做呢?

效果不好唄,去掉雜搜肆音會好的多,而且pca出來的還是正交的,可以直接求距離)。

2樓:名

如果不降維,將導致 資料分佈在乙個極小的區域內。也叫維度災難。比如說,球的體積是 v 正比於 r^3。

在r/2的同心球,體積槐型正比於(r/2)^3。同心小球是全球的體積八分之一。如果是多維球,球的大部分體積 分佈在球表面內側的「很薄」的一層,比如千/萬維的話。

所以要降維。不降維,高維特徵沒啥用,比如人臉識別。pca是無類別資訊,不知道樣本屬於哪個類,用pca,通常對全體資料操作。

lda有類別資訊,投影到類內間距最小神純and類間間距最大。也有一些演算法,先用pca搞一遍,再用lda搞一遍,也有相反。反正有**是這麼搞的,至於是不是普適,要看具體問題鉛瞎猜。

3樓:阿qi棄

在機器學習中,如果都能夠挑選出少而精的特徵了,那pca等降維演算法確實沒有必要。但一些情況下原始數則困據維度非常高,然而我們又沒有辦法想出有效的特徵,這個時候就需要用pca等工具來降低資料的維度,使得資料可以用於統孫純念計學習的演算法。我之前所在的乙個研究小組就把pca用在了文字資料上。

文字資料處理 (vectorize) 後乙個樣本的每一維對應這乙個詞。然而可以想象在乙個文字資料集中,總的不同的詞的個數是非常多的,因此樣本維度常常上萬。這樣高維度的資料如果直接用來訓練統計學習的演算法得到的模型通常不具有統計學上的顯著性。

因此,我們將sparse pca應用在褲察原始資料上,找到不同的詞之間的線性相關性,將高相關的詞合併為乙個特徵,這就是所謂的話題模型 (topic modeling)。

pca和lda和svd 的區別

4樓:匿名使用者

你在做svd降維,本質上就是做pca. pca 可以簡單的通過svd來計算。svd可以獲取另乙個方向上的主成分,而pca只能獲得單個方向上的主成分,pca也能達到降秩的目的,但是pca需要進行零均值化,且丟失了矩陣的稀疏性。

通過svd可以得到pca相同的結果,但是svd通常比直接使用pca更穩定。因為pca需要計算x⊤x的值,對於某些矩陣,求協方差時很可能會丟失一些精度。

lda的原理是,將帶上標籤的資料(點),通過投影的方法,投影到維度更低的空間中,使得投影后的點,會形成按類別區分,一簇一簇的情況,相同類別的點,將會在投影后的空間中更接近。lda是一種線性分類器,lda分類的乙個目標是使得不同類別之間的距離越遠越好,同一類別之中的距離越近越好。主成分分析(pca)與lda有著非常近似的意思,lda的輸入資料是帶標籤的,而pca的輸入資料是不帶標籤的,所以pca是一種unsupervised 通常來說是作為乙個獨立的演算法存在,給定了訓練資料後,將會得到一系列的判別函式(discriminate function),之後對於新的輸入,就可以進行**了。

而pca更像是乙個預處理的方法,它可以將原本的資料降低維度,而使得降低了維度的資料之間的方差最大。

請問什麼時候使用比值審斂法什麼時候使用極限形式的比較審斂法

極限形式的比較審斂法就是尋找級數的同階無窮小,從而轉變成已知形式。經常用來比較的標準就是調和級數和p級數。而比值審斂法是用後項比前項判斷斂散性,經常應用的是下面兩種情況。高數裡無窮級數中什麼時候用比較審斂法什麼時候用比值審斂法 首先必須是正項級數,然後根據通項優先考慮比值審斂法或根值審斂法,版如果用...

促音什麼時候使用,促音什麼時候用

促音 發音的時候,用發音器官的某一部分堵住氣流,形成一個短促的頓挫,然後再使氣流急衝而出。這種音叫促音。促音只能在 四行假名的前面,用小字的 來表示。不發音,只作為促音符號。促音分三種 舌尖促音 喉頭促音 兩脣促音。記住 接 行時用舌尖促音 接 行時用喉頭促音 接 行時用兩脣促音。日語單詞中還存在著...

日本最早使用漢字是什麼時候,日本什麼時候開始用漢字的?

日本古代有語言而無文字。雖然現代比較語言學者,以日本與從音韻 語法及語彙三者看起來,系屬巫拉爾 阿爾泰 ural altai 語系統,質言之,它本來是和蒙古語 通古斯語 土耳其語及朝鮮語視同依系統的。但事實上,日本的語言問題,現在尚未獲得完全解決。日儒新渡戶盜造曾雲 在語言學上看來,日本語是伶仃的孤...