《基于加權(quán)策略的SVM多元分類器》由會員分享,可在線閱讀,更多相關(guān)《基于加權(quán)策略的SVM多元分類器(22頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,基于加權(quán)策略的SVM多元分類器,華南理工大學信息網(wǎng)絡(luò)工程研究中心,廣東省計算機網(wǎng)絡(luò)重點實驗室,曹鴻 董守斌 張凌,全國搜索引擎與網(wǎng)上信息學術(shù)研討會,目錄,算法描述,傳統(tǒng)一對多(OVA)方法,加權(quán)閾值策略(OVA-WWT),系統(tǒng)模塊,實驗結(jié)果,結(jié)論,傳統(tǒng)OVA(One-Vs-All)方法:主要思路,主要思路,訓練,N,個不同的二元分類器,第,i,個分類器用第,i,類中的訓練樣本作為正的訓練樣本,而將其他樣本作為負的訓練樣本,當對一個新文檔進行分類時,分別運行N個二元分類器,選擇輸出相似度值最大的那個分類器的結(jié)果,
2、傳統(tǒng)一對多(OVA)方法:形式化描述,給定個,l,訓練樣例(,),(,),其中,i,=1,l,且 是,x,i,的類標簽,則第,i,個SVM分類器要解決下面的最優(yōu)化問題:,用下面的,k,個決策方程計算,x,與,k,個類別的相似度:,最終判定,x,隸屬于決策方程輸出相似度最高的那個類別:,Class of x,=,閾值策略,閾值策略:把一篇文檔歸屬到某些相關(guān)類別中的方法,RCut、PCut和SCut,傳統(tǒng)OVA使用的是RCut策略,傳統(tǒng)一對多(OVA)方法:缺點,1)比較文檔對N個類別的相似度,簡單地取相似度最大的那個類別,由于這N個相似度是由N個不同的分類器產(chǎn)生,簡單地取最大值作為閾值策略并不合
3、適;,2)對所有類別一視同仁,而實際上,有些類別屬于“弱勢類”,其類別信息容易被“強勢類”所淹沒,導致“弱勢類”文檔被誤分到“強勢類”中的不公平現(xiàn)象。,本文對OVA的改進,提出加權(quán)閾值策略(Weighted RCut:WRCut),通過給不同類別的相似度結(jié)果賦以一定的權(quán)重值后再進行比較,實現(xiàn)“弱勢類”和“強勢類”之間的勢力均衡,以消除使用單一的RCut策略所造成的不公平現(xiàn)象,目錄,算法描述,傳統(tǒng)一對多(OVA)方法,加權(quán)閾值策略(OVA-WWT),系統(tǒng)模塊,實驗結(jié)果,結(jié)論,加權(quán)閾值策略(OVA-WWT),算法描述,:,先解SVM最優(yōu)化問題,用,決策方程,計算出文檔對,N,個類別的相似度,再對各
4、類別運用WRCut閾值策略,文檔,x,屬于加權(quán)相似度最大的類別,Class of x,=,ai,也可以通過對訓練集的學習而得。,目錄,傳統(tǒng)一對多(OVA)方法,加權(quán)閾值策略(OVA-WWT),系統(tǒng)模塊,實驗結(jié)果,結(jié)論,系統(tǒng)模塊結(jié),構(gòu),構(gòu),目錄,算法描述,傳統(tǒng)一對多,(,(OVA),方,方法,加權(quán)閾值策,略,略(OVA-WWT),系統(tǒng)模塊,實驗結(jié)果,結(jié)論,實驗結(jié)果,數(shù)據(jù)集:北,京,京大學網(wǎng)絡(luò),實,實驗室提供,的,的CWT100G數(shù)據(jù),集,集之200M訓練集(11個類別,),),模型:200M數(shù)據(jù)的2/3用于,構(gòu),構(gòu)建分類器,模,模型,剩余1/3作開,放,放測試集進,行,行分類測試,。,。SVM使
5、,用,用線性核函,數(shù),數(shù)。,評測標準:,微,微平均準確,率,率、宏平均,準,準確率、宏,平,平均召回率,、,、宏平均F1值和時間,,,,其中時間,是,是包括訓練,和,和分類的總,時,時間,實驗結(jié)果1,:,:分類器的,比,比較(1),分類方法,微平均準確率,(),宏平均準確率(),宏平均召回率(),宏平均F1(),時間(s),SVMmultic,64.35,27.19,25.65,26.40,1795.53,SVMTorch,44.35,75.61,35.95,48.73,25034.3,RainbowSVM,80.13,76.95,75.73,76.33,13205.5,MSVMlight,8
6、8.64,90.70,85.99,88.31,1108.5,實驗結(jié)果1,:,:分類器的,比,比較(2),性能曲線圖,時,時間柱狀,圖,圖,實驗2:閾,值,值策略的比,較,較(1),對WRCut中各類別,的,的權(quán)重值,,本,本文將訓練,集,集隨機劃分,為,為訓練-訓,練,練集(占3/4)和訓,練,練-測試集,(,(占1/4,),),從經(jīng)驗,值,值出發(fā),在,反,反復(fù)訓練的,過,過程中自動,調(diào),調(diào)整權(quán)重值,。,。,權(quán)重調(diào)整范,圍,圍為0.91.9,,每,每個類的權(quán),重,重分別遞增0.1,當,權(quán),權(quán)重的增加,使,使得精度下,降,降時,該權(quán),重,重減0.1,,,,取宏觀F1達到最大,值,值時各類別,所,
7、所得權(quán)重,,總,總訓練時間,為,為58.587秒,這,個,個時間對總,訓,訓練時間而,言,言是可忽略,的,的。,實驗2:閾,值,值策略的比,較,較(2),類別編號,類別,權(quán)重值,01,人文與藝術(shù),1.9,03,商業(yè)與經(jīng)濟,1.7,04,娛樂與休閑,1.9,05,計算機與因特網(wǎng),1.9,07,教育,1.9,08,各國風情,0.9,10,自然科學,0.9,11,政府與政治,1.9,12,社會科學,1.9,13,醫(yī)療與健康,1.9,14,社會與文化,1.1,經(jīng)過學習得,到,到的11個,類,類別各自的,權(quán),權(quán)重值,實驗2:閾,值,值策略的比,較,較(3),RCut策,略,略與WRCut策略精,度,度比
8、較曲線,目錄,算法描述,傳統(tǒng)一對多,(,(OVA),方,方法,加權(quán)閾值策,略,略(OVA-WWT),系統(tǒng)模塊,實驗結(jié)果,結(jié)論,結(jié)論,本文提出了,一,一對多算法,的,的改進版本OVA-WWT算法,基于OVA-WWT和SVMlight二元,分,分類算法,,實,實現(xiàn)了SVMlight的多元分,類,類器MSVMlight。,在CWT100G上進,行,行了一系列,開,開放性實驗,,,,通過與多,種,種分類器進,行,行性能比較,,,,證明對CWT100G數(shù)據(jù)集而,言,言,MSVMlight在準確率,和,和時間性能,要,要優(yōu)于其他,三,三種分類器,。,。,針對CWT100G數(shù),據(jù),據(jù)集進行閾,值,值策略選擇
9、,實,實驗,結(jié)果,表,表明,OVA-WWT,算,算法比OVA算法精度,要,要高,缺點:類別,權(quán),權(quán)重的訓練,需,需要花費額,外,外時間,但,是,是對于大規(guī),模,模數(shù)據(jù)的訓,練,練和分類而,言,言,以可忽,略,略的時間換,來,來精度的顯,著,著提高是值,得,得的,謝謝大家!,9,、靜夜四,無,無鄰,荒,居,居舊業(yè)貧,。,。12月-2212月-22,Friday,December23,2022,10,、雨中黃,葉,葉樹,燈,下,下白頭人,。,。05:16:5505:16:5505:16,12/23/2022 5:16:55 AM,11,、以我獨沈,久,久,愧君相,見,見頻。12月-2205:16:
10、5505:16,Dec-2223-Dec-22,12,、故人江海,別,別,幾度隔,山,山川。05:16:5505:16:5505:16,Friday,December 23,2022,13,、乍見,翻,翻疑夢,,,,相悲,各,各問年,。,。12月-2212月-2205:16:5505:16:55,December23,2022,14,、他鄉(xiāng),生,生白發(fā),,,,舊國,見,見青山,。,。23,十,十二月20225:16:55 上,午,午05:16:5512月-22,15,、比,不,不了,得,得就,不,不比,,,,得,不,不到,的,的就,不,不要,。,。,。,。十二,月,月225:16,上,上,午,
11、午12,月,月-2205:16,December23,2022,16,、行,動,動出,成,成果,,,,工,作,作出,財,財富,。,。2022/12/235:16:5605:16:56,23December2022,17,、做,前,前,,能,能夠,環(huán),環(huán)視,四,四周,;,;做,時,時,,你,你只,能,能或,者,者最,好,好沿,著,著以,腳,腳為,起,起點,的,的射,線,線向,前,前。,。,。5:16:56,上,上午5:16,上,上,午,午05:16:5612,月,月-22,9,、沒,有,有失,敗,敗,,只,只有,暫,暫時,停,停止,成,成功,!,!。12,月,月-2212,月,月-22,Frid
12、ay,December23,2022,10,、,很,很,多,多,事,事,情,情,努,努,力,力,了,了,未,未,必,必,有,有,結(jié),結(jié),果,果,,,,,但,但,是,是,不,不,努,努,力,力,卻,卻,什,什,么,么,改,改,變,變,也,也,沒,沒,有,有,。,。,。,。05:16:5605:16:5605:16,12/23/20225:16:56AM,11,、成功就,是,是日復(fù)一,日,日那一點,點,點小小努,力,力的積累,。,。12月-2205:16:5605:16,Dec-2223-Dec-22,12,、世間成事,,,,不求其絕,對,對圓滿,留,一,一份不足,,可,可得無限完,美,美。05:
13、16:5605:16:5605:16,Friday,December 23,2022,13,、不知香,積,積寺,數(shù),里,里入云峰,。,。12月-2212月-2205:16:5605:16:56,December23,2022,14,、,意,意,志,志,堅,堅,強,強,的,的,人,人,能,能,把,把,世,世,界,界,放,放,在,在,手,手,中,中,像,像,泥,泥,塊,塊,一,一,樣,樣,任,任,意,意,揉,揉,捏,捏,。,。23,十,十,二,二,月,月20225:16:56,上,上,午,午05:16:5612,月,月-22,15,、楚塞三,湘,湘接,荊,門,門九派通,。,。十二月225:16,上
14、,上午12月-2205:16,December23,2022,16,、,少,少,年,年,十,十,五,五,二,二,十,十,時,時,,,,,步,步,行,行,奪,奪,得,得,胡,胡,馬,馬,騎,騎,。,。,。,。2022/12/235:16:5605:16:56,23December2022,17,、空山新雨,后,后,天氣晚,來,來秋。5:16:56 上午5:16,上,上午05:16:5612月-22,9,、楊,柳,柳散,和,和風,,,,青,山,山澹,吾,吾慮,。,。12,月,月-2212,月,月-22,Friday,December23,2022,10,、閱讀一,切,切好書如,同,同和過去,最,最
15、杰出的,人,人談話。05:16:5605:16:5605:16,12/23/2022 5:16:56 AM,11,、越是沒,有,有本領(lǐng)的,就,就越加自,命,命不凡。12月-2205:16:5605:16,Dec-2223-Dec-22,12,、越是無,能,能的人,,越,越喜歡挑,剔,剔別人的,錯,錯兒。05:16:5605:16:5605:16,Friday,December23,2022,13,、知人者智,,,,自知者明,。,。勝人者有,力,力,自勝者,強,強。12月-2212月-2205:16:5605:16:56,December 23,2022,14,、意志,堅,堅強的,人,人能把,世
16、,世界放,在,在手中,像,像泥塊,一,一樣任,意,意揉捏,。,。23,十,十二月20225:16:56,上,上午05:16:5612,月,月-22,15,、最,具,具挑,戰(zhàn),戰(zhàn)性,的,的挑,戰(zhàn),戰(zhàn)莫,過,過于,提,提升,自,自我,。,。十二,月,月225:16,上,上,午,午12,月,月-2205:16,December23,2022,16,、業(yè),余,余生,活,活要,有,有意,義,義,,不,不要,越,越軌,。,。2022/12/235:16:5605:16:56,23December2022,17,、一個人,即,即使已登,上,上頂峰,,也,也仍要自,強,強不息。5:16:56,上,上午5:16,上,上午05:16:5612月-22,MOMODA POWERPOINT,Lorem ipsum dolor,sit,eleifend nulla ac,fringilla purus.Nulla iaculis tempor felis,amet,consectetur adipiscing elit.Fusce id urna blanditut,cursus.,感謝您的,下,下載觀看,專家