【網(wǎng)站設(shè)計(jì)】網(wǎng)站布局之TF-IDF算法。
說(shuō)白了在我理解來(lái),這個(gè)算法就是通過(guò)一個(gè)的數(shù)學(xué)計(jì)算,來(lái)確定每個(gè)詞在文章中的權(quán)重,從而得到一篇文章的關(guān)于詞的帶權(quán)重的向量,知道了這個(gè)以后就好辦了,之后什么文章關(guān)鍵字提取、概述、不同的文章之前的相似性比較都引刃而解了。
求一個(gè)詞的權(quán)重就用到TF-IDF算法,其實(shí)TF-IDF算法是分為T(mén)F(Term Frequency,縮寫(xiě)為T(mén)F)與IDF(Inverse Document Frequency,縮寫(xiě)為IDF)的計(jì)算。
說(shuō)起來(lái)也簡(jiǎn)單,TF就是這個(gè)詞在文章中的詞頻,出現(xiàn)的次數(shù)比上文章的總次數(shù)或者出現(xiàn)次數(shù)高的詞的個(gè)數(shù)。而IDF則是表示TF-IDF算法分母上加一是為了防止分母為零。
這個(gè)數(shù)學(xué)的表達(dá)式也符合情理,如果關(guān)鍵字(除去“的”、“為了”之類(lèi)的去除字)在越多的文檔中出現(xiàn),它在本篇文章中的權(quán)重自然就低了,舉個(gè)簡(jiǎn)單的例子:給你一個(gè)關(guān)鍵字計(jì)算機(jī),你一點(diǎn)也不知道這貨表達(dá)的意思,因?yàn)椋◤倪@個(gè)算法角度講)它在太多的文章中出現(xiàn),但是如果你的關(guān)鍵字為0day就不一樣了,包含它的文檔數(shù)遠(yuǎn)遠(yuǎn)小于包含關(guān)鍵字“計(jì)算機(jī)”的文檔數(shù)。由此,如果在同一篇文章里,如果“0day”與“計(jì)算機(jī)”的TF(詞頻)相同,IDF就可以保證“0day”的權(quán)重較高了。
基本的算法就是這樣了,其實(shí)很簡(jiǎn)單,但是這個(gè)算法是基于這樣一個(gè)前提,關(guān)鍵詞越重要,出現(xiàn)的頻率越高。同時(shí)忽略了詞出現(xiàn)位置的影響,所以這個(gè)算法存在漏洞。
|
| 服務(wù)熱線(xiàn):0791-88196636 南昌莫非傳媒 - 自創(chuàng)立之初就本著“品牌創(chuàng)造價(jià)值、營(yíng)銷(xiāo)鑄就 未來(lái)”的服務(wù)發(fā)展理念,始終堅(jiān)持“誠(chéng)信為本、客戶(hù)至上、有效 服務(wù)”的原則,致力于為每一個(gè)企業(yè)客戶(hù)提供系統(tǒng)完整的網(wǎng)絡(luò)營(yíng) 銷(xiāo)推廣解決方案,讓天下沒(méi)有難做的互聯(lián)網(wǎng)+ 國(guó)內(nèi)知名品牌,上市企業(yè)/大中小型企業(yè),初創(chuàng)企業(yè),行業(yè)龍頭企業(yè) 他們皆選擇了我們的產(chǎn)品(上千家企業(yè)的信賴(lài)) |