域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過
我已經(jīng)在博客說了學(xué)seo研究算法是愚蠢的行為,但是很多人仍舊來問se的算法問題,其中最多的就是問TF-IDF算法,為了能夠讓大家加深對(duì)這個(gè)的問題的認(rèn)知,我因此就深度解析下這個(gè)算法的一些問題。
第一點(diǎn),TF-idf是什么?
TF和IDF是兩個(gè)不同的概念,tf通過一個(gè)文檔內(nèi)詞項(xiàng)的重復(fù)次數(shù)來表示這個(gè)詞項(xiàng)在所有詞項(xiàng)中的重要度,而另一個(gè)idf則是一個(gè)詞在所有文檔中出現(xiàn)次數(shù)表示這個(gè)詞項(xiàng)的重要程度,出現(xiàn)的越多也就是常用詞,由于主題性不強(qiáng)重復(fù)越多重要度越低。TF-IDF是一種統(tǒng)計(jì)方法,
用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜索引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評(píng)級(jí)。
這個(gè)百科的解釋加上我自己的描述,不知道大家是否很清楚了?總之TF-IDF是通過一定統(tǒng)計(jì)意義來表示詞項(xiàng)的重要度的。seo為何很關(guān)注他呢,因?yàn)樗赡苡绊憴z索詞和搜索詞的相關(guān)性,進(jìn)而影響排名。
第二點(diǎn),TF-IDF算法是解決什么的,能起到多大的作用?
其實(shí)我們既然研究了這個(gè)算法,就不能不去了解這個(gè)算法是解決什么的,其實(shí)我剛才也說了,它主要解決的就是一個(gè)文檔中詞項(xiàng)權(quán)重的問題(很多人都知道這個(gè)算法影響排名,卻不知道這個(gè)算法為何能影響排名的)。那么我們可以再問下,影響詞項(xiàng)權(quán)重的因素有多少呢?目測(cè)大約也就5、6個(gè)吧(但是我們都知道幾個(gè)呢?),TF-IDF在詞項(xiàng)中占據(jù)什么地位呢?重要度或許可以排在第三位、第四位的樣子(也不是最主要的因素嘛)。而且我一直說的,如果你真的要研究算法,就不僅要研究算法是什么,也要考慮下算法的特征和算法特征的處理,因?yàn)樗麄兌加绊懽罱K的結(jié)果,比如這個(gè)TF-IDF的算法。
第三點(diǎn),TF-IDF的算法特征是什么
這是人們很少關(guān)注的一點(diǎn),算法的特征和算法特征的處理之所以重要,是因?yàn)榉彩撬惴ǘ紩?huì)控制因素的影響,或者說進(jìn)行平滑性處理。這個(gè)也不例外,很多人沒有注意到這個(gè)影響,或者對(duì)這個(gè)有了過激的思想,那么就會(huì)對(duì)很多的seo細(xì)節(jié)耿耿于懷,卻不得其解。想學(xué)會(huì)這點(diǎn),我覺得那個(gè)谷歌的黑板報(bào)很多講算法的時(shí)候都說到了,很多實(shí)際應(yīng)用模型和理論模型大多都有一定的差距,這就是現(xiàn)實(shí)。
第四點(diǎn),TF-IDF算法再向上,問題的來源是什么,處于檢索的什么地位?
其實(shí),我一直推薦的是跳出算法禁錮,放在更長(zhǎng)遠(yuǎn)的看待這個(gè)問題,比如TF-IDF要解決的問題的根源是什么,這個(gè)問題可以在檢索原理中處于什么樣的一個(gè)地位,會(huì)不會(huì)隨著時(shí)間而改變……。只要你向上思考,慢慢更多的seo浮出來,那個(gè)神馬的TF-IDF也可以慢慢地放棄了。
第五點(diǎn),算法之外
TF-IDF是用來研究詞項(xiàng)權(quán)重的,早期用來進(jìn)行相關(guān)性判斷,但是也并不一定一成不變的,比如BM25算法在很多方面都比他更加具有優(yōu)勢(shì)。但是隨著檢索技術(shù)的進(jìn)步,比如語義分析等技術(shù)的發(fā)展,這個(gè)算法也會(huì)被漸漸限制了起作用的范圍和影響力。這也不能不說研究算法的悲劇。而且,我一直說的是,我們完全可以跳出這個(gè)范疇,從問題本身出發(fā)去思考問題,或者更深層的站在檢索的角度觀察這個(gè)問題的意義,觀察解決這個(gè)問題可行性,觀察結(jié)果和我們所想的差距……嘎嘎,不能再深入……
PS:我最近一直四處飄,也在發(fā)力學(xué)些新東西,所以時(shí)間不是很充裕,你所看到的博客我?guī)缀醵际怯兴敕ǖ臅r(shí)候,花費(fèi)了大約30多分鐘一氣呵成的,難免有很多瑕疵,萬勿見怪。我會(huì)繼續(xù)更新seo思維進(jìn)化論系列,里面雖然沒有講技術(shù),但是我覺得還是有些東西值得seoer去思考下的,下面我也打算寫一些seo入門的東西,希望能給一些新人有些幫助。我所做的一切,最主要的目的還是希望大家能冷靜地看待seo,慢慢地回歸正途。
文章來源:公眾號(hào)SEO實(shí)戰(zhàn)營(yíng)(ID:ilottecn),原文鏈接:https://mp.weixin.qq.com/s/0Nvt7VQRsNDwuj_gWC7Vow
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!