專家談?wù)動嘘P(guān)網(wǎng)站搜索引擎中模糊搜索理論研究分析
發(fā)布時間:2012-08-08 瀏覽次數(shù):49290
深圳網(wǎng)絡(luò)營銷專家有關(guān)的研究中的IR模型(搜索引擎)使用模糊集合理論(Lotfi Zadeh博士于1969年創(chuàng)建的模糊邏輯分支)來發(fā)現(xiàn)兩個詞之間的語義關(guān)系。IR系統(tǒng)并非使用同義詞典或字典來找出兩個詞之間是否有關(guān)系,而是使用自己的海量內(nèi)容數(shù)據(jù)庫來推測出詞之間的關(guān)系。
這個過程雖然聽起來復(fù)雜,但原理很簡單。網(wǎng)絡(luò)營銷專家指出搜索引擎需要依靠機(jī)器邏輯(對/錯、是/非等)判斷,機(jī)器邏輯相對人類有它的優(yōu)勢,但機(jī)器邏輯不能像人類一樣思考。對人類來說很直觀的事情,對計(jì)算機(jī)來說可能非常難以理解。例如橘子和香蕉都是水果,但橘子和香蕉并不都是圓的。對人來說這是很直觀的事情。
機(jī)器要理解這一點(diǎn)以及其他與此類似的概念,語義聯(lián)系是關(guān)鍵。網(wǎng)上大量的人類知識可以被收錄進(jìn)索引庫,并且從中分析出人類已經(jīng)建立起來的聯(lián)系。所以機(jī)器掃描索引庫中“香蕉”和“橘子”這兩個詞出現(xiàn)的地方,注意到“圓形”和“香蕉”很少同時出現(xiàn),而“橘子”和“園形”經(jīng)常同時出現(xiàn),機(jī)器就知道橘子是圓的,而香蕉不是圓的。
這就是模糊邏輯發(fā)揮作用的地方。只要分析詞語以何種頻率一起出現(xiàn),在什么情況下一起出現(xiàn),模糊集合理論就可以幫助計(jì)算機(jī)理解詞語之間是怎樣相關(guān)的。
一個在此基礎(chǔ)上有所擴(kuò)展的相關(guān)概念是潛在語義分析(LSA,Latent Semantic Analysis)。通過研究億萬網(wǎng)頁的海量索引,搜索引擎可以“學(xué)習(xí)”哪些詞之間有聯(lián)系,哪些概念之間有聯(lián)系。例如,運(yùn)用LSA,搜索引擎能夠分辨前往動物園的旅途活動,經(jīng)常包括觀看野生生物和動物,可能是一次(旅行)的一部分。
Google將相關(guān)詞顯示為黑體,并且能夠辨認(rèn)出哪些詞在它們的索引庫中經(jīng)常同時出現(xiàn)(連在一起,在同一頁或比較靠近的位置)。
在SEO培訓(xùn)優(yōu)化中某些形式的LSA計(jì)算成本太高。這些應(yīng)用使我們認(rèn)識到搜索引擎怎樣分辨網(wǎng)上詞匯、詞組以及概念之間的聯(lián)系。隨著語義聯(lián)系成為搜索引擎算法越來越重要的部分,可以預(yù)期,頁面、網(wǎng)站和鏈接的主題將會越來越受重視。未來搜索引擎將更有能力理解概念和主題,分辨哪些內(nèi)容、鏈接、頁面與整個網(wǎng)站的主題不太吻合。