• 客服
    咨詢
  • 公告3
  • 關(guān)注

    關(guān)于時(shí)代 更多優(yōu)惠活動(dòng)等您來(lái)拿!
    寶雞網(wǎng)絡(luò)公司微信 掃一掃關(guān)注——微信公眾號(hào) 時(shí)代手機(jī)瀏覽 掃一掃立即手機(jī)瀏覽
  • 關(guān)閉
  • 頂部
  • 百度算法怎么變也不能脫離的基礎(chǔ)算法

    時(shí)間:2012-06-06 06:48 來(lái)源:未知

    百度作為中文搜索引擎的先驅(qū),它的核心地位可以說(shuō)在短時(shí)期是沒有任何搜索引擎可以超越的,百度的卓越成就在于它對(duì)博大精深的中國(guó)文化的領(lǐng)悟和對(duì)中文分詞的的超強(qiáng)功底。百度受歡迎的主要原因除了用戶習(xí)慣的原因,在較大程度上得益于百度算法的精準(zhǔn)率,搜索結(jié)果值更貼近用戶的想獲得的資訊。用一句廣告詞 “正是我想要的”來(lái)形容百度最恰當(dāng)不過(guò)了。

    正因?yàn)榘俣葘?duì)中國(guó)搜索引擎市場(chǎng)的統(tǒng)治地位,企業(yè)想在網(wǎng)上賺取大量的鈔票,就不得不依靠百度。所以做搜索引擎的優(yōu)化實(shí)際上就是百度優(yōu)化。但百度強(qiáng)大的反優(yōu)化能力和人工干預(yù)機(jī)制,使得眾多的優(yōu)化者以失敗以失敗告終。對(duì)于大多數(shù)優(yōu)化者來(lái)說(shuō),百度成了洪水猛獸。果真如此嗎?網(wǎng)絡(luò)行銷大師鄧友成認(rèn)為不盡然。只要是搜索引擎就離不開算法,任何算法都是有規(guī)律可循的。下面我們深入淺出的探討一下百度的算法吧。

    一. 搜索信息響應(yīng)

    當(dāng)用戶向百度提出搜索請(qǐng)求后百度會(huì)迅速根據(jù)用戶的請(qǐng)求提供比較精準(zhǔn)的結(jié)果值。

    1. 比喻當(dāng)用戶提交“搜索引擎 優(yōu)化 技術(shù)”這個(gè)查詢文字串.百度會(huì)將文字串分割成若干子文字串,用空格,標(biāo)點(diǎn)符等做細(xì)分處理。那么這個(gè)文字串就可以分成“搜索引擎,優(yōu)化,技術(shù)”。

    2. 如果用戶提交的請(qǐng)求有重復(fù)的文字符,例如”優(yōu)化 技術(shù) 優(yōu)化”,百度會(huì)將重復(fù)的文字符看成一個(gè)。而字符的出現(xiàn)順序就忽略。

    3. 當(dāng)用戶提交請(qǐng)求中出現(xiàn)英文字符,百度一般會(huì)將英文字符當(dāng)作一個(gè)整體來(lái)看,并和中文詞分割開來(lái),如果中文出現(xiàn)數(shù)字也是這樣處理的。

    百度通過(guò)切割、重組、歸并、減負(fù)等手段對(duì)用戶請(qǐng)求進(jìn)行精準(zhǔn)響應(yīng),使搜索結(jié)果符合用戶的想法,以節(jié)省用戶的查詢時(shí)間,提高查詢效率。

    二. 中文核心分詞

    中文分詞是百度算法的核心要素。按中文語(yǔ)法習(xí)慣,三個(gè)字(含三個(gè)字)以下的文字符是獨(dú)立精準(zhǔn)的詞匯,沒有重組的必要,所以百度對(duì)三個(gè)字(含三個(gè)字)以下的文字符不考慮細(xì)分。這也是百度核心算法的第一層,也是響應(yīng)數(shù)量最多的部分。一般這些文字符更新的時(shí)間比較慢一些,一周或兩周的時(shí)間。屬于大更新的范疇。

    四個(gè)字符的百度就會(huì)毫不客氣的大卸十八塊比如,網(wǎng)絡(luò)工具這個(gè)文字串,當(dāng)用戶發(fā)出搜索請(qǐng)求后,會(huì)發(fā)現(xiàn)在搜索結(jié)果里面出現(xiàn)了紅色的標(biāo)記,已經(jīng)把這個(gè)文字符分成了“網(wǎng)絡(luò),工具”。當(dāng)然如果是四個(gè)字以上的文字串就更不用說(shuō)了。會(huì)分成更多的分詞。

    三、字詞匹配

    大概了解了百度的分詞原理后,我們要了解的一個(gè)重要方面就是字詞的匹配問題。如果不知道字詞的匹配,做優(yōu)化就是空談了。

    百度算法之:最大匹配法

    最大匹配法亦稱MM法。假設(shè)自動(dòng)分詞詞典(或詞庫(kù))中的最長(zhǎng)詞條是y個(gè)字,則取被處理材料當(dāng)前字符串序列中的前y個(gè)字作為匹配字段,查找詞典,若詞典中存在這樣的一個(gè)y字詞,則匹配成功,匹配字段被作為一個(gè)詞切分出來(lái);如果在詞典中找不到這樣一個(gè)y字詞,則匹配失敗,匹配字段去掉最后一個(gè)字,剩下的字段重新進(jìn)行匹配,如此進(jìn)行下去,直到匹配成功,也就是完成一輪匹配,切分出一個(gè)詞為止。

    百度算法之:正向最大匹配算法

    正向最大匹配法(由左到右的方向)。首先粗分,按照句子把文本切成一個(gè)一個(gè)句子。然后把每個(gè)句子切成單字。字典按照樹形結(jié)構(gòu)存儲(chǔ),比如這句話“春天還會(huì)遠(yuǎn)嗎”首先查找“春”字開頭的詞,然后按照字典樹形結(jié)構(gòu)往下走一個(gè)節(jié)點(diǎn),查找“春”后面一個(gè)字是“天”的詞,然后又下沉一個(gè)節(jié)點(diǎn),找“還”下面是 “會(huì)”的詞,找不到了,查找就結(jié)束。

    百度算法之:反向最大匹配算法

    逆向最大匹配法(由右到左的方向);就是朝相反的方向發(fā)掘可以匹配的文字,比如網(wǎng)上商城這個(gè)文字串,那么會(huì)向左延伸在王上的前面會(huì)出現(xiàn)的結(jié)果是區(qū)域性的文字,不如上;蛘弑本┑,在商城的前面會(huì)出現(xiàn)更精準(zhǔn)的定義文字符,不如愛家,女人等專屬性強(qiáng)的文字符。

    百度算法之:雙向最大匹配算法

    正向最大匹配方法和逆向最大匹配方法結(jié)合起來(lái)構(gòu)成雙向匹配法。就是向左右縱深挖掘比較匹配的結(jié)果值。

    熟悉了百度分詞的方法后,我們就要在優(yōu)化的過(guò)程充分的考慮相關(guān)聯(lián)的因素,合理的對(duì)你所要向用戶推薦的文字串做合理的規(guī)范和謀劃。軟優(yōu)化歡迎優(yōu)化者們和我們一道加強(qiáng)交流共同進(jìn)步。