百度解密:李彥巨集背後的蜘蛛俠
上市後的百度已有近700名員工,據說他們均可以免費得到老闆李彥巨集在創立百度之前寫的一本200多頁的小冊子———《矽谷商戰》。當然,百度員工中真正讀完這本書的可能微乎其微。
這本被包裝成章回體小說的文字,說它是小說肯定有些牽強,因為它沒有故事也沒有結構。但它確實可以作為時下急欲成為網際網路從業人員的一本上崗前閱讀的通俗手冊。
其實,這是李彥巨集在美國讀書期間寫的一本“技術”筆記,其紀錄時間是1994年至1998年。當時的李彥巨集輾轉美國幾大IT公司,埋頭打工與抬頭想事是在美國學計算機專業的中國留學生通常會走的謀生道路。在他們身邊,平均每5天就有一家矽谷公司股票上市,每24小時就造就62個百萬美元的富翁。
李彥巨集這一批在1990年代初、中期降落到美國的中國學生,為數不少的在幾年後回國創業———拷貝矽谷模式。
從書中內容可以看出,李彥巨集在技術層面沒有特別的偏好,他關注的東西很寬泛:從瀏覽器大戰、搜尋引擎、網上服務引發的電子媒體戰,再到SUN的JAVA與IBM、甲骨文、微軟的網路計算機競爭……此時的李彥巨集顯然還沒有找到方向,所以他看到什麼就紀錄什麼。
可能是命運註定。在Infoseek(全球第一批搜尋引擎服務商)工作期間,李彥巨集在澳大利亞參加一次學術研討會時,在會議室的板報上貼了一個小紙條,希望與有興趣研究搜尋引擎的大腕過招。就是這張紙條,吸引來了Google的創始人謝爾蓋·布林與拉里·佩奇。當然,他們還是窮大學學生。
當時,李彥巨集與這兩位後來的“搜尋引擎巨匠”交流了什麼,尚不重要,因為這個領域的風向標是雅虎、Infoseek、Excite和Lycos。
幾年之後,李彥巨集回到中國創立的公司納斯達克上市,與Google一樣,獲得前所未有的追捧———上市第一天就躍入股價超百美元的行列。
李彥巨集交了什麼運?他那張通常掛著漫不經心笑意的臉,很少有激憤或是誇張的表情。有員工私下稱李為“唐僧”,並不是意味著他管理上的軟弱、和氣,而是因為他對有些事情交代得過於瑣碎,也就是通俗的“嘮叨”。
可以說,李彥巨集創立百度的前期準備是從他寫這本書開始的。李彥巨集最為“嘮叨”的環節就是兩個字:“技術”。
技術四足
如果有人當面說,百度的客戶體驗不如Google,得到的迴應會是什麼?
與李彥巨集一起參與公司創立的百度CTO劉建國可能會以溫和的方式表達他的憤怒。
“上市之後,百度接下來最重要的任務之一就是不斷地優化搜尋技術,給使用者提供更豐富的使用者體驗。”劉建國說。
通常意義上說,搜尋技術包括四個環節,網頁抓取、超鏈分析、網頁檢索和搜尋服務。這是搜尋技術的“四足”,無論百度、Google,還是雅虎用的都是類似的技術。“百度之所以成功,是在相似技術下為使用者呈現了更優的結果。”劉建國說。
一個顯而易見的例子是,Google需要對全球數以百億計的網頁進行更新。而網頁數量如果增加10倍,其抓取難度將增加上千倍。這樣,Google在中文網頁更新速度方面就遠不及百度。劉建國認為:“在中文網頁的更新速度方面,百度因專注而超越對手。”
業內人士指出:由於Google的伺服器遠在美國,不僅其響應速度較慢,而且其IP地址容易因為各種原因被封殺,這也使得Google的使用者體驗不如百度的使用者體驗。
“超鏈(hyperlink)分析”更是百度的拿手活。所謂超鏈分析,即是對網頁之間的相關性進行評價。李彥巨集早在道瓊斯工作時,就對超鏈分析技術進行了研究,並擁有其中幾項專利。
“超鏈分析涉及許多對中文的理解,包括對詞彙、語法的理解。如果對中文的理解出現偏差,那麼分析結果就會謬之千里。搜尋結果不準確,就會傷害使用者的‘感情體驗’,最終導致網民流失。”劉建國這樣分析。
從2000年開始,百度就不斷積累自己的語料庫,包括與人民日報等權威中文機構合作,使用人民日報的語料庫。“豐富的語料庫來自於百度的積累,百度每天都要處理上千萬中文網頁,處理中文網頁的過程實際是對中文詞彙積累的過程。”
在網頁檢索方面,經驗積累至關重要。“百度有專門的團隊進行中文語料的分析,專門研究中文切詞。有經驗的技術人員憑經驗就能分析出什麼樣的連結是使用者最需用的連結。競爭對手要培養出這樣一個團隊,至少得兩年時間。因為專注的百度花了四年。”劉建國一語道破天機。
搜尋服務則更為瑣碎。百度為了滿足各種使用者不同的需求,專門設立了一個流程:根據市場部門的調查,產品管理部門提出需求,技術研發部門則拿出實現這種需求的技術方案,最後進行檢測,檢測如有問題再由技術部門進行優化。
作弊網站的電話
“為什麼遮蔽了我的網站?”劉建國經常會接到這樣的電話質詢。這樣的電話來自一些個人網站,由於存在作弊痕跡,百度不再把這些網站納入搜尋範圍。
“這樣的電話每天有多少個,不計其數。”劉建國有些無奈。而更多的電話則由劉建國的手下接到,有些人甚至直接找到李彥巨集。
但李及其他技術人員的回答通常與劉建國的回答一致,“你先自查一下,看有沒有作弊,然後再來電話,好嗎?”
“因為這些作弊網站試圖通過SEO(搜尋引擎優化)技術欺騙搜尋引擎,這損害了使用者體驗。”劉建國解釋。但劉沒有道出的另外一個原因是,這些作弊網站同時損害了百度的利益。
據劉介紹,作弊最通常的手段是堆砌連結(LINKFORM)。即某些個人網站,在某些企業具有商業利益的網頁上,對某些高流量的詞彙進行堆砌,以提高此網頁的相關性而排名靠前,當網民檢索時,就很容易檢索到這樣的網頁。這些個人網站會對這些企業說:你給我付錢,我會對貴公司的網頁進行優化,讓你網頁搜尋結果排名靠前。
另外一種作弊方式是,作弊網站將前景色(內容)與背景的顏色做成一致,利用這種方法欺騙搜尋引擎,因為搜尋引擎正是通過前景色與背景色的差異對網頁內容進行識別。在這樣的網頁上,通常是作弊網站想推廣的內容而不是網民想搜尋的結果。
除了從企業哪兒收費之外,這些作弊網站還有一種賺錢方式———自己推廣彩鈴這樣的收費服務。
“百度反作弊技術同樣需要經驗積累,很多作弊網站除了用技術手段進行分析外,還需要通過人工手段進行識別。沒有這樣的團隊,沒有與作弊網站長期作鬥爭的經驗,面對龐大的作弊網站群體則將束手無策。”劉建國說。
其所謂面對作弊網站束手無策的網站中不乏百度的競爭對手。在Google進入中國之初,已經有一批搜尋引擎優化服務商(SEO)為企業提供關鍵字廣告服務。這些廣告費全部被搜尋引擎優化服務商截流,而作為技術與服務提供者Google則在為他人做嫁衣裳。
Google怒斥這些SEO為“偽代理”,其進軍中國的第一件事是發展代理,加強渠道建設,第二件事則是清除偽代理。
“就像微軟與黑客的鬥爭,這是一場永遠都不會結束的戰爭。”劉建國表示,“百度的希望是儘量不讓這些作弊網站傷害使用者的利益,而百度的優勢是在與這些作弊網站長期鬥爭中形成的經驗。”(侯繼勇、劉涓涓)
來源:21世紀經濟報道
-
國美,先做中國的最美
自1995年海爾提出進入世界500強的目標後,進入世界500強已經成為國內企業發展壯大的一個高遠目標被樹立,自04年上汽集團以國內製造類企業第一個進入世界500強後,大家都在翹首期盼,誰是中國民營企業的第一個世界500強?處在百花叢中的民營企業當然也是衝勁十足,國內民營...
-
沃爾瑪:“本地化策略”取代經典模式
比起美國的那些沃爾瑪,中國市場上的沃爾瑪顯得有些“另類”。在上海開業一週的情況初步顯示,頭頂全球500強之首的光環的沃爾瑪,似乎並沒有在中國沿用其經典模式,“本地化策略”的味道正越來越濃。私車族購物“小來來”3日,《每日經濟新聞》在沃爾瑪的停車場發現,以“...
-
移動干將李剛正式調任聯通副總裁
電信運營商新一輪的高層大換班塵埃落定。近日,中組部和國資委正式下達任職通知書,北京移動總經理李剛正式調任中國聯通副總裁。和李剛一起履新擔任聯通副總裁的還有現任安徽電信總經理張鈞安。李剛曾任廣東移動總經理,今年5月才剛剛調任北京移動總經理,是中國移動...
-
上升勢頭凶猛 豐田在中國市場重新上路
2005年的豐田,其上升勢頭堪入最凶猛者行列,它重新適應中國的“路況”了嗎?2005年9月15日,一汽豐田汽車銷售有限公司(以下簡稱一汽豐田)總經理毛利悟(SatoruMori)和中方的副總經理董海洋在美國豐田學習一週後回到中國。截至這一天,一汽豐田今年在全國的汽車銷售達到了9.5...