WEB 2010﹕搜索引擎

楊惟雯 

 

一、搜尋引擎的定義

 

搜索引擎是一個網站,通過一定的演算法,自動從網際網路搜集資訊,經整理後,提供給用戶進行查詢,類似于資料仲介資料庫網站 

 

網際網路上的資訊浩瀚萬千,且毫無秩序,就像汪洋上的一個個小島網頁鏈結是這些小島之間縱橫交錯的橋樑,而搜索引擎則在為用戶繪製一幅一目了然的資訊地圖,以供用戶查閱之用。

 

二、搜尋引擎的發展史

 

1989年之前,當時全球資訊網還未出現,為了查詢散佈在全球各個分散的主機中的檔案,曾有過Archie、Gopher等搜尋工具

但隨著網際網路的迅速發展,在基於HTTP訪問的web技術的迅速普及後,他們就不再能適用用戶的需要。

 

被稱為“Web之父”的Tim Berners-Lee在1989年開發出了他稱為“World-Wide-Web”的軟件

全球資訊網(WWW)是一種企圖把所有Internet的資訊組織成超文字檔案形式檔的分類目錄軟件

儘管這個夢也許有點不太現實,但是全球資訊網確實讓你能訪問 Internet的所有資源,只需用瀏覽器"讀"適當的"檔"就行。全球資訊網(www)是目前全球最大的連結檔網路文庫。

 

在1994年1月,第一個既可搜尋又可瀏覽的分類目錄EINet Galaxy(Tradewave Galaxy)上線,它還支援Gopher和Telnet搜尋。

 

1994年4月,Yahoo目錄誕生,隨著訪問量和收錄連結數的增長,開始支援簡單的資料庫查詢。這就是我們說的早期的目錄導航系統,他們的缺點網站收錄/更新都是要靠人工維護,所以在訊息量劇增的條件下,就不是非常受用了。

 

1994年7月,Lycos推出了基於robot的資料發現技術,並支援搜尋結果關聯性排序,並且他第一個開始在搜尋結果中使用了網頁自動摘要。

Infoseek也是同時期的一個重要代表,他們是搜尋引擎史上一個重要的進步。

 

1995年,一種新的搜尋引擎工具出現了-----元搜尋引擎,第一個元搜尋引擎是華盛頓大學的學生開發的Metacrawler。使用者只需送出一次搜尋請求,由元搜尋引擎負責轉換處理後送出給多個預先選取的獨立搜尋引擎,並將從各獨立搜尋引擎返回的所有查詢結果,集中起來處理後再返回給使用者。

 

1995年12月才登場亮相的AltaVista推出了大量的創新功能使它迅速到達當時搜尋引擎的頂峰,它第一個支援自然語言搜尋的搜尋引擎,具備了基於網頁內容分析,智慧處理的能力,第一個實現進階搜尋語法的搜尋引擎(如AND、OR、NOT等),同時AltaVista還支援搜尋新聞群群組,搜尋圖片等具有劃時代意義的功能。同時期還有inktomi、HotBot等搜尋引擎。

 

1997年8月Northernlight 公司正式推出搜尋引擎,它第一個支援對搜尋結果進行簡單的自動分類,也是當時擁有最大資料庫的搜尋引擎之一。

 

1998年10月,Google誕生。它是目前最流行的搜尋引擎之一,具備很多獨特而且優秀的功能,並且在介面等實現了革命性創新。

 

1999年5月,Fast(Alltheweb)公司發佈了自己的搜尋引擎AllTheWeb,它的網頁搜尋可利用ODP自動分類,支援Flash和pdf搜尋,支援多語言搜尋,還提供新聞搜尋、圖像搜尋、視訊、MP3、和FTP搜尋,擁有極其強大的進階搜尋功能。它曾經是最流行的搜尋引擎之一,後在2003年2月被Overture收購。

 

在中文搜尋引擎領功能變數,1996年8月成立的搜狐公司是最早參與作網路訊息分類導航的網站,曾一度有「出門找地圖,上網找搜狐的」美譽。由於其人工分類送出的局限性,隨著網路訊息的暴增,逐漸被基於robot自動抓取智慧分類的新一代訊息技術取代。

 

臺灣中正大學吳升教授所領導的GAIS實驗室1998年1月創立了Openfind中文搜尋引擎,是最早開發的中文智慧搜尋引擎,採用GAIS實驗室推出多元排序(PolyRankTM)核心技術,截止2002年6月,宣佈累計抓取網頁35億,開始進入英文搜尋領功能變數。

 

北大天網是教育網最流行的搜尋引擎,它由北大電腦系網路與分散式系統研究室開發,於1997年10月29日正式在CERNET上提供服務, 2000年初成立天網搜尋引擎新課題群組,由國家973重點基礎研究發展規劃項目基金資助開發,收錄網頁約6000萬,利用教育網優勢,有強大的ftp搜尋功能。

 

百度中文搜尋由超鏈分析專利發明人、前Infoseek資深專案師李彥巨集集合好友徐勇2000年1月建立,目前支援網頁訊息檢索,圖片,Flash,音樂等多媒體訊息的檢索。並且百度在中文領功能變數第一個開始使用ppc經營模式。

 

2002年開始很多公司受搜尋市場前景和Google神話的吸引,積極進入搜尋引擎市場,謀求一席之地。

但是不幸的是他們當中很多公司採用流氓手段進行自己搜尋引擎的推廣工作,常用的手段是瀏覽器劫持、惡意捆綁adware/spyware等。

 

2003年11月,Yahoo全資收購3721公司。2005年8月,阿里巴巴和Yahoo達成戰略合作,全資收購雅虎中國,並更名為阿里巴巴雅虎,並將其業務重點全面轉向搜尋領功能變數。

 

三、搜尋引擎發展大事年表

 

1990 - Archie出現,搜尋概念出現

1993 - Gopher搜尋工具Veronica出現,隨後開始出現真正的搜尋雛形

1993 - Excite出現,概念搜尋出現

1993 - ALIWEB出現,Yahoo鼻祖

1993 - 第一次搜尋概念爆發

1994 - EINet Galaxy出現,支持Gopher和Telnet

1994 - yahoo誕生,支援簡單的資料庫搜尋

1994 - WebCrawler誕生,互聯網上第一個支援搜尋檔全部文字的全文搜尋引擎

1994 - Lycos誕生,具有標誌性意義

1994 - Infoseek開始與公眾見面,百度老闆李彥宏就在這打工的

1995 - 元搜尋引擎出現,又是搜尋界一次革命,可惜只是概念革命

1995 - Inktomi誕生,意味著HotBot到來

1995 - Altavista誕生,顛覆搜尋定義

1997 - Northernlight誕生

1998 - Google誕生,搜尋集大成者,巨頭開始發飆,第二次改變搜尋引擎的定義

1999 - 3721公司誕生,一代“流氓”兔開始在中國大肆啃草

2000 - 百度誕生,Google的克隆版在中國發飆

 

搜尋引擎任務是改善用戶體驗,為用戶保證搜尋品質,給出最好的排序,在這點Google相對做的比較好。

搜尋引擎的搜尋結果是類比人的思維,在最短時間內給你最滿意的答案,我想以後搜尋引擎更會人性化,更會站在人的角度去思考。

 

四、Google、百度、雅虎三大搜索引擎

 

1、Google搜索

http://www.google.com

Google 的使命是整合全球範圍的資訊,使人人皆可訪問並從中受益。完成該使命的第一步就是 Google 的創始人 Larry Page 和 Sergey Brin 共同開發的全新的線上搜索引擎。該技術誕生於斯坦福大學的一個學生宿舍裏,然後迅速傳播到全球的資訊搜索者。

Google 目前被公認為全球最大的搜索引擎,它提供了簡單易用的免費服務,用戶可以在瞬間返回相關的搜索結果。但在訪問Google 主頁時,您可以使用多種語言查找資訊、查看新聞標題、搜索超過 10 億幅的圖片,並能夠細讀全球最大的 Usenet消息存檔,其中提供的帖子超過 10 億個,時間可以追溯到 1981 年。

2005年,Google高調進軍中國市場,推出Google搜索中國版,命名為:穀歌搜索www.google.cn

 

2、百度搜索

http://www.baidu.com

百度搜索引擎擁有目前世界上最大的中文搜索引擎,總量超過3億頁以上,並且還在保持快速的增長。

百度搜索引擎具有高準確性、高查全率、更新快以及服務穩定的特點,能夠幫助廣大線民快速的在浩如煙海的互聯網資訊中找到自己需要的資訊,因此深受線民的喜愛。

 

3、雅虎中國

http://www.yahoo.com.cn/

2005 年11月9日 阿里巴巴公司在完成對雅虎中國的收購與整合之後,重新發佈了進入中國市場7年之久的雅虎網站, 未來雅虎在中國的業務重點方向將全面轉向搜索領域,這也是自8月11日阿里巴巴宣佈收購雅虎中國時就從沒改變的方向。

阿里巴巴CEO馬雲表示: 阿里巴巴在搜索領域既有決心更有信心,在中國,雅虎就是搜索,搜索就是雅虎。

2006年8月,雅虎中國推出獨立搜索引擎網站入口www.yahoo.cn

 

五、第二代搜索引擎所面臨的問題

 

用戶對資訊之檢索,以GOOGEL為代表的關鍵字搜索技術,造就了google帝國,但隨著網上資訊的指數式增長,量變終於造成了質變,隨著網頁的海量增加,現有的關鍵字搜索模式開始遇到了一個致命的問題——“關鍵字”搜索技術的精度每況逾下,問題無法解決。

有人統計過,使用google搜索實現用戶查知所需資訊的時間平均為6分鐘,如何解決這個問題,成為現實中的實際需求,現在,各搜索引擎無不把如何解決這一問題作為自己的目標,因為他們深知,解決了用戶的問題,就等於造就了自己。

目前各搜索引擎的解決方案,都是基於增加細化分類來實現這一目的,其原理為:

                       符合條件的資訊總量
       搜索精度=——————————————
                        細化分類之數目

每增加一個細化分類,就能使精度提高一倍。
這種方式雖然能起到一定的效果,但由於分子過大,而分母無法過份的增加(這會造成分細過多而引發另一個不便之處),所以,還是不能從根本上解決問題。

 

六、搜索引擎狼煙再起

 

據報導:維基百科正在開發一款和Google相競爭的搜索引擎,其搜索引擎將使用類似維基百科的模式,讓許多人工編輯對於網頁的品質做出判斷,從而避免Google的多種缺陷。

web2.0真的能夠化腐朽為神奇?

利用眾人參與,聚沙成塔,但所謂web2.0的精髓,只有在沒有利益衝突的前提下才能實現,維基百科似乎忘了最重要的一點,網站在搜索引擎的排名,直接影響到網站的訪問量,為了這訪問量,各網站不惜放下臉面大耍流氓,更何況在合法的情況之下來做手腳?

只有一個結論是肯定的,就是,以“關鍵字”搜索技術為核心的第二代搜索引擎的技術已經落後於時代了。

 

七、理想中的第三代搜索引擎?

 

(一)搜索引擎設計三大要素

  • 資訊的獲取:網路蜘蛛(即Web Spider)完成對網頁的抓取,由他決定了那些資訊可進入搜索引擎的資料庫中,其主要指標為:抓取的速度、抓取的深度和抓取的廣度。
  • 資訊的處理:抓來的海量資訊如何排序?按什麼原則?用什麼方法?如何分類?
  • 回饋(顯示用戶查詢結果):快速檢索演算法,用最短的時間讓用戶看到結果(效率問題)。

衡量一個搜索引擎的好壞主要是搜索精度指標讓用戶用最短的時間,最便捷的方式獲得他所需要的資訊。

(二)搜索精度,是成敗的關鍵

以GOOGEL為代表的關鍵字搜索技術,在經歷了幾年之後,日漸顯得落後,查一個關鍵字動不動就給出上百萬個搜索結果讓你選,選完這些結果,也不知要到那一年了,面對這些現狀,第三代搜索引擎的效率應該是第二代搜索引擎的10000倍左右才能有效的解決這個難題,也就是說,不管用什麼辦法,只要在輸入某關鍵字後,結果為100條左右才能說得上是使用方便。搜索精度,是成敗的關鍵。

 

隨著網頁的海量增加,現有的“關鍵字”搜索技術的精度每況逾下,用戶查詢所需時間越來越長,顯然,技術已經遠遠落後於需求;進入搜索引擎領域的公司越來越多,在技術沒能取得實質性突破的前提下,競爭的加劇使得經營的成本越來越高,兩面作戰,一面是技術,一面是市場?

(三)垂直搜索引擎的崛起

由於google等搜索引擎,在海量資訊的面前,一籌莫展,始終無法解決搜索精度的問題,在用戶的需求下,摧生了垂直搜索引擎,在垂直引擎的差異化戰略出擊下,google等也就只能看著市場在流失,其中的關鍵,在於技術,沒有技術上的創新來解決精度搜索問題,垂直搜索就自有生存之道。

 

八、探究搜索引擎的角色認知

 

(一) 搜索引擎的裁判角色

如同入口網站編輯選擇編輯內容一樣,搜索引擎對於內容的排放次序是對內容提供者的一次審核和考驗。

尤其就互聯網用戶獲取資訊的習慣來看,搜索引擎無疑充當了裁判,擁有無上的權威。

 

當然,鑒於裁判的職責,搜索應該將最專業、最具有實效的原創資訊標注在最醒目的位置。

但這個醒目的位置便意味著高流量和高價的競價排名,能吸引更多的眼球。

 

事實上,裁判也可能會格外關照一些人的;在競價排名中,客戶通過對關鍵字的競價,拼得頭破血流,而作為規則的制定者---搜索引擎,在一邊看熱鬧、一邊又接過滿手的銀元。

這令人想起一個寓言:森林裏有幾個小動物在分配美食,爭吵起來,請了狐狸來做裁判,狐狸給他們分了一下,一個覺得不合理,狐狸就把大的一份吃掉一些,另外一個又覺得不合理,狐狸就這樣又吃掉一些,當這幾個小動物最終認為很公平的時候,美味大部分都進了狐狸的肚子。而搜索引擎,就是這只聰明的狐狸。

 

當然,裁判也有耐不住寂寞的時候,這裁判有可能也下場踢球了。

例如百度借助自身搜索引擎技術的優勢,推出了百度貼吧、知道、百科和空間,運用自身的搜索催發,成就了自身流量客觀、相對開放的知名社區。進而演化為百度的拳頭產品,充當進軍內容門戶的先鋒。對於這幾個社區產品,百度的搜索為之開了一個適當的後門,都佔有比較重要的位置。畢竟,肥水不流外人田的道理人盡皆知。

 

(二) 搜索引擎充當資訊的監管工具

若有人想對眾多資訊的互聯網內容進行監管,顯然從搜索引擎下手是事半功倍。或許搜索技術也能成為國家監管的重要助手和各級監督機構的工具。

可是,搜索引擎一旦成為實至名歸的互聯網的管理者,那其自身的角色將更加複雜。……

arrow
arrow
    全站熱搜

    大宅配 發表在 痞客邦 留言(0) 人氣()