2008年2月19日 星期二

Google如何靠語義網擊敗EBAY和AMAZON?

August 2009: How Google beat Amazon and Ebay to the Semantic Web
July 26, 2002 By Paul Ford

一個虛構的故事,關於語義網的劇本。2009 年商業雜誌上的短篇特寫。請注意這篇文章是2002年寫的。

這真讓人難以置信,Google(現在世界上最大的獨立在線交易市場) 在僅僅8年多一點的時間就登上了舞台, 過去那可是Amazon和Ebay的統治領域。怎麼Google 就成為了世界上最大的獨立在線交易市場呢?

很好,簡而言之,答案就是「語義網」(一會兒我再告訴你這是什麼)。當Amazon和Ebay各自繼續以每季贏利10億和18億美元的時候,任何人都認為這是成功的,但Google在網絡交易市場每年盈利170億美元則被認定是更加成功的故事,前所未有的——「新經濟」。

Amazon和Ebay都努力開發虛擬交易市場:他們盡可能地外包庫存。然後,通過各種各樣的方法,把買主和賣主吸引到同一件商品上,從交易中抽取利潤。

對於Amazon來說,那意味著售賣新(商品)項目,或者允許眾多用戶賣出他們使用過的商品。對Ebay而言,它意味著把招標人和買主吸引在一起。一旦你被吸引進來, 這種途徑是極其有利潤的,它還是快速的,通過電話、電子郵件和數據庫管理。這很有效。

再來看看Google。在2002 年以前, 它是一個搜索引擎,依靠其廣告盈利。與此同時, 自1998年以來,「語義網」的理念獲得了少數人的關注,並吸引了與日俱增的這個圈子的人們。

什麼是語義網呢? 在其心臟部分, 這僅僅是一個以計算機能理解的方法來描述事物的;當然,它並不理解這是怎麼一回事,而是邏輯,就像在高中學的:

如果A是B的朋友, 那麼B就是A的朋友。
吉姆有一個朋友叫保羅。
所以,保羅有一個朋友叫吉姆。

使用的標記語言叫做RDF (在這兒是首字母的縮略, 因此你不妨學會它——它代表資源描述框架規範Resource Description Framework), 你可以把這樣的邏輯語句放到互聯網上,「網絡爬蟲」就能收集它們,並且語句能被搜索、分析、處理。它與正常搜索不同之處是, 語句可能被結合起來。所以,如果我在吉姆的站點上看到一句話「吉姆是保羅的朋友」,這時有人搜索了「保羅的朋友們」,即使保羅的網站沒有提到吉姆, 我們也會得知吉姆認為自己是保羅的朋友。

我們肯定也想知道其它的事情?比如A和B都是汽車賣主,但A賣的Miatas車比B要便宜百分之十。比如Jan Hammer 70 年代在Mahavishnu Orchestra專輯中使用的keyboards樂器。比如狗有爪子。比如你要求一台特殊型號的電腦,擁有新的主板和更快的總線,可以被升級到奔騰18。語義萬維網不是關於頁面和鏈接的, 它是考慮事物之間聯繫的——是否一件事是另一件事的一部分, 或者東西多少錢, 或什麼時候發生。

語義網最初只是作為Web缺乏「聰明」的補充——並且許多早期工作就像是安排日程和計劃, 和表述人與人之間的關係。在2003年末以前, 當Google 開始在語義網開發上作了一系列實驗的時候 (二年以後進入了他們的研究實驗室),這仍然幾乎是沒有人瞭解,並且很少人經常使用的東西, 除了在邏輯、計算機科學、人工智能方面有基礎知識的研究員。科研曲線象峭壁一樣陡, 並且對於編程人員來說,並沒有足夠的刺激來值得攀登它,也沒有從新的優勢中來研究世界的吸引力。

未來被描述的語義網,會使你更加容易預定牙醫的時間, 更新你的計算機, 檢查培訓計劃, 和協調汽車零件的發貨(時間)。它會使尋找東西更加容易。或許包括所有巨大的東西,巨大到以百萬美元起價。但不敢肯定對習慣於寫支票的人是否有足夠的誘惑, 特別是在他們經歷了95次的.com破產之後。他們看見的所有都是Web——(使他們損失了)幾個口袋和幾百萬的金錢——只不過有個「語義」在它前面修飾罷了。

Semantics vs. Syntax, Fight at 9

一件事物的語義與它的意義相關。它是一個很是模糊的東西,但是在人工智能的世界裡,這個目標將會是從句法中得出語義。至關重要的問題在於,如果你有一大堆東西整齊的按照句法規則排列成能為計算機所識別的結構,你又怎麼能從中得到意義呢?句法學如何成為語義學?人腦對此非常在行,但是對於計算機來說則是困難異常。他們對於句法感到頭疼。只要你用結構化的表達方式,就可以告訴他們任何事情,但是他們卻無法得到意義。他們會將「身有餘而心不足」這句話翻譯成「肉裡面充滿了星星但是伏特加酒是用粉紅色的羽毛做成」,像俄語一樣。

所以人們猜想,只有從句法合理的語句中才能得到真正令人感興趣的東西。實際上,你需要的是一個價值連城的腦袋。現在沒有人能證明這種方式的有效,而它的倡導者則是CYC公司的一個名叫Doug Lenat的人,他早就上了Ashcroft主席的黑名單,被視為一個危險的知識分子,已經好久沒有他的影子了。但是這些關於語義網的基本卻令人深思的概念,直到現在仍然有著影響,即通過從多個人那裡同時獲得句法,進而在他們的集合中獲得意義。

正如你所知道的,電腦仍然在聽我們的話。但是當語義網技術成熟發展起來以後,這些中心化的數據庫——例如Amazon和Ebay,他們都是有著眾多子條目的中心化數據庫–將會散落到網絡的每一處。每個人都將會有自己的那一份數據庫,他們自己的迷宮。發佈這些數據很容易,但是問題在於如何將他們聚合在一起。即使對於一些程序員來說,創建一份RDF文件也是很困難的。

這些都將會逐漸的改變,到了2004年的,Google將會有三種服務:Google市場搜索,Google個人代理和Google認證經理,以及一個軟件:Google市場經理。

Google的市場交易搜索

市場搜索位於Google語義搜索特徵的最重要的部分,而且差不多每一個瀏覽它的人至少會使用一次。你僅僅需要簡單地鍵入:

出售:「馬丁」牌吉他

來看看想買馬丁牌吉他的人的名單

購買:「馬丁」牌吉他

這是用來察看賣方的名單。

Google要求並且記得:你的郵編、按照價格組織的吉他名單中使用簡單的排序控制、狀態、型號、新的還是用過的,以及接近(的價格)。頁面是由Google的「傳統」非語義Web搜尋工具產生的,考慮在Web上長期最佳的匹配,並鏈接到馬丁型號和買者嚮導的信息,以及Google用戶新聞組的文章。還會鏈接到Epinions這樣的站點以彌補紕漏。

因此Google 市場搜索在哪裡得到信息呢?Google是以相同的方式找到它所需要的信息的——通過爬遍它找到的所有網絡和索引。而現在,它正尋找RDDL文件,它會指向RDF 文件,包含這樣的邏輯語句:

(Scott Rahin)住址的郵政編碼 (11231)
(Scott Rahin)電子郵箱地址(ford@ftrain.com)
(Scott Rahin)擁有(馬丁吉他)
[Scott的](馬丁吉他)型號是(245)。
[Scott的](馬丁吉他)可以在(http://ftrain.com/picture/martin.jpg)這裡看見
[Scott的](馬丁吉他)價值(900美元)
[Scott的](馬丁吉他)狀況(良好)
[Scott的](馬丁吉他)可以被描述成「保存得很好,並且很少玩(傷心啊!)。美妙,圓潤的聲音和一套多餘的吉他弦。我很高興能向順便拜訪的人展示它,或者在紐約市內的任何地方交付它」。

理解上面語句最重要的部分不只是在方括號和圓括號之間,而是指針。(Scott Rahin)是指向http://ftrain.com/people/Scott的一個指針。(馬丁牌原聲吉他)是指向URL的指針,它會反向參考包含其他邏輯語句的專業知識數據庫,像這樣:

(馬丁吉他)是一把(原聲吉他)。
(原聲吉他)是一把(吉他)。
(吉他)是一種(樂器)。

這意味著如果有人想搜索吉他,或者原聲吉他,所有的「馬丁吉他」能被納入搜尋範圍中。並且那表明Scott可以說他有「馬丁」或「馬丁吉他」,然後計算機為他計算出其餘的部分。

實際上,我剛剛對你說了謊——它確切來說不是按照那種方式運行的,並且使用指針時會產生許多歧義,並且甚至動詞短語也可能是指針,但是總比湧現出很多術語要好(諸如:namespaces, URIs, prefixes, serialization, PURLs……)。我們將略過那個部分,僅僅關注必要的事實:在語義網中的一切描述都是有URL的(或者URI之類)。真正的意思是說RDF是關於網絡數據的數據(或者叫元數據)。有時RDF會描述其他的RDF。因此你看到了怎樣使用全部語法的陳述,並且希望建造能自己思考的語義網嗎?綜合像那樣的陳述?是嗎?現在真的跟上(我的思路)了?是的,沒有人做這個。

因此Google 使用爬過RDF並建立索引的方法把每個人都聯繫在一起。當然,連結匿名的買主與賣主是不夠的。還需要是有信譽評估。輸入「網絡信譽評估和等級框架」,會顯示各種各樣的信譽評估框架,但是最後這個會被W3C認證(在麻省理工學院和ECMA的核事故之前),它現在是標準。他怎樣運行呢?像這樣:

在Kara Dobbs的站點上,我們找到這樣的敘述:
[Kara Dobbs]說(Scott Rahin)是(可信任的)。
在James Drevin的站點上,我們找到這樣的陳述:
[James Drevin]說(Scott Rahin)是(可信任的)。

等等。很好——但是你怎樣知道如何首先相信別人?
跟著我的思路:

在花旗銀行的站點上:
[花旗銀行]說(Scott Rahin)是(可信任的)。
在萬事達卡的站點上:
[萬事達卡]說(Scott Rahin)是(可信任的)。
然後在Google裡面:
[Google信譽評估服務]說(Scott Rahin)是(可信任的)。
並且如果
[花旗銀行 ]說(Kara Dobbs等人)都是(可信任的)。

然後你開始看出來它們全都是一致的,哪怕別人有一丁點的不誠實,你都會知道,實際上這種感覺很好。現在,如果關於信譽評估、真實的狀況、人類行為種種問題上升到10億個,我們不必需要查看30萬億個頁面,只相信它現在起作用就可以了。並且這一類的許多其他材料就像這樣子:

[美國社會保險管理機構]說(Pete Jefferson)在(1992)年出生。

這表明Pete Jefferson能從因特網中下載成人的錄像和視頻遊戲,因為他19歲了並且有一個社會安全號碼。無論如何,不能給未成年人授予安全號碼。並且不能忽視市民們通過自由分支的表述:

[Sherriff,來自德克薩斯的達拉斯]說(Martin Chalbarinstik)是一個(性侵犯慣犯)。
[Sherriff,來自德克薩斯的達拉斯]說(Dave Trebuchet)有一個(退回支票)。
[美國,綠黨]說(Susan Petershaw)是一名(成員)。

數據庫具有很強大的能力,它們集合的數據非常之多,它們還能關涉隱私,但是不允許作者利用冷酷的機器通過毫無根據的描述,來破壞我們的公民自由權,讓我們繼續前行。

無論如何,當你考慮它的時候,你看出Google為什麼總能很自然地把它們集合到一起。Google已經搜索了整個網絡。Google已經有數千台獨立的機器構成一種分佈框架。Google已經在頁面中找到了鏈接,這是建造它的索引的方式。 Google的搜索引擎用數百萬個變量解決方程式。在RDF裡語義的網絡內容,正是另一個搜索問題,另一套方程式而已。主要的問題在於首先得到信息;想出用它做什麼;從所有的工作中贏利;並且保持它被更新……

Google 市場經理

嗯,首先你需要信息。不過要人們僅僅在一台服務器上找到它,就好比一場混亂——因此讓我們看看「Google市場經理」,一個為Windows、Unix和Macintosh設計的小軟件。市場經理,或者簡稱MM,看起來像一張有規律的電子錶格,允許你列舉關於自己的信息,你想要出售的東西,你想要買的東西……它基本上是一名「邏輯語句的編輯」,只不過偽裝成一張電子錶格而已。人們輸入他們的名字,地址和其它關於他們自己的信息,然後,他們輸入正出售的東西,MM就會保存成RDF 格式文件,傳遞給他們選擇的服務器 ——並且把一個「連接測試程序(ping)」告訴Google,從而不斷改進他們的索引。

當它被開發出來的時候,MM真具有魔法般的魅力。假如你想出售一本書。在分類中你輸入「書」,MM就會查詢開放產品分類法,然後返回詢問你,它是否是一本精裝書、平裝書、用過的、新的、收集的等等。開放產品分類法本質上是一個結構化辭典,並且它將迅速成為描述出售產品的絕對標準。

然後你把書背面ISBN 號碼輸入進去,確認一下,MM就會自動返回填寫作者、版權、頁數和簡介——它只用RDF查詢了一下服務器,獲得它,計算它,返回給你。 如果你是一個小的出版社,你可以列舉你的目錄。如果你有《憤怒的葡萄》的第一版,你可以描述它並且給一個最低的可接受價格,它將在Google拍賣分類中出現。當Google 解釋被輸入的描述、大概符合電子錶格中的東西時,MM的多數小巧的功能實際在那些服務器上。如果你輸入汽車,它會詢問你顏色。 如果你輸入酒,它會詢問葡萄收穫期、葡萄園位置、多少瓶酒。然後,當某人尋找1998的Merlot酒時,你的葡萄酒信息就會列在目錄頂端。

你也能通過MM為高額時段或者大宗項目購買廣告,並且能跟蹤這些廣告的投放情況;它在漂亮的桌面上被全部升級和更新。你也能在網絡上隨時察看同步數據,但是使用MM是美好、快速、最優的。 當你買東西時,它在你的「購買」欄裡列舉項目,通過購買商品的類型來排列,這樣很容易打印出賬目,並為你和那好地記錄下來。

因此,就像我們說過的,Google允許你尋找買方與賣方,然後,使用一種「厚臉皮」的服務從無所不在的貝寶複製過來,交易的費用是1.75%。當然,人們能通過寄支票或者當面交付的方式避免1.75%的費用,但是對大多數交易來說,使用迅速而便宜的服務很不錯——1.75%費用加上投遞廣告和能到達全球的範圍,並且你能通過賬戶平穩地流動數百萬美元。

Amazon和Ebay,還記得它們嗎?無疑地看到了這項新產品並且意識到了他們所處的困境。為了去和Google競爭,他們必須「開創自己的商業模式」——把他們的數據庫交給不可理喻的網絡。因此,在「最優秀公司風格」的掩飾下,他們兩面下注並且什麼也沒做。

儘管他們很低調,但不久之後各種各樣的服務競相出現,就像Google一樣搜索了相同的數據,提供更便宜的交易價格。但是Google有品牌、信任和利潤。

超過100萬的個人在2年內接受並且開始使用新的服務——基於語義網購物。在這2年時間,Google大約有3億美元的資金流動——其中交易的淨額達450萬美元。但是,就像Ebay和Amazon曾經強迫消費者把生意帶到網絡上面來,口頭傳播開始發揮它的魔力。自從尋找想購買的東西變得容易了,並且MM也很容易下載和運行,到2006年訪問Google市場交易的人數增長到1000萬。

Google個人代理

現在,搜索已經不能滿足人們的需求了,還需要服務。你需要計算機幫助你。因此Google也開發出個人代理——本質上,它是一個經常查詢Google的小軟件,當它發現你正在語義網上尋找什麼時,就會寄給你電子郵件。

想知道哪個服務的電話資費更便宜?問問google代理吧。想知道Wholand主題公園什麼時候會在倫敦以外開放?問問google代理吧。或者你的妻子什麼時候更新她網絡上的日程,或者MSFT的價格什麼時候會上升到3 美元,或者加納的政治局勢什麼時候會觸到火線。你甚至能編程序讓它為你談判——如果它發現一本首版完好的《Paterson》在2000美元以下,它會先出價低於詢問價500美元,然後從那兒往上一點點提價。在你和賣方之間是匿名的,如果你有正確的帳號它甚至是免費的,沒有人從中勒索。反而,不使用它買東西會被認為落伍了。就像普通Google搜索與語義網命題邏輯的協商,個人代理也做同樣的事情——根據預先確定的規則,它每隔幾分鐘就以獨特的方式這樣做。

Google認證服務

最後,Google意識到他們能通過提供認證和分等級服務,來實現「真實的網絡」的想法,回答一張調查表需要每年15美元,其中有你的信用調查,還要填入一些銀行賬戶信息。但是人們會註冊它,因為Google就是市場;贊成Google的更甚於對政府的信任。

你的點對點「陪審團」

因為全部信息都以RDF形式存在,Google自己的策略會考慮利用它。Google市場經理的免費克隆版本開始出現,其他搜索引擎開始連1.75%的手續費都削減了,努力找到其他的收入模式。點對點模式一直是MP3和OGG格式的最愛,回到包括實時銷售數據集合中,傳遍成千上萬台志願者的機器——Google也使用相同的模式,卻是個人分佈式的模式。Amazon和Ebay開始在站點上自動包括已收集的RDF數據,削減了一切花費,使它與現有拍賣和待賣物品相結合。

在2006年,花旗銀行Drop Box賬戶開戶費從100美元/月,然後30 美元,然後15 美元,一路下降到5美元/月。Drop Box賬戶由唯一號碼認證,並且只能得到存款(後來能轉移到其他賬戶和存錢了)。它們甚至有URL地址,並且使用金融轉移協議。輕輕一點你的瀏覽器到account://382882-2838292-29-1939,然後輸入你想要存的錢數。只要不遺失drop box號碼就不會有風險,而且不用花手續費。銀行在聯邦監督契約帳戶裡保存了存錢的信息。任何人能公開他們的銀行帳號,根本不用中間人就能出售他們的東西了。

就像音樂公司以前一樣感受到了壓力,他們的目光轉向了點對點市場,Google把費用下降到1%,允許MM用戶使用Drop Box賬戶,並且對MM軟件和服務的購買者每年收取25美元,而對使用者仍然免費。在緊張的幾個月過去之後,Google發現多數用戶出售的東西超過十個,他們很高興買這品牌的產品;但點對點網絡被認為不那麼值得信任,人們認為它是與Google廣告相聯繫的。Google也意識到他們也能提供Drop Box賬戶,並且把它們捆綁在股票和金融市場商業賬戶上,它使得我們跨過了複雜而未獲解決的問題。如果你對此感興趣,就去讀讀Tom Rawley的《The Dragon in the Chicken Coop》吧。

Google的金融服務當然能自動被插入你的MM股票交易中;現在它們正已25000倍的收入做生意,預示著「新新新新經濟」消息的來臨。你在這兒得不到這樣的預示;當他們一旦把它做成了,競爭將是殘酷的。Google在過去不到十年的時間裡是夢幻公司,但是他們最終會減慢速度,這正是完成他們的哲學博士論文的時候。並且我確信他們會這樣的。

一個恐怖的語義化未來?

未來語義網的文化將很難處理。隱私是被密切關心的,但是保留太多的隱私卻無益。記得那些分類法嗎?嗯,一群人在開曼群島之外研製一種「魔鬼分類法」——一種特殊牌子遊艇的內部零件的辭典目錄,但是除了在紙上,實際上建立遊艇的公司從未存在過。他們其實是武器和藥品走私組織。當某人說」裝配」時,意思是大火力的自動步槍。厚帆布是可卡因。一台發動機是武器級別的钚的別稱。

因此,你在與一位妄自尊大的非洲共和國領導人在革命期間會面時,你僱用了一名移居國外的俄羅斯科學家,你的銀行賬戶內有販賣海洛因得來的60億利潤,並且你需要買一些武器級別的钚。誰來為你做這事兒?Google 個人代理,表面上你只不過為遊艇買了一台新發動機而已(雖然1800萬美元稍微有點貴)。如果你正通過「魔鬼分類法」出售鋁制咖啡壺——或者應該叫做蠻純的海洛因。你可能說,因此你彌補了這種差別。

突然作為犯罪策劃者的最大的問題產生了——發現從沒出賣你的那個賣方跑路了。由於那麼多賣方,你甚至能討價還價。出售钚就像出售馬丁吉他那樣順利、簡單、匿名。這難道不能發生嗎?一些人說它能,並解釋說Mandatory Metadata Review法案正在國會的審議議程中,全部RDF必須被引向公眾分類法。就像那個人所說的,你可以生活在有趣的年代。這是誰說的?在Google上查查吧。
分享至PLURK 噗浪 分享至FACEBOOK 臉書

沒有留言: