2013年10月25日 星期五

日本企業如何用Big Data建構核心競爭力

http://www.ithome.com.tw/itadm/article.php?c=83266

文/iThome (記者) 2013-10-25

從建構分析系統、調整組織體制、到實現用資料驅動營運的經營模式,看日本企業怎樣活用Big Data改造企業DNA

Big Data大數據的獲利模式:圖解‧案例‧策略‧實戰
城田真琴(Makoto SHIROTA)/著;鐘慧真、
梁世英/譯
經濟新潮社出版
售價:360元

‘ Hadoop真正價值在於「正因為可進行高速處理,能夠反覆不斷地改變必要條件並且不斷反覆試誤」、「可以實現抽樣資料無法做到的長尾部分的分析」與「縮短開發週期」,才是值得考慮運用Hadoop的企業深思之處。’

巨量資料的運用,印象中似乎是歐美企業領先於日本企業,不過,日本企業中也有一些善於運用巨量資料而收到顯著成效,或正開始收割成果的公司。

瑞可利(RECRUIT):徹底運用Hadoop資料分析,成功改造企業文化
1960年成立,從專門承攬大學報紙之廣告代理商起家的瑞可利,以《RICUNABI》提供求職、轉職等的工作情報誌為起點,接著更將領域拓展至新娘誌《ZEXY》等與生活型態相關的媒體。

不光是利用傳統的紙本做為傳達資訊的媒介,1995年起瑞可利也跨足網路,目前營收中來自PC、行動電話、智慧型手機等網路領域的占比,已成長至瑞可利全體營收的三分之一之強。

幾乎全公司上下都用Hadoop
瑞可利所營運的網站中,大多使用Hadoop及其生態圈(ecosystem)(Hive、Mahout、sqoop等)來進行產品推薦系統的實作、關聯分析與屬性分析等,並達成了分析所需之資料處理時間的高速化,得到莫大成效。

以《Hot Pepper》的「美食Gourmail(gourmet與mail的造字)」數位電子報為例,過去進行存取日誌(access log;存取紀錄)的處理要花上不少時間,因而只能夠處理一週份的日誌檔,並只能對部分會員(八萬人)發送產品推薦郵件。不過改以Hadoop處理日誌檔來力求資料處理的高速化後,便能夠處理一年半份的日誌檔,並對約二十萬人發送產品推薦郵件。點閱率(CTR,看到廣告後進行點擊的比例)與轉換率(CVR,網站來訪數中有幾成轉換為實際相應行動的比例)也因此增加了約1.6倍。

同時,Hot Pepper也將Hadoop運用於調查何種吸引顧客的措施(橫幅廣告〔banner advertising〕、自然搜尋〔organic search〕、付費搜尋引擎等)最能貢獻於轉換率的關連分析。對於網路廣告投放量為全日本之冠的瑞可利而言,當務之急便是力圖成本的優化。比方說,若了解到每次點擊付費(PPC)廣告的成本效益不彰,就能夠重新審視預算的分配(PPC廣告、橫幅廣告或搜尋引擎優化〔SEO〕等),力求整體行銷成本的優化。

此外,二手車資訊網站carsensor.net,則運用Hadoop與Mahout來進行車種選擇畫面上「同時受到瀏覽次數較多車種」的推薦功能。Mahout是在Hadoop上運作之機器學習與資料探勘的函式庫,實作有利用使用分群(clustering;叢集)或協同過濾(Collaborative Filtering)技術的推薦引擎。

在進行產品推薦時,為了透過類似亞馬遜的協同過濾,或同車種等特有條件、依據關連法則進行推薦等方式,提昇顧客需求媒合精準度,必須從眾多條件中挑選出最佳者來進行推薦,而有效利用Hadoop的高速處理能力,便可實作出根據最佳條件所進行的二手車推薦系統。此外,也能夠事先對用戶的性別、年齡等進行分類,並依據車身類型將汽車相關資料分為輕型汽車、敞篷車等組別後進行關連分析,再將推薦理論(協同過濾、關連法則等)運用於二手車推薦系統。
支撐瑞可利巨量資料分析的Hadoop基礎

瑞可利最早注意到Hadoop並開始摸索與審慎評估是在2009年的夏天。既非IT供應商,也非系統整合商,做為Hadoop的用戶企業,瑞可利的腳步可以說是異常地早。瑞可利於2011年4月正式啟動Hadoop的可行性研究(Feasibility Study),之後便一路順利地進行實際應用。

瑞可利從過去便積極採用Apache Web Server、Tomcat等開放原始碼軟體,公司內部甚至具備軟體維護部隊,與軟體技術的駕馭並非毫無淵源。正因為過去積極採納開放原始碼軟體,方可順利無阻地接受開放原始碼的Hadoop,走在同業的先端並證明Hadoop在商業用途上的可能性。此外,瑞可利不僅使用做為開放原始碼所提供的軟體,更以Hive為基礎,獨自開發出可從瀏覽器執行HiveQL的網路應用程式「WebHive」,並公開於Github。從好的方面來說,瑞可利「不務正業」地從事Hadoop用戶企業本分以外的活動。

目前瑞可利利用Hadoop管理100 TB左右的資料,並擁有約一百三十部專門提供Hadoop運作的伺服器。不過,這些伺服器並非是規格最新穎的電腦設備。瑞可利利用了轉移至資料中心時所淘汰下來的機器,以一部主要伺服器(master server)、一部應用程式伺服器(application server)與五部次要伺服器(slave server)的組成來處理批次(batch)作業(不以二部主伺服器備援,而以最小叢集作業);且作為主要伺服器、從伺服器的機器是硬碟空間分別為300GB與600GB,記憶體容量分別為16GB與8GB,配備都是一般設備等級。雖然企業規模相距甚遠,但是,可以說瑞可利在這方面的想法,與谷歌等建構雲端環境的思考方式有著共通之處。

最近除了就地部署(on premise)於企業內的Hadoop環境之外,瑞可利也開始使用亞馬遜所提供之作為公共雲(public cloud)服務的Hadoop叢集環境「Amazon Elastic MapReduce」。瑞可利同時擁有公共與私有二種型態的雲,也就是所謂的混合雲(hybrid cloud)。

瑞可利之所以從建構自行營運、就地部署之Hadoop環境(私有雲)開始著手的原因,一則在於避免因技術的黑箱化導致公司的工程師無法學到技術的風險;二則在於經試算後,發現從總成本的角度來看,以瑞可利的企業規模進行每日的資料處理,自行營運、就地部署的方式較為划算。

雖然如此,目前已累積了某種程度技術能力的瑞可利,以適得其所的方式同時並用公共雲,比方說在資料處理之尖峰時段等的重點式運用,或在小規模網站上的運用等。

成功的祕訣在於組織體制
【圖表4-5】
瑞可利運用巨量資料有效發揮其作用的原因有很多,但筆者認為最主要的致勝原因,還是在於組織體制(請詳見【圖表4-5】)。瑞可利的組織由垂直的各個事業部門如Zexy net(新娘情報)、carsensor net(汽車情報)、SUUMO(住宅情報)等部門,並以名為「MIT United」的部門橫向整合各單位。

所謂MIT,指的是結合行銷(Marketing)與資訊科技(IT)。MIT United是推動與開發各事業部網路策略的單位,擁有二百名左右的團隊成員,由負責Hadoop開發等的基礎建設團隊、評估行銷手法並利用統計技巧來進行資料分析的行銷分析團隊,以及管理整體大規模系統開發專案的專案推動部所組成。MIT United的主要任務為解決應由公司全體共同承擔的問題,例如高難度的資料分析或維護大規模基礎建設等,另外,也有專門支援各事業部的團隊成員。

值得注意的是,瑞可利的基礎建設團隊與行銷分析團隊隸屬於同一個單位。就筆者所知,像瑞可利這種員工數接近6000人(2012年4月的時間點)規模的Hadoop用戶企業,基礎建設團隊成員與行銷分析團隊成員隸屬於同一個單位,是相當罕見的案例。

藉由近距離溝通,便可共同承擔各自面臨的困難與問題意識,迅速回饋解決對策,並利用實際資料進行驗證,比方說,對於行銷分析團隊提出「隨著資料量愈趨龐大,花費在彙整與分析的時間過多,無法再度執行(重覆)或溯及既往(追溯)」的問題,基礎建設團隊立即做出「引進Hadoop」的提議;而行銷團隊負責人在正確理解了各個事業部之需求與問題後,與統計專家協力合作,便能夠利用妥當的統計技巧進行資料的分析,即時執行集客與帶動買氣的相關措施。
對於瑞可利而言,Hadoop的「真正價值」究竟是什麼?

瑞可利股份有限公司MIT United專案推進部兼系統基礎建設室執行長米谷修,他對引進Hadoop的真正價值,有著非常耐人尋味的見解。

如果依照教科書內容來回答,Hadoop的優點在於「以批次處理為代表的高速化對策」、「以此做為日誌檔的基礎,以能達到資料管理的一體化」等。

不過,米谷修列舉Hadoop真正的價值,其實還包括以下三項:

一、正因為可進行高速處理,就能夠改變必要條件,不斷反覆試誤(trial and error)。

二、不僅只靠抽樣資料,連長尾部分(Long Tail)都能分析。

三、縮短開發週期。

以下依序進行說明。首先,關於第一項,米谷修表示:

【圖表4-6】
「過去進行資料分析時,資料整理與維護的時間長,分析方向也不容易進行調整,整體而言相當費時」。透過引進Hadoop之後,「由於大幅加速『提出假說(hypothesis)→製作原始資料(raw data)→彙集→分析』一連串流程的循環,可透過不斷反覆試誤以提昇分析的準確度」(請詳見【圖表4-6】)。

在這個一連串的流程中,第二項「不僅只靠抽樣資料就能進行長尾分析」對分析非常有幫助。也就是說,在驗證假說的過程中,是以全體資料來進行資料統整與分析,而不是利用抽樣資料,因而提昇了分析結果的準確度。對於事先並不知道答案、目標不明確的探索型分析,透過像這樣儘可能地使用更為大量的資料反覆驗證假說,成為通往目標的捷徑。

此外,在「分析」的過程中,「製作簡單的應用程式,藉由可視化直覺地掌握趨勢」也是相當重要的一點。資料的可視化,也是資料科學家所必須具備的本領。就算再怎麼細密地對資料進行彙整,若無法用來做為決策的要素,就失去了資料分析的意義。因此,讓人們看了能直覺地了解資料意義的可視化作業,便是相當重要的部分。

就像第三項縮短開發週期所提到的,若能以Hadoop迅速處理此一連串流程的循環,對事業的貢獻度將非常大。

最後,僅介紹米谷修的專訪中令人印象深刻的一段話:

「從技術的觀點來看,Hadoop可以高速處理大量資料的優點固然重要,但我認為更大的優點,在於讓從事分析與商品企畫的人員感受到『只要運用Hadoop便能達成過去所無法做到的事』,進而改變他們工作的想法,讓他們不再因為覺得不可能而下意識地放棄許多靈感。」

GREE:資料驅動型營運方式是快速成長的原動力
GREE原本是由現任社長田中良和開發的社群網路服務(SNS)起家,不過,由於2004年2月服務正式上線後的一個月內,用戶就突破一萬人等因素,難以倚靠個人力量獨自營運。因此,於2004年12月成立GREE股份有限公司做為營運主體,GREE公司正式開始運作。

GREE草創初期推出的服務以PC平台為主,藉著2006年7月宣布與KDDI合作的機會,營運方針轉向針對手機的網路服務。2007年3月用戶數突破一百萬人,2007年5月更推出世界第一款手機社群遊戲「釣魚★之星」。

這款「釣魚★之星」遊戲的問世,對於此後GREE的事業方向具有關鍵性的影響。原因在於,「釣魚★之星」首度證明GREE獲利來源的「小額付費」,在手機遊戲也能成立。

掌握以小額付費購買特殊的遊戲道具為獲利來源的GREE,進入了業績急速成長的階段。
與其相信一人的判斷,不如相信數千萬人的資料

GREE急速成長的原動力,在於「與其相信一人的判斷,不如相信數千萬人的資料」──這個「資料驅動型營運方式」理念深植於該公司的緣故。過去遊樂器型電玩遊戲的平面設計(graphic design)或遊戲設計,大多容易仰賴於「可愛」、「酷」、「有趣」等個人的感性。不過,GREE重視基於資料的分析與決策,每個設計都是基於實際用戶資料,優先採用符合邏輯的設計,而不是基於個人品味所做出來的。

比方說,打算在遊戲中追加新的功能或其他做法時,首先必須在規劃階段明訂「對於招攬用戶的貢獻程度」、「對於提升用戶使用頻率的貢獻程度」、「對於提升獲利的貢獻度」等關鍵績效指標(KPI),並設定一個具體的目標值,例如:「採取這樣的決策之後,預估用戶將增加百分之幾」。當然,這一個目標值也必須符合邏輯從過去資料中推導得出才行。

具體的決策執行之後,必須每天甚至每小時統計「實際上產生了百分之幾的變化」的資料。例如評價招攬用戶效果時,「邀請朋友參加遊戲」之病毒傳播效應(viral effect),也就是網路上的口耳相傳便相當重要。為了將病毒效應可視化,除了日活躍用戶(DAU,daily active user)、發出邀請函的不重複用戶(UU,unique user)與邀請人數等資料外,更確實檢視「邀請率」、「平均每人邀請人數」、「擴散率」與「同意率」等中期指標,做為分析用的資料。

接著,在用戶的反應與預期有所出入時立即修正,持續進行改善到出現預期效果為止。雖然是相當土法煉鋼作業方式,但就是這樣老老實實地貫徹PDCA循環(Plan-Do-Check-Act Cycle)的做法,才能提升企畫的準確度,最終帶來可觀的營收。

資料驅動型營運方式的根基來自對於日誌資料的執著
GREE獨自開發出名為「GREE Analytics」的資料探勘工具,只要利用此工具,便能以每小時為單位掌握用戶的註冊日期、註冊路徑、使用狀況、各活動的參加率、遊戲參與率、消費率、小額付費項目別消費金額、遊戲進展狀況、持續率等用戶動向。而且,GREE Analytics並不只是為了資料探勘專家而設計,除了工程師以外,公司內任何成員都能夠利用此工具在網路上進行資料分析。比方說,即使是業務負責人,只要利用GREE Analytics,就能立刻得到「於X月X日經由iPhone註冊為會員的用戶,總共花了XX分鐘、XX日圓在『釣魚★之星』這個遊戲」的資料。

想要建構「基於資料做決策」的企業文化,並不是一件容易的事,以GREE為例,利用GREE Analytics這種任誰都能上手的資料探勘工具,可以說發揮很大的成效。此外,由於能夠以每小時為單位掌握用戶的動向,便可打造出可即時執行PDCA循環的環境,這也是推動資料驅動型營運方式的主要原因。

在資料驅動型營運方式的實踐上,可以看出GREE對於蒐集日誌資料(log data)的執著。GREE每日蒐集用戶在其平台或內容上從事何種行為之日誌資料紀錄,量多達平均一天數TB,並立即分析這些為數龐大的資料,從他們「隔天就分析完畢,並完成可視化」的說法,其壓倒性的快速處理速度著實令人驚訝。光是日本國內就擁有超過2700萬名用戶,若將海外市場也包括在內,GREE的用戶數便是1億5000萬人之譜,如此一來,可以想見GREE對於伺服器、儲存裝置與網絡等後端系統(backend system),甚至基礎設備均擁有相當高超的技術能力。

以基於資料的決策為企業DNA並滲透至公司全體的GREE,從服務的設計與開發階段起,大致上事先決定好服務推出後欲利用何種指標進行評估,再以日後有辦法取得所需日誌檔為前提進行服務設計與開發,因為若是無法蒐集到最為關鍵的日誌檔,不管準備再怎麼神通廣大的資料探勘工具也徒勞無功。(摘錄整理自第四章)
作者簡介
城田真琴(Makoto SHIROTA)

野村總合研究所(NRI,Nomura Research Institute)創新開發部高級研究員、IT分析師,日本政府「智慧雲端運算研究會」智庫成員。負責高端技術趨勢調查研究、供應商戰略分析、國內外企業IT應用調查,專業領域為雲端運算、商務分析、M2M、IoT等。著作包括:《雲端運算的衝擊》、《你不可不知的雲端運算常識與非常識》、《2012年版IT年鑒》等。
分享至PLURK 噗浪 分享至FACEBOOK 臉書

沒有留言: