【內容摘要】本文以阿里巴巴公司打造的阿里云梯集群為例,闡述了該集群在購物網站運營和數字資產管理中的作用。
【關鍵詞】阿里云梯;購物;網站;運營;資產
一、引言
在數字資產管理這一范疇中,有三個不可或缺的核心元素:一是網站系統的基礎架構。隨著網絡技術的迅速發展,人們有越來越多的機會接觸到種類繁多的數字資產,與此同時,人們也在不斷創造、傳播和存儲不同種類的數據與元數據,這些海量的數據與元數據在不同領域得到廣泛應用。舉例來說,在電子商務領域,阿里巴巴作為全球發展最快的線上商業網站巨頭之一,正逐步從電子商務領域轉向了大數據分析領域。目前,阿里巴巴公司主要采用MapReduce這一技術框架作為其技術基礎,以解決大規模數據在處理中遇到的問題。“MapReduce這一技術框架的基本概念是在多個節點間分布數據,并以并行的方式處理數據。”①此基礎結構幫助大量電子商務公司設計其系統的體系結構,并處理其海量數據和元數據。筆者將在下文闡釋并分析MapReduce框架的工作原理及其主要實現技術Hadoop。同時分析MapReduce模型和Hadoop在電子商務網站淘寶上的實際應用原理和過程。第二個核心概念是數據存儲。在電子商務領域中,用戶購物行為、產品信息和網站財務狀況等方面的數據至關重要,此類數據在分析用戶偏好和商品知名度方面極具價值。筆者將著重分析淘寶的數據存儲平臺:數據魔方。第三個核心概念是用戶服務。目前,用戶服務的重要性越來越受到人們的認可和重視。用戶體驗的改進可以滿足不同用戶的需求,同時,它還可以通過創造用戶對產品和品牌的認同感和親密感來建立并固化品牌與用戶之間的紐帶。筆者將通過兩個方面來分析淘寶網站的用戶體驗服務質量:產品目錄設計和針對不同用戶的產品推薦系統。在最后一節中,筆者將闡釋上述這三個核心要素間的相關性。
二、網站系統的基礎架構
隨著數字技術和互聯網的飛速發展,越來越多的數字資產被不斷地創建、傳播和存儲。相應地,人們更加意識到數字資產管理的重要性。目前,數字資產管理系統正被應用于不同領域的各種組織和企業中。例如,在電子商務領域,數字資產管理已經逐漸成為一項核心業務。2015年,一家加拿大鞋類零售商通過使用MediaValet,即一個基于云計算的數字資產管理系統,在圣誕節后的促銷日(Boxing Day)向用戶推銷網站商品并取得了相當大的成功。曾有學者這樣分析:“日益網絡化的經濟使商家產生了對于數字資產進行管理的需要,這些數字資產不僅包括圖片和文字, 還有培訓材料、賬單報表、財務交易記錄、法律文件、保險表格、音頻和視頻剪輯等等。這些資產需要在內部和外部與供應商和客戶共享。”②高效的數字資產管理體系能使商家充分利用其數字產品,還可以幫助用戶更好地獲取所需的信息。在數字資產管理實操過程中,相關公司會選擇一個符合其業務策略的數字資產管理系統以滿足其商業需求。該類系統包含不同的組成部分。正如Tansley,Smith和Walker的理論中所提到的:“(數字資產管理系統)需要通過管理靈活的協作基礎架構以形成合作性的團體并使系統正常運作?!雹垡虼耍P者認為,在上述提及的數字資產管理系統的組成部分中,系統的基礎架構將起到最為根本的作用。
作為中國知名在線購物網站,淘寶網已經成為全球最具競爭力的電子商務網站之一。Statista的統計數據表明,截至2017年第三季度,淘寶網上活躍用戶的數量約為4.88億人次。這一數量可觀的用戶不僅為網站帶來了巨大的收入,同時對阿里巴巴公司數據處理系統的基礎架構提出了挑戰。自2010年以來,淘寶開始采用MapReduce框架作為其主要的數據處理基礎架構。作為一種程序模型,MapReduce在處理大型數據集(dataset)的過程中分為兩個階段。第一個階段是“映射”:輸入數據被劃分為不同的數據塊,這些數據塊被分配到一個個計算節點。每個映射任務以并行方式處理該數據塊。在此過程中,原始鍵值對(鍵值對存儲是數據庫最簡單的組織形式)映射到新的鍵值對,與此同時,起到媒介作用的中間鍵值對生成。在這一過程中輸出的數據成為下一個過程中的輸入數據。第二個階段是“縮減”階段。在此過程中,將具有相同中間鍵值的數據收集并重新排列為新的表單,然后在最后階段輸出。實際上, 當某一作業由 MapReduce 框架處理時,輸入數據集將分布到不同的單個數據塊中,并且將以并行邏輯進行處理。“映射”任務輸出數據完畢后,框架將對數據進行排序, 然后將結果傳遞給“縮減”任務。文件系統記錄輸入和輸出操作。MapReduce框架在管理和監視每項任務的同時也會重新處理先前失敗的任務。
MapReduce框架還根據數據的局部性原則來處理數據集。Denning的理論中曾提出,數據的局部性原理有一個至關重要的好處:“傾向于同一運行位置的對象可以在存儲系統中進行分組,以便它們可以一起(有效地)加載到處理器的緩存中。”④在數據處理開始之前,MapReduce框架將數據集分發到每個節點。在處理過程中,每個節點在接近的本地存儲區中讀取數據塊,然后將處理后的數據合并、重組和排序。最后,將數據分發到“縮減”節點。其優點是:框架避免了大型數據集的傳輸,同時也提高了數據處理效率。
Hadoop是一種開源的分布式并行編程框架。它是MapReduce模型的Java實現。Hadoop由HDFS (Hadoop分布式文件系統)、MapReduce和Apache HBase組成。HDFS采用主從式框架,HDFS系統中包含有一個Namenode (主節點)和一定數量的 Datanodes(從節點)。作為中央服務器,Namenode扮演著最為重要的角色。它管理文件系統的命名空間和來自客戶端的文件訪問。Namenode包含兩種類型的元數據:文件系統元數據和位圖。第一種元數據是指文件的名稱、數據塊以及訪問文件的權限等。它還包含原始文件系統的快照和文件系統的生命時間中的每個編輯行為。第二種類型的元數據是位圖。位圖中包含數據塊和Datanodes之間的鏈接。Namenode通常被視作文件系統的搜索引擎。當客戶端打算訪問和修改文件時,Namenode幫助他們跟蹤和定位Datanode服務器中的正確數據。Datanode中包含不同的數據塊,其主要功能是管理存儲的數據。當Namenode提出要求時,Datanode對操作要求作出響應。
作為阿里巴巴旗下的電子商務網站,淘寶網建立于2003年,經過15年的發展,它已經成為世界上最受歡迎的線上購物網站之一。Statista的統計數據表明,截至2017年最后一季度,該網站有大約5億注冊用戶,每日訪客達到了6000萬人次。每一分鐘大約有5萬商品成功售出。在這些引人注目的數字背后,數據處理基礎架構的貢獻是不可或缺的。從2009年起,淘寶網的技術團隊開始建立自己的Hadoop集群:即阿里云梯集群(以下簡稱為云梯集群)。云梯集群是處理PB級業務數據的內部數據平臺,其處理的數據內容主要來源于域名為“www.taobao.com”的電子商務網站。⑤經過4年的發展,云梯群集包含了2900多個節點,這使它成為中國最大的單主節點Hadoop集群。云梯中存儲的數據總量已超過25PB,這些數據還在以30TB/天的速度快速增長。⑥云梯集群的主要功能是提供大規模的數據處理服務,同時還可滿足不同的商業分析需求。作為收集 “系統日志、爬蟲頁面和在線數據庫副本”的平臺,云梯集群能夠對“流量統計、產品銷售趨勢和推薦系統”進行分析。⑦例如,通過使用云梯群集提供的數據, 市場營銷經理和分析人員可以詳細地將淘寶用戶分成不同的消費群體,這通常是基于用戶的物理位置、年齡和性別等。相應的算法有助于分析用戶的瀏覽歷史、購物習慣和購物反饋,并將各種商品展示給不同的用戶群。這種個性化的營銷策略使每個用戶都能夠訪問他們潛在感興趣的產品。該算法的另一個優點在于:它可以預測一段時間內的銷售趨勢。由于網站的空間有限, 且消費者需要時間和精力來選擇顯示的商品。因此, 在每5至10分鐘,該算法對后續時間內的銷售趨勢進行預測,然后更新商品。此外,在打折季期間,云梯集群將會收到大量的MapReduce任務。云梯集群將根據任務的復雜程度對其進行分類和排序,再進行資源分配或是追加額外服務器以滿足不同的需求。⑧
阿里云梯群集并非市場上其他Hadoop群集的復制品。淘寶技術團隊開發了自己獨特的Hadoop集群與阿里分布式文件系統。這一系統的主要原理是將非熱點數據放到數據庫中, 而非放到Namenode中。這一做法首先解決了Hadoop分布式文件系統(HDFS系統)中Namenode中的單點故障:即如果機器中的任何一個Namenode不可用,則整個群集將無法正常工作。其次,這一做法解決了內存瓶頸問題,使軟件升級的時間從一小時縮短到5分鐘??偟膩碚f,系統的穩定性和可維護性都得到了發展。另一個改進是對于HDFS Raid的應用。過去,基于安全考慮,HDFS系統將一條數據劃分為三條。雖然保證了數據安全,但磁盤存儲的成本很高。隨著HDFS Raid的應用,磁盤存儲空間的需求比以前少了20%。阿里巴巴大數據部首席技術官表示,這一改進幫助該公司節省了上千萬元,同時系統的可靠性并未下降。
三、數據存儲
作為中國最具活力的電子商務平臺之一,淘寶網擁有巨大的數據存儲系統。Statista的統計數據表明,截至2017年,阿里巴巴集團每月活躍用戶人數達到5.49億人次,而淘寶網和天貓網站(阿里巴巴集團旗下另一家網上購物網站)的賣家總人數約為980萬。不同類型的數據是由消費者和賣家在購買、收藏和商品評價過程中創建的,這些數據包括交易記錄、搜索和瀏覽歷史等。一個有效的數據存儲方法可以幫助淘寶網挖掘出網站和商品潛在的商業價值,還可以幫助賣家經營管理線上業務。
淘寶的數據處理平臺包含三層:數據源層、計算層和存儲層。數據源層包含從用戶行為日志、產品信息和交易行為中收集的信息。相關數據收集完畢后,信息將被傳送到計算層。此層中的主要基礎結構是云梯群集,主要功能為處理數據。每天大約有4萬個工作任務根據不同的需求處理1.5 PB的原始數據。此外,在線上商品交易的高峰期, 如“雙十一”或情人節,網站對統計數據的需求相對較高,此類數據包括搜索關鍵詞、網站流量數據和點擊率等。在后端生成和分析數據后,平臺需要將結果推送到系統的前端。在這種情況下,云梯群集的計算效率往往不夠快。因此,淘寶的技術團隊開發了另一個名為“銀河”的分布式平臺。銀河文件系統有助于實時計算數據流,系統中的實時計算是在其內存中進行的,這是銀河系統與云梯群集的主要不同。然而,云梯集群和銀河系統都存在缺陷:首先,云梯集群可用于離線計算。但是,它無法滿足并發需求。其次,一個完整的分布式系統是數據接收、實時計算、查詢和存儲的結合,銀河系統需要通過分層來滿足這些要求。因此,技術團隊為系統開發了一個專門的存儲平臺:數據魔方。該平臺包含關系型數據庫(RDBMS):即MySQL數據庫和普羅米修斯存儲系統。
MyFox是分布式MySQL(結構化查詢語言)系統的代理層。其主要功能是完成在線分析。在 Hadoop平臺完成大量原始數據的計算后, 這些數據將分布到各個MySQL節點上。當前端應用程序需要從這些節點進行查詢時,可通過MyFox代理層進行透明訪問。這些SQL節點并不完全相同,阿里技術小組將它們分為兩類:即熱節點和冷節點。創建時間較新或是訪問頻率較高的數據將被存儲在熱節點中,存儲熱數據的硬盤是帶有15000轉/秒的SAS磁盤。冷數據則被存儲在7500轉/秒的SATA磁盤中。對數據進行分類的優點有兩個:一是提高了用戶的查詢速度,二是降低了存儲成本。
另一個存儲系統是基于Apache HBase模型的普羅米修斯系統。普羅米修斯系統的實際應用提高了淘寶的產品過濾功能。例如,在購買長褲時,用戶使用過濾器功能來選擇顏色和紋理。通常,在選擇顏色和紋理時,買家會面對多個選項(兩個以上的選項)。然而, 買家在選擇自己的性別時只有一個選項(男性或女性)。因此,屬性值的分布是不相等的。為了解決這一問題,該系統作為一種定制化存儲提供了現場計算和查詢服務。普羅米修斯系統的主要運行原理分為兩個步驟。首先,系統將在前一天收集用戶的詳細交易信息作為初始數據。第二,屬性值對將存儲在行排列中。相應地,交易ID號的索引字段和原始交易信息的數據字段將存儲在列排列中。每個字段元素的長度都是不可變的。此操作避免了硬盤中的大量隨機訪問請求。
四、用戶服務
隨著電子商務的發展,越來越多的用戶開始訪問不同類別的線上購物網站,如亞馬遜、eBay和淘寶網等。這些電子商務平臺的興起不僅為用戶提供了更多選擇空間,同時也給電商企業帶來了競爭與挑戰:首先,這類網站的功能沒有顯著的差異。其次,產品多樣性不顯著。因此,越來越多的電商企業意識到了拉近與客戶間的關系,與用戶建立紐帶,積累客戶忠誠度的重要性。要達成這些目標,最基本的是提升用戶服務質量,即用戶體驗。不同領域的學者對用戶體驗這一概念有著不同的理解。在業內有數十年從業經驗的Suzanne Chapman表示,“用戶體驗(UX)應在了解用戶的需求和行為后,將這種理解應用于設計和提供有用的、可用的、美觀的系統和服務中。”⑨在網站設計和開發方面,有學者認為,用戶體驗是“可用性、實用性和可取性的結合?!雹庖话銇碚f,為了改善用戶體驗服務,網站設計者應該考慮和滿足初學者和熟練用戶的需要。
下面,筆者將通過兩個方面來分析淘寶的用戶體驗設計:產品目錄設計和商品推薦系統設計。
淘寶的產品目錄系統系漏斗式結構,包含三個級別:一個一級目錄和兩個子目錄。該目錄系統的主要功能是將大量的數據歸類為不同的類別, 然后將其細分為信息單元。用戶可以通過各種主題訪問并瀏覽網頁。在目錄中,用戶也可找到專門的產品信息。第一級目錄包含一般產品信息:如服裝、配件、電子產品等。在這個級別的目錄中,每個展示商品名稱的標題的字體都很顯眼。當用戶將光標移動到相應標題上時,字體顏色將從黑色變為橙色。網頁的設計使用戶能夠在短時間內找到目標產品,并縮小搜索范圍。第二級目錄將產品信息細分為更詳細、更專業的主題。在本級目錄中,信息將根據用戶的性別、年齡和地理位置等進行劃分。例如,在一個名為“女裝精品店”的一級目錄下,二級目錄包含四個次級商品種類:裙子、t恤衫、長褲和婚紗禮服。在第三層目錄中,產品信息根據其用途、紋理、功能等的不同信息進行進一步劃分。例如,在女性裙裝的二級目錄下,三級目錄包含了棉布裙,花裙和包臀裙等商品種類。交互體驗設計師Jakob Nielson對超過200個網民的眼球運動進行了記錄,對這些用戶閱讀網站內容的模式進行了研究。他注意到,由于大多數在線購物者不會從頭至尾地閱讀網站中的所有內容,而是選擇大略瀏覽網站并跳過無關的信息,因此他們的主要閱讀模式如下圖所示,呈字母F形。
首先,淘寶用戶的視線進行垂直移動,并瀏覽主目錄。在找到感興趣的產品類別后,用戶視線將在次級目錄中進行橫向移動。在次級目錄下,用戶在找到目標產品標題之前,將進行更快、更簡短的水平移動。然而, 淘寶的功能并不局限于直接的產品交易。有時,在瀏覽線上購物網站時,用戶的目標產品是不明確的。在這種情況下,用戶將對網站的產品目錄進行掃描,并找到能激發他們興趣的關鍵詞。然而,用戶的耐心不是無限的。一旦經過長期瀏覽和掃描后沒有得到稱心如意的結果,用戶將自動離開網站。為了避免這類情況的發生,網站設計者應實時更新產品關鍵字。
淘寶的產品推薦系統主要是基于協同過濾算法。該算法包含兩種過濾模型:基于用戶的模型和基于產品的模型。在基于用戶的模型中,通過對兩個用戶的產品聚合進行相似性計算,可得到用戶的相似度。在基于產品的模型中,通過分析購買同一產品的消費者的聚集性,可得到產品之間的相似度。例如,購買了電影《指環王》的用戶也購買了電影《霍比特人》。這意味著這兩種產品是相似的。因此,當一個用戶搜索電影《指環王》時,系統將同時推薦《霍比特人》給他。這一推薦系統不僅有利于用戶,對網站經營管理也有所幫助。對于用戶來說,個性化的產品推薦可以幫助他們從漫無目的的瀏覽中節省時間。同時,通過增加用戶的轉移成本(即用戶在不同網站選購相似產品所花費的時間成本和金錢成本),也可提高客戶對網站的忠誠度。此外,網站可使用該系統進行交叉銷售,通過向現有客戶銷售產品,降低了吸納新客戶的成本。
總體而言,系統的基礎架構和數據存儲為整個系統提供數據處理、計算和存儲功能,提取、比較和分析了不同類型的數據,并將這些處理后的數據轉移到系統的前端,可作為輔助功能來改善用戶體驗服務。同時,這兩者的開發與使用為產品目錄設計和商品推薦系統的開發提供了技術基礎,后者的應用則提升了消費者在使用網站過程中的用戶體驗。
五、小結
隨著我國電子商務市場的迅猛發展,線上購物網站的知名度和使用度顯著提高。隨著時間的推移,廣大消費者們不斷地創造,傳播和使用著不同類型的數據和信息。對于企業來說,如何有效地利用這些數據可謂至關重要。高效的數字資產管理是提高網站競爭力的必要條件。筆者認為數字資產管理中有三個核心要素: 基礎架構建設、數據存儲功能和用戶體驗服務。筆者認為,這三個核心要素之間并非毫不相干,相反,三要素是相互依存的:前兩個要素是整個系統的基礎,同時能夠支持第三個要素的實現。
注釋:
①Ren, Z. et al. (2012) ‘Workload characterization on a production hadoop cluster: A case study on taobao’, Iiswc, Ieee, pp. 3.
②Frey, F. et al. (2005) ‘Digital Asset Management— A Closer Look at the Literature’, Rochester Institute of Technology, (March), p. 52.
③Tansley, R., Smith, M. and Walker, J. H. (2005) ‘The DSpace Open Source Digital Asset Management System: Challenges and Opportunities’, in. Springer, Berlin, Heidelberg, pp. 247.
④Denning, P. J. (2005) ‘The locality principle’, Communications of the ACM, 48(7), p. 19.
⑤Ren, Z. et al. (2012) ‘Workload characterization on a production hadoop cluster: A case study on taobao’, Iiswc, Ieee, pp. 12.
⑥Ren, Z. et al. (2012) ‘Wax elephant: A realistic hadoop simulator for parameters tuning and scalability analysis’, Proceedings - 7th ChinaGrid Annual Conference, ChinaGrid 2012, pp. 14.
⑦Ren, Z. et al. (2012) ‘Workload characterization on a production hadoop cluster: A case study on taobao’, Iiswc, Ieee, pp. 3.
⑧Ren, Z. et al. (2012) ‘Workload characterization on a production hadoop cluster: A case study on taobao’, pp. 3-5.
⑨Pennington, B. et al. (2016) ‘Strategies to Improve the User Experience’, Serials Review, 42(1), pp. 47.
⑩Stokes, R. (2015) eMarketing The Essential Guide to Marketing in A Digital World. Quirk eMarketing. pp. 202.