●楊 威,張 昀
(1.武漢軟件工程職業學院 計算機與軟件學院,武漢 430205;2.武漢地方志編纂委員會辦公室 年鑒編審處,武漢 430014)
網絡時代傳統出版業的生存空間受到網絡銷售渠道擠壓。電子書閱讀逐漸成為人們日常的閱讀習慣,各種電子出版物占據了傳統紙質媒體的一些市場份額。但是從統計數據來看卻并非完全是這樣。根據《大公報》2012年7月13日公布的數據,2011年期刊和報紙的發行品種有下降:期刊和報紙分別為9849種和1928種,比2010年分別減少35種和11種,下降比例分別0.4%和0.6%。與此同時,圖書、期刊和報紙的印數卻在大幅增長:圖書、期刊和報紙分別為77.1億冊、32.9億冊和467.4億份,比2010年分別增加5.7億冊、0.7億冊和15.3億份,增長比例分別為7.5%、2.2%和3.4%。[1]從這個數據比較來看,實際上傳統出版物的銷售在增加而不是在減少。之所以整個市場份額下降,是因為數字出版物的增長過于迅猛造成的。
網絡雖然帶來了電子出版物這一強有力的競爭對手,但是也打開了在線銷售這一強力渠道。于是,如何在網絡時代利用在線渠道來擴展銷售空間成了各出版社研究的問題。基于這個原因,本文作者在同香港德坤泰印書館有限公司合作開發的德坤泰線上用戶情報收集系統(Tactical Online User Intelligent Collecting System,TOUICS)的過程中,以情報工作的方法結合網絡技術對用戶的行為進行預測,并建立了一套情報系統,以期能更有針對性地出版讀者需要的書,實現更好的銷售。
建立一套合適的用戶情報在線收集系統是可即時獲取用戶的想法,然后加以統計,得出一個動態的市場取向,以指導出版社的策略規劃。作者所帶領的團隊對德坤泰印書館的會員用戶進行各種統計,得到了很多實用的結果。
對于用戶情報的收集,本文從以下六個方面研究用戶情報對購書行為的影響,根據其影響程度排序。
(1)專業及受教育程度。目前情報學界公認的所學專業和受教育程度是對個體潛在行為影響最大的因素。這個潛在行為包括消費行為。由于書籍上承載了各種知識和信息,因此這兩點在書籍購買者(即用戶)的身上表現的特別明顯。具體來說,某個專業所涉及的知識點,基本上就是某個用戶可能購買的書籍范圍,單獨個體會在這個集合的基礎上有所突破,但是總體不會離開這個集合。而受教育程度的影響體現在兩方面:程度越高,越偏重理論知識和細化知識。
(2)性別和年齡。性別和年齡的影響主要體現在非專業書籍上。從性別看,樣本中女性用戶11439人,占53.75%,男性用戶9841人,占46.25%。女性用戶比男性多這一事實從對德坤泰印書館的市場部門職員的訪談中也得到了證實。此外,男性相對更喜歡購買運動、汽車、旅游、軍事等類別的書籍,而女性則傾向于各種旅行筆記、時尚指南一類的書籍。
年齡的影響也體現在書籍題材范圍中,用戶的分布非常有特點。首先,德坤泰印書館的一個非常大的長期用戶群體是中學生,此類學生會大量購買各種教輔。大學在讀的學生則較多購買和自己本專業相關的書籍。工作之后的人的購買傾向則比較雜,在年齡分量上沒有明顯的統計特征。但24~35歲的女性較多會傾向購買3~4本孕育和育兒類的書,這與官方公布的生育年齡區間大致吻合。此外,有小孩的女性用戶會隨孩子的年齡增長購買一些適齡讀物。另外50歲以上的用戶比較喜歡購買古典書籍,而60歲以上的用戶喜歡購買中醫、養生一類的書籍。
(3)愛好。愛好是左右購買行為的很大一個參考因素,可以導致直接的購買行為。各種DIY、攝影、烘培、音響等書籍都有一定的消費群體。愛好的另一個作用是可以帶動相關書籍的銷售,例如,膽機愛好者除購買專業膽機書籍外,一般會附帶購買各種模擬電路、金工等專業教程。
(4)職業和收入層次。職業決定收入層次,而收入本身也有一定的附加效應。職業分量會導致購買和從事工作、行業相關的書籍,但并不是所有職業都有這個作用。一般律師、會計師、大學教師等人員這種情況最明顯,其他工種則相對影響較少。收入會影響購買檔次和范圍。例如月薪10000港元以下的普通職員一般會選擇2000港元以內的書,如平裝中文版《福爾摩斯探案集》,而大學教授或律師則大多選擇英文原版且附帶各種參考資料的售價1055英鎊的《Sherlock Holmes》 套裝。
(5)居住地。不同的居住地有不同的生活習慣,也就導致了書籍購買分布的地區差異。例如,香港本地用戶不論年齡職業,都很愿意在各種賽馬書籍上花錢。而英國用戶則對園藝書籍最有興趣。
(6)其他狀態。這里指用戶從即時到未來6個月內所處的不同平常的狀態。例如,有用戶計劃近期旅行,多半就會購買和目的地相關的書。
上述六種用戶情報對購書行為產生了明顯影響。下面則是通過互聯網收集這些情報的幾種方法。需要指出,上面對六種用戶情報的統計樣本都來自于德坤泰印書館的用戶,而在線收集情報的對象則是面對所有互聯網用戶。
(1)電子調查問卷。根據上述六大類內容設計好一個電子調查問卷,然后往地址簿上所有的用戶的電子郵箱中發送一份。這種方法類似郵件廣告。調查問卷最大的好處就是直接,且數據容易格式化。對問卷結果只要稍加處理即可使用。不過其缺點也很明顯,由于填寫問卷會占用用戶時間且涉及個人隱私(姓名、工作等),加上會被誤認為垃圾郵件,因此,需要用到一定的獎勵措施才能提高回復率。[2]例如,只要填寫問卷并注冊為德坤泰印書館的會員,就可以獲取10英鎊或等值代金券。這樣一來就提高了成本。不過總體而言這種方法是首先應該考慮的。
(2)職員表。學校、大型企業、政府部門等都有自己的網站,且上面一般都有人事安排信息,很多都非常詳細。因此只需要編寫相應的程序就可以批量獲取這些情報。然后結合已知信息,如某個行業的對應職位收入、專業背景等,就可以得出和調查問卷差不多的格式化的數據。這種做法好處是情報獲取及時、準確。一般學校和政府部門以及大型企業都會及時更新其職員變動情況。缺點是不能做到細致化,如愛好、其他狀態等情報就比較難于收集。其次是情報來源較窄,對于中小企業或是沒有將這些信息上網的單位就無能為力。
(3)學生名冊。在校學生的基本情況一般都是上網的,也可以通過專用程序來批量獲取。不過并不是所有學校都對外開放了瀏覽學生信息的權限,在不采取非法手段的情況下是無法獲得這些情報的。不過就目前情況來看已經能獲得相當多的樣本了。
(4)俱樂部、協會、民間團體成員名冊。很多正規組織有自己的官方網站,其中有相當多的網站上面公布了其成員名冊,至少是部分公布。從這些網站上收集來的情報的最大好處是興趣范圍和收入較一致。例如,一個高爾夫俱樂部的成員,其興趣基本都會集中在高爾夫、汽車、手表、旅行、戶外等方面。
(5)社交網絡和微博用戶信息。社交網站上有很多用戶是用真實姓名填寫的,且注冊時就已經填寫了教育程度、收入、興趣愛好等相關信息。而很多用戶為了實現多交友,都選擇了用戶信息完全公開。這樣只要一個專用程序就可以大量獲取相關情報并格式化。香港、英國和北美地區用戶最多的交友網站是Facebook,其用戶人數已經超過10億,這無疑是一個情報金礦。Twitter的用戶也有5億,不過其用戶信息則相對開放較少,比較難于獲取。這兩個情報來源的一個共同特點是用戶年齡層次相對較輕,以學生和年輕職員為多數。
(6)各大論壇的用戶信息。各大論壇,尤其是專業論壇,注冊用戶數量非常多,且對外開放比例較高,是一個值得搜尋的區域。論壇還有一個好處就是已經劃分了用戶愛好、教育層次、從業范圍等屬性。此外,雖然論壇用戶大多不具真名,但至少都會留下諸如MSN、電郵地址等在線聯系方式。因此,這種情報非常適合進行網絡推廣,屬于優質情報源。
通過上述渠道獲得了大量的原始用戶情報之后,對這些數據進行處理,以獲得兩類情報:宏觀用戶傾向和個體用戶傾向。宏觀用戶傾向即市場導向,也就是當前市場上最流行、銷售最好的圖書類型;個體用戶傾向是對單個用戶的分析。前者決定出版社下一步的出版計劃以及市場策略,而后者決定對某一個個體采取何種營銷手段。以下是對收集來的原始情報分析以及預測用戶行為的步驟。
按照第二部分所提到的收集內容的分類,以及用戶姓名、聯系方式等,建立一個數據庫。然后將獲得的原始數據填寫進這個數據庫。整個填充過程由TOUICS自動完成,無需人工干預。TOUICS的各個情報收集模塊會定期更新這個數據庫,將最新的數據填充進來。這是進行情報分析的基礎步驟。
數據庫中的數據并不是立即能夠使用的。很多收集來的情報明顯不能真實表達用戶的情況,這就是噪音,要去除掉。例如從某個論壇上獲取的用戶資料,用戶的所在地、年齡有可能是用戶隨意填寫的,因此,需要斟酌使用。又如某個用戶的資料在進行格式化之后,發現沒有主鍵值,是無法使用的。去除噪音需要機器和人工兩方面來完成。首先由TOUICS按照事先規定的策略去除掉大部分的噪音,如缺少主鍵值的元組等。然后由工作人員進行人工精細化篩選,去除剩余的噪音。經過這個步驟之后,噪音仍然會存在,但是其比例可以忽略不計。
對于經過整理的數據,就可以進行宏觀統計工作了。統計的內容就是第二部分所述的六大類內容,如男女比例、各年齡段、職業分布等。這些由TOUICS自動完成。然后結合當前的市場趨勢,加上已知的各種參數對用戶群購買行為的影響進行加權計算,權值由第二部分的統計工作所得,也是TOUICS最核心的數據。TOUICS還有一個很特殊的功能,就是和德坤泰的訂單系統連接,及時將已實施購買行為的用戶的信息采集進系統,然后隨時更新參數權值,作為以后的參考。計算的結果會列出當前市場上所需圖書的類型列表及其所占比例。這就是出版社下一步進行出版規劃時的重要依據。
對于辛苦得來的情報如果僅僅只做一個市場方向的分析就太浪費了,好的情報人員還要想方設法挖掘情報背后的價值,即進行增值工作。對于個體,可以預測其下一步的購買行為。只要在TOUICS中設定一系列的策略,它就可以根據已有的數據來判斷一個用戶會購買什么書。這些策略是由市場部門的職員經過多年的經驗積累總結得出的,也是TOUICS的另一大核心數據。例如,一個35~40歲的男性在幾大名表論壇上有注冊,但沒有發帖記錄,則其一定會購買至少一本名表鑒定相關的書籍。甚至可以肯定其所注冊的分論壇,就是他想購買表的品牌。這時如果往他的郵箱中發送相關的廣告,成功率會非常高。TOUICS可以根據模板生成多種不同的廣告郵件,里面的內容就是目標用戶可能購買的書籍。然后自動填寫郵件地址、標題,并通過德坤泰印書館的郵件服務器發送出去。
通過TOUICS得到的數據經過處理和分析后,提交管理部門進行討論,以制定下一步的出版計劃作參考。需要注意的是,TOUICS的結果僅僅只是對市場的統計性分析,且沒有考慮諸如成本、法律等相關因素,因此僅供決策者參考。同時,技術部門和市場部門的員工還要通力合作,維護系統數據庫并及時更新數據,以實現對市場的動態分析。
TOUICS系統由6個主模塊和共計29個子功能模塊組成,如下圖所示。

圖 TOUICS的模塊劃分
在線情報收集系統TOUICS,經過一年多的運轉,證實其確實能起到預測市場導向和用戶行為的作用。后期我們將對TOUICS進行深層次開發和擴展,完善TOUICS尚不健全的部分,加入更多的算法分析功能,以實現更精確的情報分析功能,為情報分析工作的社會化應用作出新的貢獻。
[1]大公網 [EB/OL].[2012-07-13].http://www.tak-ungpao.com.hk/mainland/content/2012-07/13/content_710087_2.htm.
[2]吳曉偉,等.基于TAM和知覺風險的網絡競爭情報用戶使用行為研究[J].情報科學, 2010年(6):931-935.