黃文彬,白浩東
(北京大學信息管理系,北京 100871)
全國中小公司股份轉讓系統(簡稱“新三板”)主要提供中小微型公司安全合法的融資渠道,以更高的價格進行股權流通,實現資產增值,并且吸引優質的投資人選擇具有發展良好前景的公司投資標的,以提高個人獲利。在股權交易市場中,投資人經常利用主營業務或商品劃分出相關或相近的、具有類似市場表現的公司集合,并從中篩選業績表現較好的公司做投資分析,如盈余預測、對比估值等。劃分公司集合的方法通常參考行業分類體系、概念板塊、使用市場倍數指標三種方法,其中,參考行業分類體系劃分可比公司獲得了廣泛的研究和討論[1]。為了區分公司產品達到統計的目的或者為了區分公司所對應市場的特點,國家相關管理單位或金融機構依據業務需求制定了行業分類體系,該體系需要滿足國家經濟要求與商業標準,形成適用范圍大、修改周期長、影響層面廣以及劃分粒度較宏觀等特點。由于新三板掛牌公司多屬于成長型中小公司,具有產品或業務所屬的范疇粒度小和業務變動速度快的特性,這就造成行業分類體系無法匹配最新的行業動態和公司實際最新業務特點,并不能滿足投資人尋找投資標的公司集合的需求。參考概念板塊劃分篩選源于人民幣普通股票市場(簡稱“A股市場”)投資人的選股方法,主要由市場研究團隊或媒體自發性依據某種概念或話題,構建非層級結構式標簽劃分的公司集合,如同花順概念板塊行情中心(http://q.10jqka.com.cn/gn/)。話題或概念具有豐富的意義,包括業務、商業模式、地域和事件等。從A股市場的劃分方式直接套用到新三板市場,造成掛牌公司業務的實際粒度未達到與概念匹配的適用性問題。采用市場倍數能夠更好地服務于后續預測估值工作[2],研究人員依靠市場指標市凈率、市倍率等對某特定行業下的公司進行篩選對比。然而,這些指標只適用于一級市場中業務成熟的公司,新三板中大量中小公司并沒有市場接受的市值,更不必說市場倍數。
綜上所述,為了提供協助新三板市場投資人在短時間內利用業務關聯,從上萬家掛牌公司中,篩選劃分公司類別形成投資標的,本文提出基于自動構建術語分類體系的方法,利用新三板掛牌公司年度報告的商業模式文本數據,得到具有層次結構的公司劃分結果,以此作為投資人的選股依據和理解投資標的與其他公司的關聯關系的基礎。首先研究者從年度報告文本中抽取出公司主營業務范圍相關的術語和術語相似性,根據術語相似關系進行聚類計算,并構建出術語網絡,利用術語網絡和公司業務所含術語集判定該公司所屬的類別標簽,其結果可反映出新三板市場劃分公司的特殊性,為投資人發現特定概念公司、理解概念與業務的映射關聯。
行業分類體系,是指在市場中根據相似的工業流程、相似的產品以及相似的市場組織分類公司的工具和方法[3]。投資人經常利用該體系開展找尋標桿公司來確定市場份額、挖掘潛在競爭對手、衡量公司績效和行業指數等作為商業研究和投資分析。根據不同的目的將分類標準分為兩種類型:管理型和投資型,兩者分別用于政府宏觀經濟普查統計和證券投資活動[3]。1999年8月,全球行業分類系統(Global Industry Classification Standard,GICS[4])由標準普爾(Standard&Poor's,S&P)與摩根士丹利公 司(Morgan Stanley Capital International,MSCI)聯手推出適用于投資型的行業分類標準,也是如今全球金融業內較全面和統一的行業定義,是投資型行業分類體系的典型代表。該系統采用業務劃分方法提供投資人員更好的參考標準,明確區分不同行業具有的投資價值,反映股票市場當前的投資理念,GICS在多種行業分類標準中具有更好的劃分公司能力[5]。有些國內金融機構也根據GICS制定適用于我國市場環境的行業分類體系,如申萬行業體系[6]以及新三板投資型行業分類體系[7]。然而,行業分類體系并不能很好地解決新三板市場投資人篩選劃分公司問題,例如,①末級行業分類的公司可能缺少可比性,自頂向下的行業分類導致不同子行業內公司數量和業務內容偏差較大,不利于投資人進一步篩選公司;②公司業務可能存在多種交叉,固定的等級列舉式分類體系無法揭示某個業務對應多行業的所屬關系,使得劃分的公司集合存在遺漏或缺失的可能性;③行業分類體系構建成本高,經常性的修正會影響投資效率。
為了彌補行業分類體系的不足,投資研究人員利用投資人可能會重點關注的話題或概念(包括業務、商業模式、地域、事件等)給予公司標簽,并聚集相同或相關標簽的公司形成重點關注的選股標的,稱為“概念板塊”,如“蘋果”概念板塊、“雄安新區”概念板塊等。概念板塊的靈活性能夠彌補行業分類體系無法納入新興投資熱點的不足,提供投資人直觀的業務理解。由于概念板塊是經由研究人員或媒體自發性所建構的,目前僅限于A股市場,在新三板市場并不存在大眾認可的概念板塊劃分。
另外,許多研究人員也會通過組合市場倍數來篩選可比公司集合。市場倍數的功能可顯示出在預測公司未來收入和股價變動時具有強相關性[2,8]。然而,市場倍數僅適用于A股市場或公司運營狀況穩定、市場倍數可靠的情況。在新三板市場中流動性不強,股價以及市場倍數無法用于預測公司未來收益狀況。
近年來,國外基于文本數據進行行業分析的研究逐漸增多[1,9-12]。例如,Hoberg等[10-11]依據10-K數據庫構建了兩種領域體系:為利用公司產品描述文檔文本聚類,對形成的類別進行描述形成領域劃分,屬于較傳統的固定結構[10];根據公司產品描述構建關系網絡,利用公司相似性確定競爭關系所形成的網絡結構[11]。由于其研究目標主要是改進行業分類體系,并沒有深入公司業務細節,分類結果屬于粒度較粗的行業劃分,投資人的應用價值較低。Tetlock等[12]同樣利用文本信息進行行業分析,但只使用了詞匯的情感色彩而非詞匯的語義關聯。國內的研究者曹四華[13]使用LDA(latent Dirichlet alloca‐tion)主題模型對上市公司的年度報告文本進行分析,但LDA方法并不能給出可解釋性強的、層次化的行業劃分。本文的貢獻在于利用文本數據克服行業分類體系固化的問題,提供一套依據較細粒度的業務概念與關聯自動劃分出公司集合的方法。
術語分類體系(taxonomy)是一個將概念術語按照上下位關系組織起來的語義層次結構[14]。術語分類體系自動構建(automatic taxonomy construc‐tion,ATC)是基于文本發現領域術語以及術語之間關聯,構建具有上下位關系的樹狀結構體系。自動構建術語分類體系包括兩個步驟:上下位關系抽取和術語分類體系推導[14]。
上下位關系抽取是指從語料中獲得術語概念以及這些概念之間的上下位關系,主要分為基于模式的方法和基于分布的方法。如果x和y出現在同一個句子中,并滿足特定模式,那么基于模式的方法預測術語對(x,y)之間存在上下位關系。最早的且最具有影響力的工作是Hearst[15]提出的人工定義的上下位模式。后續工作采用boosting策略[16]自動優化改進模式,基于模式的方法得到高準確率和低召回率的結果?;诜植嫉姆椒ㄊ遣捎梅潜O督度量或者監督模型預測術語之間的上下位關系。該方法包含術語抽取和關系預測兩個子步驟。術語抽取是從語料中抽取出所有可能的術語詞,這些術語詞之間可能存在上下位關系。術語抽取通常采用統計指標或機器學習等方法完成。例如,利用TF-IDF(term frequency-inverse document frequency)方法、LDA模型、TextRank模型等無監督的方法。在有監督即存在部分關系標注數據的情況下,關系抽取任務則可以看作兩詞之間是否存在上下位關系的分類問題。關系預測步驟則是采用非監督度量或者監督模型預測給定任意兩個已抽取術語的上下位關系。典型非監督度量的方法包含利用共現頻次、詞袋模型余弦相似度和詞嵌入模型結果計算術語間關系度量[14]。監督模型預測關系則是依賴已有術語關系的詞典,通過合理外推可以預測整個術語集上的關聯關系?;谀J降姆椒ǜ泳_,但非常依賴語料和人工模式制定,如果語料不具備揭示術語關系,那么基于模式方法將會導致極低召回率[17]。相反地,基于分布方法可以在非嚴格的語料上獲得較好的召回率,卻無法檢測嚴格上下位關系使得準確率較低。
術語分類體系推導是指在大量上下位關系集合的基礎上,整理合并形成層次結構的過程。體系推導主要有聚類和圖結構推導兩種方法。聚類方法是指假設具有同一上位詞的下位詞聚為一類,上位詞代表類簇。因為術語分類體系是層次結構的,所以往往采用具有層次性結果的聚類方法(如層次聚類[18-19])、共現關系導出的包含方法(subsumption method)[20]。圖結構推導是指將術語分類體系當做有向圖結構,將術語和關系組織成為圖結構,并挖掘形成樹狀結構成為術語分類體系[21]。自動構建術語分類體系是一個極為廣泛的研究領域,融合了多種自然語言處理方法,同時,也極大地影響其他自然語言處理相關的應用。本文采用基于分布的關系抽取方法和聚類推導體系的方法,實現根據公司業務劃分公司,以獲得投資標的或對比公司。
本文的核心任務是利用術語分類體系構建方法依據公司業務內容劃分公司集合,具體的方法流程如圖1所示,主要分為三個階段:數據預處理、術語分類體系構建和劃分公司集合。數據預處理階段主要是利用哈爾濱工業大學自然語言處理工具包(http://www.ltp-cloud.com/intro)對商業模式文本進行切詞詞性標注等。術語分類體系構建階段又包括關系抽取和體系推導的兩子階段。關系抽取階段中,因為選取投資標的的變動性高,需要盡量減少人工的參與,所以本文采用基于分布的方法,該抽取方法又可分成“術語抽取”和“關系構建”兩個步驟。首先,本階段從預處理切詞標注后的公司商業模式文本中,抽取短語單詞特征并利用半監督分類模型判斷術語,完成術語抽取的目的;其次,在關系構建步驟中采用計算術語相似度的方法,在體系推導子階段中通過建立在術語相似度矩陣上聚類形成術語分類體系;最后,在劃分公司集合階段中是基于所構建的體系基礎上,將出現相同末級術語的公司匯總為公司集合。

圖1 基于術語分類體系自動劃分公司集合方法的流程圖
3.1.1 術語抽取
本文以新三板公司商業模式文本集作為本文的語料庫,為了能夠完整表述公司業務,本文采用了更具有表達能力的短語作為術語,該方法分為兩個階段:抽取短語及單詞特征、半監督術語分類模型。

表1 短語特征表
抽取短語及單詞特征階段需要同時抽取短語及其特征。由于商業模式文本中絕大部分業務術語都屬于名詞性短語,基于該特性的模式匹配方法獲得的短語能夠包含絕大部分的業務概念術語。本文利用人工依據經驗事先確定詞性語法模式從詞性標注和依存句法分析樹標注后的文本材料中抽取短語。同時,抽取的短語特征有短語自身的特征以及術語所屬單詞的特征(如表1所示),主要包含行業信息和頻率統計量兩類特征。由于行業信息對于詞具有重要作用,利用給定詞在不同行業所屬公司的年度報告中的詞頻所計算的行業信息熵,判斷這個詞是否具有領域劃分的作用。本階段獲得短語集及其特征,作為下一階段半監督分類判斷術語的輸入。
半監督術語分類模型構建使用正樣本無標記樣本學習方法(positive and unlabeled learning,PULearn‐ing)[22]來構建概率化支持向量機(probablilistic sup‐port vector machine,PSVM)分類器。現實學習任務情況中,往往負樣本P獲取不易,正樣本P規模小且難以擴大,未標記U的規模大。PULeanring則是用于解決這樣的情況的半監督分類方法。有研究[23]指出,PULearning可以利用重寫經驗風險的方法轉化為損失敏感的有監督分類問題,分類無標記樣本和少量正樣本。本文利用這一結論使用傳統分類模型進行術語判斷,在實驗研究中采用PULearn‐ing方法的對稱問題(即負樣本無標記樣本學習NULeanring),來降低人工分類的預備工作量和提高分類精度,以達到自動分類的效果。標記負樣本的過程中,候選術語短語中如果出現了領域停用詞表中的詞匯,將該短語標記為負樣本,否則為無標記樣本。而標記過程需要領域停用詞表,使得負樣本盡可能覆蓋非術語部分短語的各種類型。領域停用詞表中包括通用停用詞表和描述公司的常見詞,如“集團”“公司”等;描述商業模式常見詞匯,如“銷售”“盈利”等;描述公司市場地位詞匯,如“領先”“趨勢”等。領域停用詞表的構建僅需要少量人工操作,實驗中僅在通用停用詞表外增加了106個領域停用詞。最后,根據研究[23]結論,利用PSVM對負樣本和無標記樣本進行分類,獲得正樣本標記即術語集合。
3.1.2 關系構建
本文主要對稱相似性度量的方法進行關系構建,該方法中的相似性度量研究基于術語為單詞的情況,而不適用于本文的術語為短語的情況,因此,本文使用單詞相似度度量構建術語短語相似度度量,通過整合單詞相似度獲得術語相似度。
首先,借鑒共詞分析的思想,定義兩個單詞的相似度為共同出現文檔的數量除以兩者各自出現文檔次數的平均數,計算單詞間的相似度采用共現頻次并進行歸一化,計算方式為

其中,docsi表示單詞i出現的文檔集合;|docsi|表示文檔docsi的單詞個數;mean(|docsi|,|docsj|)表示文檔docsi和docsj的單詞數的調和平均數。
其次,采用詞對齊(word alignment)思想匯總單詞相似度并計算短語相似度。定義短語間的相似度為短語中相對應單詞之間的相似度的平均值,而詞對齊方法可以避免考慮短語中無關單詞間相似度被納入考量。例如,“醫療健康服務”和“醫療器械”均有單詞“醫療”,短語相似度首先找到最匹配的單詞對,再合并計算多個單詞對之間的相似度。在術語t中找到術語s的詞對齊結果定義為termalignst。術語相似度termsimst計算公式為

termsimst=(termalignst+termalignts)/2 (3)
最后,考慮單詞本身的差異,直接采用相同的權重求均值會使術語表達能力不足,因此,本文匯總單詞相似度時引入詞權重,表示為

其中,N表示文檔數量;docsi表示單詞i出現的文檔集合。將單詞權重設計為WF-IDF,WF定義為對詞條出現的頻率TF進行亞線性變換后的結果,使權重歸一化時更加平滑,IDF是指逆向文件頻率。
經過關系抽取之后的術語集內部具有偽上下位關系,因為相似性度量矩陣可以認為是所有術語之間都可能有上下位關系,而聚類則是將相似性矩陣轉變為所屬關系矩陣,實際中即抹去相似性較低的術語對關系、建立相似性較高的術語對之間的關系。在體系推導階段,首先,本文利用近鄰傳播(affinity propagation,AP)聚類算法[24]方法聚類得出層次化術語體系的末層結構;其次,再對該聚類中心進行聚類獲得第二層結構,以此類推;最后,形成多層次化的樹狀結構,即術語分類體系。然而,在實際投資應用中,固定層級的扁平樹狀結構較為依靠投資研究人員理解,本文以三層結構的術語分類體系為主,如圖2所示。
基于構建好的術語分類體系,公司的主營業務所包含的術語對應在末級術語上,形成最終的公司劃分映射表。公司劃分映射表中,每個末級術語對應一個公司集合,該集合中所有公司從事的均與術語描述的業務內容相同或相似,則該集合內的公司即可被投資人與分析師作為對比分析的選股標的。該公司劃分映射表存在兩個現象:①某公司包含數個術語,形成該公司可能會屬于不同類的公司集合,但這現象更符合現實情況,因為公司經常從事多種業務或者業務具有交叉性;②由于本文采用商業模式的文本,公司可能主營上下游產業鏈業務,造成同一劃分集合公司間仍有不同的屬性關系并未顯現出來,未來可以針對這一點進行升級改進。

圖2 基于聚類的術語分類體系結構

表2 頂層術語統計表
實驗首先自全國中小公司股份轉讓系統(www.neeq.com.cn)中選取從2014—2017年年底10375家掛牌公司年度報告共21739份,由于原始年度報告格式為PDF文件,使用Tabula工具自動解析文件后提取出商業模式文本數據,因部分年度報告數據的內容缺失和損毀,經人工校正并清理,最后,獲取20040份商業模式文本作為本文的研究實驗數據。依主管機關規定,商業模式披露內容包括公司目前所處行業、主營業務、產品或服務、客戶類型、關鍵資源、銷售渠道、收入來源等情況,文本長度一般不少于100字且不多于1000字。利用模板判斷短語后獲得64460個短語候選集,本文利用領域停用詞表標記其中7078條為負樣本,其余為無標記樣本,經PSVM分類器計算獲得2744個正樣例術語。體系推導后獲得33個大類(如表2所示),其中第1列為所有大類對應的頂層術語。每個頂層術語的二級術語數量不超過20個,三級術語不超過230個,對應的公司從數百到一千不等,由于公司可以包含多種類型業務,最終平均一條業務術語最多包含20家公司。所有術語的平均相似度經計算為0.15,而每個類的平均類內相似度皆高于0.15,說明大部分劃分結果具有內聚性。除“手機周邊產品”“天然植物提取物”等混雜的超大類以外,大部分聚類劃分相對均衡。本實驗基于文本字符,故存在同義詞與近義詞的關系使得頂層劃分不夠完善。例如,“醫療診斷服務”和“醫療器材制造服務”兩個相關業務被割裂,未來仍具有改進空間。
由于劃分結果龐大,本文僅以教育類實驗結果展示層次結構和公司劃分情況。如表3所示,第1~3列分別表示宏觀大類劃分、相對宏觀的二級劃分和微觀的三級劃分,說明本文的研究方法依據主營業務概念自動劃分的33類中有一類宏觀體系為教育類,而教育類又可細分成“在線教育培訓行業”“職業教育培訓服務”“教育信息化”和“智慧教育行業”4個子類,并且“在線教育培訓行業”類別中包含“在線教育服務”“在線教育培訓”和“在線教育平臺”3個微觀業務類別。表4展示了教育概念下部分公司的行業劃分、本文方法末級術語標簽和商業模式文本節選,其中行業劃分采用新三板官方投資型行業分類用作參照,顯示本文方法的劃分結果,具體展現出新三板教育類公司的業務特征。

表3 教育概念結構表
新三板掛牌公司多數屬于中小型規模、從事較小業務內容或產品的公司。傳統公司劃分參考的行業粒度宏觀,依據公司業務內容映射到行業劃分時,造成同行業內公司間的實際業務差距較大,體現不出公司的特殊性。對于投資人來說,經由本文依據粒度較細的業務概念自動劃分公司方法得到的公司集合相似度更高,這些細分領域的發現更能貼近市場,便于深入理解行業。
投資人利用公司的業務、商品或相關屬性劃分公司集合,從中篩選出股價表現較合理的公司作為該集合的標桿,該標桿公司與投資標的進行估值對比分析。不適當的公司集合劃分將會造成標桿公司選取的失誤,并導致投資標的估值錯誤,因此,利用細粒度的業務內容劃分出的公司集合更能找出可比性的公司。公司間的可比性通常考量對比公司的業務相似度和體量,而實際業務中分析人員需要對兩指標劃分的結果進一步人工篩選刪除[2],因此,在考察劃分公司方法時,還需要考慮對比公司集合的大小。業務相似度與對比公司集合大小均與劃分結構中末級節點細化程度有關。如果粒度過粗使得同集合內公司的數量過多,并且公司間的業務關聯小,則將造成可比性較差。例如,多數“在線教育領域”的公司被劃分到投資型行業分類體系的“互聯網軟件與服務”,且“職業培訓”被劃分到“綜合消費者服務”,而“教育”僅為體系的末級行業。在線教育公司因改變其業務手段就被劃分到“互聯網軟件與服務”,但由于其業務的消費者、競爭者以及市場范圍并沒有太大的變化,從投資角度而言,該類公司仍必須以教育類型評價基準進行分析與估值。而本文提出的方法劃分的公司集合相對均勻,且該方法依據文本數據內容自動調整領域規模,避免了自頂向下設計行業分類所導致公司分布不均的問題。
發現新興業務概念是市場研究人員進行投資分析重要的工作之一,盡早挖掘出新興概念將標示著行業未來的發展方向以及公司的前景。傳統行業分類體系因更新周期長而忽略新興業務,而只有當新興業務受到關注的時候才會被納入概念板塊的構建。本文提出的方法從年度報告自動獲取劃分的結構,因此,容易捕獲到當前市場的新概念。例如,表3的教育類二級劃分類別中,這些概念是當下教育領域的重要細分業務,也是投資人無法參考其他工具獲得的。

表4 教育概念下部分公司對應表
另外,在本文的實驗中存在術語意義不夠明確的問題。在術語抽取的工程中,術語的微妙差別與簡單詞匯控制判斷同義詞或近義詞不同,尤其本文的對象更涉及實際生活中的業務邏輯,判斷方式相對復雜導致難以達到無監督詞匯控制。例如,“智慧教育”與“在線教育”之間的關聯并非僅有同義或近義的關系?!爸腔劢逃辈捎弥悄芗夹g注重教育質量和效果,而“在線教育”偏重以在線方式打破地理限制的學習體驗,雖然兩者概念相似與高度相關,但無法簡單合并。另外,“智慧家庭”本不應當屬于教育行業,但由于計算“家庭”與“教育”術語相似度相對接近,而被劃分為該宏觀概念類內。
本文主要通過半監督術語抽取與術語關系聚類的方法,構建出具有層次結構的公司集合,提供新三板市場投資人自動化劃分公司的方法,并協助理解公司間的業務關聯。本文提出的方法主要貢獻在于將術語分類體系構建方法引入投資概念體系建立任務,采用了短語而非單詞作為術語相似度的計算,并且在該過程中極少量依賴人工參與,高效無監督方法滿足需求的時效性。實驗數據來自新三板公司年度報告的商業模式文本數據,并使用本文提出的方法劃分的公司集合解決實際問題:①發現細分領域和特殊業務,使投資人更深入了解公司業務范圍;②自動化及時發現當前新興投資概念,幫助投資人捕獲市場動態;③對比傳統公司篩選工具,本文方法劃分公司更具有可比性。本文嘗試使用無監督方法抽取術語的方法仍有優化空間,未來將可引入詞匯控制來避免術語意義不明的情況,并在關系構建過程融合其他行業描述的外部資源,改善語料稀疏的缺點。