逯萬輝
(中國社會科學院 中國社會科學評價中心,北京 100732)
人文社會科學是研究人與社會關系的一門學科,面對的是有意義關系的事物,既要研究其共同性和普遍性,又要研究特殊性,具有雙重屬性和雙重功能,即:既具有客觀性又具有主觀性,既具有事實性又具有價值性,既具有認識世界的功能又具有意識形態的功能[1],這也是區別于自然科學的最重要的一個特征,也可以說,人文社會科學是一種形而上的科學,同時具備基礎性和應用性,不同于自然科學對問題的研究中在前人的基礎上進行消化、吸收、創新與開拓,人文社會科學的研究更傾向于求新求變,既求同,也求異,既具有全球人文情懷,也當有國別與地區的意識形態區別,特別是在近些年,隨著我國經濟社會的快速發展,人文社會科學的研究也呈現多樣性的繁榮發展態勢,學術成果不斷增長,僅以哲學學科為例,CNKI 中收錄的論文數量就逐年上升(如圖1所示),同時在人文社會科學學術成果“走出去”上,同樣增長明顯。從下圖2中可以出,自2005年至今,我國學者在SSCI 中的發文量呈指數上升趨勢,這些論文涵蓋人文社會科學多個學科,因此,開展人文社會科學研究熱點的挖掘,能夠了解學界研究現狀與存在問題,不論是對科研人員開展學術研究還是科研管理部門進行學術規劃都有重要意義。

圖1 2005-2013年CNKI 收錄哲學論文的數量

圖2 2005-2013年SSCI 刊載中國大陸地區作者論文數量
學術期刊論文是科研工作者學術研究成果最常見最直接的體現,是特定學科或某一分支領域內知識傳播最主要的傳播媒介。以期刊論文相關構成要素如作者、摘要、關鍵詞、引文等為研究對象對學科特性逬行揭示和學科研究熱點的挖掘已經成為學術界的共識[2]。
關于學科研究熱點的挖掘方法,通用的思路主要有兩個方面:一是基于引文及共被引的學科研究熱點及研究群體的發現方法,一是基于文章題目、摘要、關鍵詞等的文本內容的學科研究熱點挖掘方法。一般來說,人文社會科學的文獻半衰期要長于自然科學,特別是在人文學科領域,文章的參考資料更多的傾向于經典著作,引文的半衰期更長,所以,基于引文的學科熱點發現在人文社會科學領域的應用就受到限制,因此,從時效性上來說,縱然是應用性較強的社會科學甚至是自然科學,基于文本內容的研究熱點發現更加能反映學科快速發展下的研究前沿,所以,本文提出基于內容分析的人文社會科學研究熱點挖掘方法研究,通過對文本內容進行處理和挖掘,探索語義上的知識流動和演變趨勢,為科研人員以及科研管理部門提供學術前沿指導和學科發展演變脈絡,從而更好地開展具有針對性的學術研究和學科規劃。
有關學科熱點的研究,最早可以追溯到1981年White 和Griffith 等人的作者同被引分析(Author Co-citation Analysis,簡稱ACA),通過對39 位相關學科專家的同被引分析,進行了學科研究分支和結構的劃分,合作發表了《作者同被引科學結構的文獻測量方法》一文,并以此開創了運用情報學方法進行學科分析研究的先河[3]。之后隨著計算機技術的快速發展,數據處理和計算能力的快速提升,運用該方法并選取更大的數據樣本進行學科分析的相關研究和報告也快速增長。到1992年,Law 和Whittaker 開始研究和探索應用共詞分析來學科熱點檢測研究[4],至此已經將社會學中的網絡分析法引入這一領域。在近期的2007年S.Usui和P.Palmes 等人開展了對關鍵詞抽取、分離、排名、組織等方面的研究[5],2008年,Naoki Shibata等人利用拓撲學方法對科學出版物的共引網絡進行研究,檢測研究熱點[6],基于社會網絡分析方法的學科熱點研究真正開始在情報學分析方法中成熟起來。
國內對這一問題的研究也越來越受重視,特別是在自然科學領域,掌握國外的研究動向與研究熱點,避免我國的科研管理部門和科研人員在科研規劃和科研活動中少走彎路,具有重要的意義,因此,在這一領域的研究成果也較為豐碩,其中,鄒曉鴿,夏文正等人以Science Watch 期刊上公布的化學熱門論文和35 種國際上高影響因子的化學及相關綜合類期刊上中國大陸學者發表的化學論文作為國內化學領域分析的數據源,進行了化學學科熱門領域的研究,并將國際與國內的研究工作進行對比分析,得出相關結論[7]。肖明、李國俊等人通過對情報學核心期刊1998年至2007年十年間發表的論文進行了詞頻統計,得出了情報學領域的若干研究熱點問題及學科發展趨勢[8]。在這些報告所使用的基礎方法的研究上,歸結起來主要有兩個方面,一是基于詞頻,一是基于被引,這一領域中較有代表性的是大連理工大學陳超美博士及其團隊開發的CiteSpace 軟件,通過詞頻統計、共被引分析、作者共被引等方面對學科的研究團體和領域進行了可視化分析展示,在國內影響較大。
通過對以上國內外學科研究熱點的研究方法和相關軟件算法的梳理,可以看出,現有的學科熱點研究方法中,以情報學研究方法為基礎,同時引入社會網絡分析等理論,設計文獻計量、計算機信息處理、數據分析與挖掘、可視化技術等,是一個多學科交叉融合的技術方法。當前,伴隨著圖論及網絡分析技術的成熟,為研究學科論文海量增長模式下的知識特性、動態變化及發展趨勢提供了理論支撐和技術支持。復雜網絡理論的不斷成熟,相關網絡分析及可視化等開源軟件的開發和免費使用,再融合傳統的文獻計量手段及多元統計分析工具的輔助,通過構建網絡拓撲結構,從結構性的視角對特定學科或領域的知識傳播要素如合著網絡、共詞網絡、引文網絡等知識傳播網絡特性的研究吸引了大批科研人員的注意力,很多有意義的研究成果涌現。但是由于人文社會科學的特性,在文獻半衰期較長的人文科學領域,從引文的角度出發使用文獻共被引的方法開展學科熱點研究在某些學科和領域是不適用的,因此,在人文社會科學領域開展基于文本內容特征的研究網絡構建、基于文本語義的主題詞抽取、基于生命周期理論的詞語消長變化等基于文本的研究熱點發現方法研究,及時、直觀地呈現研究熱點的脈絡演變與內容演化研究,是當前的一個新的研究任務。
在進行人文社會科學研究熱點挖掘中,基于其學科特性,為及時和直觀地揭示這一學科領域的研究熱點,本文構建了如下熱點挖掘模型,并將該模型的處理對象挖掘對象從關鍵詞延伸到文章題目、摘要,進行文章內容層面的主題詞抽取和熱點挖掘:

圖3 基于文本內容的研究熱點挖掘模型
相比于英文語料的單詞組成結構,中文語料進行文本內容分析的前提就是需要進行詞語切分和詞性標記,同時由于中文文本表達形式的多樣性以及語義的豐富性,也給中文處理帶來了更大的難度。因此,基于文本內容的分析,一般首要工作就是文本預處理,即將文本內容處理成進行可分析和計算的數據。
該模型分為文本預處理和文本內容分析兩個方面,分別進行了基于關鍵詞的學科分析和基于主題模型的主題詞抽取及其演化兩個實驗,主要包含以下幾個步驟:
Step1:從期刊數據庫中抓取或下載學科期刊的題錄信息;
Step2:關鍵詞清洗和題目摘要文本的詞語切分、詞性標注,此步驟需構建自定義詞典;
Step3:構建停用詞表,過濾掉文本中的無意義干擾詞、雜亂字符串等;
Step4:抽取文本中的名詞、并與關鍵詞一起構建共現矩陣,進行熱點識別;
Step5:利用Step2 中產生的文本,進行基于LDA 的主題詞抽取;
Step6:進行演化分析,并對比關鍵詞進行學科主題與熱點的演變與發展脈絡分析。
基于以上模型進行學科研究熱點挖掘,主要運用到如下兩個方面的技術:
(1)基于社會網絡的熱點及演化網絡分析
社會網絡分析方法存在兩個平行發展的研究方法,分別是整體網絡分析方法和自我中心網絡分析方法。整體網絡分析方法關注的是網絡整體的結構特征,即一個社會體系中角色關系的綜合結構或群體中不同角色的關系結構,探討網絡結構隨著時間變遷和節點間的直接或間接關聯,整體網絡分析主要采用社會矩陣方法與社群圖方法。自我中心網絡分析法是從個體的角度研究社會網絡,它只能分析社會連帶,不能分析網絡結構,進行線性相關分析和協方差分析以揭示影響網絡特征的因素[9]。
本文主要采用整體網絡分析方法,進行兩個方面的研究:一是網絡個體屬性研究,主要是對網絡個體的中心性屬性的研究;二是網絡整體屬性研究,通過整體屬性研究來揭示學科熱點網絡的整體網絡特征,通過構建關鍵詞及主題詞共現矩陣,進行關鍵詞中心度、網絡密度與聚集度、小團體分析等,并進行整體網絡的可視化展示,進而識別研究熱點。
(2)基于LDA 主題模型的主題詞抽取
主題模型是對文字隱含主題進行建模的方法。它克服了傳統信息檢索中文檔相似度計算方法的缺點,并且能夠在海量互聯網數據中自動尋找出文字間的語義主題。兩篇文檔是否相關并不只決定于字面上的詞語重復,還取決于文字背后的語義關聯,主題模型就是對這種語義關聯的挖掘,在主題模型里,我們認為一篇文章的每個詞都是通過“以一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞語”這樣一個過程得到的。那么,如果我們要生成一篇文檔,它里面的每個詞語出現的概率為:

LDA 是一種文檔主題生成模型,也稱為一個三層貝葉斯概率模型,包含詞、主題和文檔三層結構。文檔到主題服從Dirichlet 分布,主題到詞服從多項式分布。LDA 的算法描述為:
對于語料庫中的每篇文檔,LDA 定義了如下生成過程[10]:
1.對每一篇文檔,從主題分布中抽取一個主題;
2.從上述被抽到的主題所對應的單詞分布中抽取一個單詞;
3.重復上述過程直至遍歷文檔中的每一個單詞。
本文擬使用主題模型中的LDA 算法,抽取文章主題詞,進而計算這些主題詞在論文中的分布,通過主題詞及相關算法計算學科研究熱點及其演化趨勢。
本研究以期刊數據為主要數據源,在國外社會學期刊的選擇上,SSCI 期刊遴選以其公布的JCR2013 為參考依據,根據社會學半衰期較長這一學科特性,采用5年影響因子為主要指標,選取社會學期刊15 本,如下表:

表1 選取SSCI 收錄社會學期刊
通過對這些期刊從2009年至2013年的載文進行分析,得出這些期刊所刊發論文地區分布如下圖所示,主要分布在美國、英國、加拿大、澳大利亞、德國等主要歐美國家。

圖4 上述SSCI 收錄社會學期刊載文的地區分布
中文社會學期刊的選擇,參考南京大學CSSCI社會學核心期刊的收錄標準,從CNKI 數據庫中獲取社會學期刊的相關數據。

表2 中文社會學期刊
基于CNKI 數據庫,選取以上所述五中期刊,構建檢索式,檢索2009年至2013年的這些期刊的全部載文數據并進行下載,作為國內社會學學科研究的數據源。
采用上述模型、算法和數據源,對國內外近五年的社會學研究熱點進行挖掘,分別得出了國內外在這五年的主要研究熱點主題,關于主題數目的確定,采用統計語言模型中的評價指標困惑度來進行選取,挖掘結果如下:

表3 高頻關鍵詞共現矩陣(英文部分)
通過基于主題模型的主題抽取,挖掘出國內外社會學領域的熱點研究主題,下面僅展示部分國內研究主題,如表4所示:

表4 2009-2013年主題抽取結果(中文部分)

生活 0.010818 國家 0.00727 共青團 0.010457 一種 0.009709農村 0.010264 權益 0.007128 重要 0.008824 道德 0.009709問題 0.008878 規定 0.006986 工作 0.006865 現象 0.009278主要 0.007585 暴力 0.006559 群體 0.006865 當代 0.007123因素 0.007307 制度 0.006417 問題 0.006702 認同 0.0068方面 0.006846 特別 0.00599 成為 0.005967 意識 0.006584我國 0.006661 中英文 0.005705 傳播 0.005967 取向 0.006153進行 0.006476 問題 0.004852 信息 0.005804 理性 0.006046政策 0.006291 實施 0.004567 媒體 0.005477 民族 0.005938現象 0.006106 家庭 0.004425 事件 0.005232 心理 0.005507家庭 0.006106 制定 0.004425 具有 0.005151 自我 0.005399子女 0.006014 賦權 0.003998 提出 0.004906 形成 0.005076
通過對比國內外社會學領域的研究主題,可以看出:國外社會學研究熱點一直重點集中在婚姻、家庭及兩性關系和種族與文化方面,而在社會學理論研究層面,近年來計量社會學的研究表現較熱。
(1)婚姻及家庭問題的研究
婚姻及家庭問題的研究上,不單單是社會學的問題,同時還涉及人口學、文化學、人類學等多個學科多個方面,除研究傳統的婚姻、家庭、性別等問題之外,也涉及離婚問題、夫妻權利、家庭結構與變遷、家庭關系、性別失衡等方面。
一個社會的擇偶模式和婚姻匹配模式,不僅僅關系著個人與家庭的結構和關系,也在很大程度上影響了社會資源和財富的聚集程度、社會分層體系的運轉,以及社會再生產的諸多方面,甚至可以反映社會組織的開放性。因此很多研究者從探討婚姻匹配模式及其變遷來解釋社會結構和社會變遷。同時,家庭變遷是家庭研究的一個重要領域,而家庭現代化理論,到目前為止仍然是跨文化意義上最有解釋力和影響力的關于家庭變遷的社會學理論。
國外在這一問題的研究上,近些年一直延續在婚姻理念、配偶選擇、婚前同居、生育意愿和出生性別比例,同時還有家庭暴力、夫妻權利、離婚問題與子女撫養等方面。
此外,從2006年開始,除了傳統的婚姻、同居、子女撫養之外,圍繞婚姻家庭等倫理問題的研究發生了轉變,表現在有關女同性戀、男同性戀、雙性戀和跨越性別家庭的研究較多,這些問題的研究成果數量也在不斷增多。
(2)種族與文化問題
在國外社會學問題研究中,還有一個重要的領域,就是種族與文化問題的研究,其中涉及移民與文化等,特別是在歐美國家的社會政治生態中,關于種族平等的問題一直沒有停止過,黑人社會和白人社會的融合愈來愈慢,反而黑人社會與白人社會的沖突仍在繼續,針對這一現象,社會分層與流動、社會融合、變遷也一直是國外社會學家們的一個研究重點。
(3)除以上熱點之外,其他國外社會學涉及的問題還有:疾病與貧困問題(如HIV、非洲貧困兒童等)和經濟學科交叉的社會資源分配與家庭收入、幼兒教育與收入問題、在互聯網環境下的社會生態問題、人員身份信息的唯一性、授權性和保密性問題、社會體系中的政府行為問題、社會性暴力與恐怖時間等問題也一直是國外社會學家較為關注的問題。
國內社會學研究中,主要圍繞以下幾個領域展開:
(1)婦女問題:這一問題一直是中國社會學界的一個重要研究領域,包括婦女解放、婦女地位、婦女就業、婦女參政、性別解放、性別問題、女性主義、女性學、女性研究等多個方面的研究主題,特別是從2006年之后,伴隨著女職工勞動保護、勞動合同等立法問題的討論進一步升溫,這一問題的研究也更加火熱。特別的,在婦女問題中的家庭暴力問題研究,國內和國外存在差異,國內對這一領域的研究相對較少,由于家庭暴力屬于敏感話題,很難通過大規模的抽樣調查進行研究,很多受訪者仍然認為家庭暴力屬于家庭私事,不愿談及或訴說,研究難度較大。
(2)青少年問題:青少年問題的研究一直是我國學者和政府高度重視的一個研究領域,對這一問題的研究主要包括:青少年的犯罪與教育問題、基層團組織與青少年的思想政治教育問題等。從研究主題來看,從最初的對青少年的社會問題的基本描述層面,逐步深入到在制度層面對青少年的教育、引導等方面的研究,此外還涉及教育公平等其他方面的問題。關于大學生就業問題的研究:大學生就業問題隸屬于青年問題,但是又不僅僅屬于青年問題,牽涉到經濟、社會、教育等多個領域,在金融危機沖擊下,經濟增速放緩,大學生就業存在諸多問題。
(3)新媒體與亞文化:在2010年之后,更多的研究者將研究重點放在了新媒體所帶來的亞文化現象以及其對社會的影響方面。尤其是網絡、動漫等各種新媒體的出現,對青少年問題的研究提出了新的議題和新的挑戰,在青少年的價值觀、傳統性等方面做了較多深入的研究。
(4)社會分層、社會流動與新生代農民工問題:在過去的二十年里,農民工群體一直是社會學最為關注的研究對象,在勞動力市場方面,隨著市場的轉型升級與人口老齡化帶來的影響,新一代農民工開始進入廠房、車間,社會流動與分層也在逐漸發生變化,新生代農民工的興起也給社會學家了提供了大量的研究議題,新一代農民工子女的入學、就業等已經搬上了學術研究關注的前臺。尤其是2010年,富士康連續出現的青年員工跳樓自殺現象,引發了社會的廣泛關注。
(5)社會福利與社會保障:伴隨著我國社會保障體系建設的不斷完善,社會保障研究成為一個越來越重要的研究領域,社會保障與社會福利作為一個交叉學科,廣泛分布于經濟學、社會學、人口學、法學、管理學、統計學等多個學科多個領域,伴隨著研究的深入,目前則更多的開始關注社會因素,如對慈善、特殊群體的權益保護等。
(6)社會學理論:在社會學理論研究方面,有學者提出了中國社會學這一概念,在社會結構、社會分層、社會流動以及人類社會方面與國外社會學進行了對比,在齊美爾的小群體理論、帕森斯理論的基礎上,發展了中國社會學理論。
進一步,采用可視化的相關方法,將關鍵詞和主題詞的共現進行了展示,效果如下圖所示,可以發現,研究主題分布效果顯著。

圖5 國內社會學領域近五年研究熱點關系圖
本文采用基于內容分析的復雜網絡與文本挖掘相結合的方法,構建了人文社會科學領域的熱點主題挖掘模型,并從高頻關鍵詞分析、關鍵詞共現矩陣和基于文本挖掘中的主題模型的相關算法從文章摘要中進行主題識別與主題詞抽取的方法,對2009年至2013年之間的國內外社會學期刊所載論文進行了實證分析。
通過基于文本內容分析的熱點識別模型和方法,挖掘出了國內外社會學領域各個時間段內的研究熱點主題及其演變,總的來說,國內外社會學的研究熱點都集中在家庭與性別研究、婦女問題研究、青少年問題研究、社會保障與福利問題研究等方面,但是由于各方面的原因,國內外的研究熱點在內容和深度上也存在較多不同。
對比國內外社會學研究領域的熱點,可以發現其異同:國內外社會學的研究熱點的共性表現在家庭與性別研究、婦女問題研究、青少年問題研究、社會保障與福利問題研究等方面,但是由于各方面的原因,國內外的研究熱點在內容和深度上也存在較多不同。同時,由于特定的社會環境和人文環境,無論是研究人員還是被研究對象,在相關社會學問題的反應上存在差異,因此造成國內外社會學領域的研究傾向存在差異,關注點有所不同,就此來說,我國的社會學研究存在較強的中國特色。
[1] 人文社會科學[EB/OL][2014-10-20].http;//baike.baidu.com/view/1381144.htm?wtp=tt
[2] 楊秀秀.管理科學與工程學科共詞網絡整體特性,生長性及熱點研究[D].浙江大學,2014.
[3] White H D,Griffith B C.Author cocitation;A literature measure of intellectual structure[J].Journal of the American Society for information Science,1981,32(3);163-171.
[4] Law J,Whittaker J.Mapping acidification research;A test of the coword method[J].Scientometrics,1992,23(3);417-461.
[5] Usui S,Palmes P,Nagata K,et al.Keyword extraction,ranking,and organization for the neuroinformatics platform[J].Biosystems,2007,88(3);334-342.
[6] Shibata N,Kajikawa Y,Takeda Y,et al.Detecting emerging research fronts based on topological measures in citation networks of scientific publications[J].Technovation,2008,28(11);758-775.
[7] 鄒曉鴿,夏文正,梁文平.化學學科熱點領域分析與國內外比較研究[J].中國基礎科學,2003,(4);37-40.
[8] 肖明,李國俊,楊楠.基于詞頻分析的國內情報學研究熱點 (1998-2007)[J].情報雜志,2009,(8);21-25.
[9] 張浩.基于社會網絡分析的 Blog 社區發現[D].上海:上海交通大學,2008.
[10] Blei D M,Ng A Y,Jordan M I. Latent dirichlet allocation[J]. the Journal of machine Learning research,2003,3;993-1022.