黃澤銳,張澤慶
(山西師范大學社會學與法學學院,山西 臨汾041000)
很長一段時間以來,中國實行的是高中文理分科制度。但是隨著社會的發展,學科逐漸專業化,人們面對的問題卻似乎越來越復雜,計量經濟、社會統計分析、數據可視化等領域對知識能力的要求完全不在“文理”這樣的框架之內。事實上,問題不僅僅能靠一個領域的知識解決?!蹲詺⒄摗愤@樣的社會學著作非常經典,但是最讓人佩服的卻是優美的數理邏輯與超凡的社會學洞見完美的結合?,F代社會,隨著機器學習和人工智能領域的興起,Python 也逐漸流行起來。在社會學研究中,學習和運用Python 可以為研究過程提供更加便利的數據獲取與處理途徑。
本次新冠疫情不僅給中國人民帶來嚴重的公共衛生危機,也深刻影響了社會各行各業的正常運行。教育部發布公告,2020 年全國普通高等學校統一招生考試延期1 個月舉行。高考時間的推遲,不僅直接影響著考生的心態,對家長、教師也是一次嚴峻的考驗。隨著互聯網的發展,微博逐漸成為當代政治輿情發布的重要平臺[1]。因此,本文選取微博用戶作為研究對象和數據來源,其具有樣本代表性,且可以獲取大量樣本數據。
本文運用Python 語言的爬蟲技術對目標微博用戶的公開評論進行數據獲取、分詞處理和詞頻分析。以符號互動視角為指導,對獲取的高頻詞進行分類整理與詞意編碼,分析這些高頻詞條符號背后的意義與價值,進而探究高考延期對微博用戶的影響。
本文數據來源于“央視新聞”微博,運用Python 獲取微博用戶公開的性別數據及評論數據31 849 條,并對所獲數據進行詞頻分析,選取頻率最高的400 個詞條進行整理與編碼,最終形成了考試相關因素、看法與態度兩個三級編碼,如表1 所示。

表1 高考延期評論的高頻詞條編碼表
本研究基于Python3.8,程序設計流程如圖1 所示。程序設計分為2 部分,第一部分為獲取微博評論數據的爬蟲設計,第二部分為分詞與詞頻統計設計。
網絡爬蟲(Web crawler),又稱為網頁蜘蛛、網絡機器人,是按照一定規則自動獲取網絡信息的程序。微博客戶端的訪問分為電腦端(PC)和手機端(Phone)兩種鏈接模式,用if 語句對兩種鏈接分類獲取。而微博對未登錄用戶采取限制翻頁措施,因此,需要用個人微博賬號進行模擬登錄,并設定需要的評論頁數m(20 條/頁),當m=max_page 時,輸出得到的data 文件并存為txt 格式。
使用Python 實現中文分詞功能,需要加載jieba 模塊。本文結合“百度停用詞表”“哈工大停用詞表”對模塊自帶的停用詞表進行擴充,以獲取更精確、更有意義的高頻詞條。隨后,加載爬蟲得到的data.txt 數據庫進行詞頻統計并輸出為data_gp.txt,根據詞義進行分類整理。

圖1 程序設計流程
本文在央視新聞微博評論區共獲取女性用戶數據25 219 條,占比79.2%;男性用戶數據6 630 條,占比20.8%。女性用戶比例顯著高于男性用戶比例。
在高考延期的微博評論中,高考相關群體的高頻詞出現6 463 次,占總高頻詞的13.06%。其中,微博用戶對高三考生表現出很高的關注度,且弟弟、妹妹、學妹、學弟、孩子等稱呼使用較多,其次是同學和教師。有趣的是,前400 個高頻詞中的稱呼語中,可以看到學姐稱呼,卻看不到學長稱呼的出現。
相關考試與學期工作安排的高頻詞在微博評論中出現1 0131 次,大約占總高頻詞的1/5。微博用戶對于中考、考研等考試也有較多關注,并且對學期的工作安排也有討論。
數字和時間是比較有意思的一個點,詞條共出現3 749次,占比7.58%。雖然占比相對較低,但是可以反映出一些有趣的變化。較多出現的數字是圍繞本次高考推遲1 個月以及高考倒計時的討論,而“778”“678”“2003”等數字有2 層意義:2003 年因為SARS 將高考從07-07、07-08 提前到06-07、06-08,一直延續至今;“678”有“錄取吧”的諧音,預示著一個好兆頭,而2020 年的“778”普普通通,少了一絲靈氣。
微博網友對于高考延期發表自己看法的高頻詞達16 255 次,占總高頻詞的32.86%,“見證歷史”詞條的出現更是多達10 026 次,同樣意義的詞還有歷史性、載入史冊等。余下的高頻詞中,對高考延期的看法大多用使用描述震驚的詞條,其中臥槽和woc 都是網絡用語,表示驚嘆的常用語;活久見是指“活得時間久什么事都可能見到”的意思;牛批指的是牛皮,表驚嘆意;OMG 是oh my god 的縮寫,意為我的天吶,網友常用于表示震驚的情境。還有一個符號值得關注,是“....”,這個不規范的省略號也是網絡常用符號,有兩種意義,一是震驚到說不出話來,二是表示無語、無奈的意思。
微博用戶對此次高考延期表達自己積極態度的高頻詞有10 479 次,占總高頻詞的21.18%,“加油”詞條出現6 957次,加油一詞不僅可以給他人鼓舞,也可以對自己打氣,表達同樣意義的有努力、沖沖沖、奧利給、沖刺、奮斗等。其中,“奧利給”是網絡用語,表達加油的意思。
還有一些微博用戶對于高考延期表達了自己的消極態度,高頻詞出現2 395 次,占總高頻詞的4.84%。消極態度詞條都表達出一些高考學子內心的痛苦,復習戰線的拉長,增加了一些微博用戶內心的壓力;另一方面,太熱、最熱等詞條是考生認為高考推遲到七月,酷暑炎熱可能會對其的狀態產生一定影響的表達。
Python 獲取數據與詞頻分析在社會學的研究中可以很好地應用,并且應該繼續拓展其作用。Python 現已成為數據科學和智能科學等領域最流行的編程語言之一,但是在社會科學領域的使用較少。本文嘗試將Python 語言及其模塊應用于社會學研究中,對大量微博用戶的評論數據進行獲取和詞頻分析,運用符號互動視角對數據進行語義編碼研究,可以得出以下結論。
從數據中可以看出,微博用戶中的女性群體對于高考延期有著更多的評論以及更高的關注度。微博使媒體的傳授結構有了改變,有利于女性在媒介中的充分表達[2]。微博具有使用人群廣、傳播速度快、易運用操作等特性,使用微博的女性用戶逐漸顛覆傳統媒體中女性的非自主性特質,成為發布微博、發表評論、表達看法的主要力量。從前400 個高頻詞中只有學姐稱呼卻沒有學長稱呼也可以看出,關注高考推遲的微博用戶中,女性用戶的數量占據絕對的主導地位。
由于新冠疫情在全球范圍內還未得到控制,中國當前防控工作的中心已逐步轉向嚴防境外輸入。所以本次高考延期到七月舉行,絕大多數的用戶是表示理解和支持的。雖然有些微博用戶對天氣炎熱可能導致考生發揮失常而抱有一絲顧慮,有些微博用戶對備考戰線的拉長心理壓力倍增,但是微博用戶的總體態度還是積極豁達、樂觀向上的。
網絡平臺和監督機構需要合理引導網絡用語的使用。互聯網空間已逐漸成為人們分享生活、獲取信息、表達情感的場所,隨之而來的網絡用語更是以其娛樂化、戲謔化的風格解構著社會傳統話語體系[3]。微博用戶對高考延期的看法和態度使用了一些新興的網絡用語,例如活久見(活的時間久什么事都可能見到)、奧利給(加油)等。這些用語在互聯網平臺中廣泛使用,形成一種不僅流行于網絡,也逐漸流行和影響現實的社會現象。因此,網絡平臺和網絡監管機構需要健全監督機制,正確引導和使用網絡用語,這對凈化網絡空間,優化傳播媒體有著重要的作用。