999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

軟件缺陷畫像系統設計

2024-01-23 08:35:48陸金婷張嘉烽
無線互聯科技 2023年21期
關鍵詞:語義文本用戶

陸金婷,張嘉烽

(1.江蘇工程職業技術學院,江蘇 南通 226007;2.中天射頻電纜有限公司,江蘇 南通 226009)

0 引言

在軟件開發的過程中,軟件開發人員常常會遇到各種各樣的軟件缺陷。軟件缺陷的存在,不僅會導致計算機程序或軟件系統無法正常實現其功能,還會導致軟件制品不能滿足軟件使用者的需求,從而降低了用戶使用軟件的滿意度。軟件缺陷中包含了大量軟件開發過程中發生錯誤時的數據信息。這些數據信息包含著豐富的與軟件質量、技術、資源等相關的信息。因此,對軟件缺陷信息進行有效的處理分析對軟件缺陷的修復以及軟件質量的保證具有重要意義。

目前,軟件缺陷常常以缺陷報告的形式被提交和管理。在諸如Firefox、Eclipse等大型軟件項目中,通常使用缺陷跟蹤系統(BTS)來存儲、追蹤缺陷數據。為方便軟件開發人員快速檢索所需缺陷信息,BTS自身配備了搜索引擎。當遇到新缺陷時,開發人員可以直接搜索報錯信息,也可以組織語言表達需求并輸入到搜索引擎檢索。搜索引擎使用關鍵字匹配技術檢索BTS并反饋相關缺陷信息。一般來說,檢索到的信息應與開發人員的需要關聯性很大,應該能夠有效解決開發人員遇到的缺陷,但事實并非如此。BTS自帶的搜索引擎所采用的關鍵字匹配技術常常只匹配了用戶檢索意圖中某個或多個關鍵詞,甚至是某個字符,導致返回的結果包含了很多錯誤信息和無效信息,使開發人員需要花費大量的時間和精力去鑒別返回的內容是否滿足需求。此外,缺陷數據之間常常包含著各種各樣顯式或隱式的關聯,這種關鍵字匹配技術只是單一地比較了缺陷數據本身基于單詞級別的相似度,并未考慮到缺陷信息語義之間的匹配和關聯。

基于上述問題,本文提出了軟件缺陷畫像系統,用于軟件缺陷信息檢索。軟件缺陷畫像是一種模擬用戶畫像衍生出來的方法[1]。其主要工作是給軟件缺陷信息打標簽,并根據用自然語言描述的關于軟件缺陷的描述語句來確定軟件缺陷,然后檢索軟件缺陷庫中的相關信息,挖掘軟件缺陷的潛在信息,并以可視化的方式對軟件缺陷進行畫像處理。從用戶體驗上來看,設計一個軟件缺陷畫像系統有助于用戶在眾多繁雜的缺陷數據中獲取最有效的缺陷信息,從而快速地認識缺陷,對后續的缺陷修復和軟件功能完善有重要意義。

1 系統功能模塊

軟件缺陷畫像系統的核心價值在于了解軟件缺陷,挖掘軟件缺陷信息中隱含的信息,以便軟件開發人員能夠更好地認識理解軟件缺陷。系統的功能模塊包含普通畫像和深度畫像2個模塊。普通畫像模塊包含語義匹配和關鍵詞抽取2個功能;深度畫像模塊包含實體識別、關系抽取以及相似性缺陷推薦3個功能,如圖1所示。

圖1 軟件缺陷畫像系統的功能模塊

普通畫像模塊是本系統的基礎功能模塊,通過將系統中用戶輸入的缺陷描述轉換成語義向量,并與歷史缺陷庫中的缺陷信息進行簡單的向量計算,完成相應的相似度計算和關鍵詞提取等任務。深度畫像模塊從理解缺陷信息的角度出發,采用較先進的機器學習技術和神經網絡知識,以實體和實體關系標識缺陷,并基于實體和實體關系推薦與原缺陷相關的缺陷,以補充原缺陷信息,這對后續的缺陷修復工作具有重大意義。

2 普通畫像模塊

普通畫像模塊包含語義匹配和關鍵詞抽取2個功能,屬于本系統的基礎功能。

語義匹配功能采用免費的Python第三方庫Gensim(topic modeling for humans)模塊實現。Gensim模塊可以擴展語義,能夠完成基于語義結構的純文本文檔分析以及檢索文檔語義相似等任務,具體操作步驟如下:(1)針對缺陷庫中的每一個缺陷,把缺陷的基本屬性(Product、Component、Reporter等)、Summary和Description信息放到一個文件中,并利用Gensim模塊里面jieba分詞工具完成分詞、過濾停用詞等操作,將其處理成每個缺陷對應的向量表示;(2)將用戶輸入的缺陷描述視為某個缺陷信息,利用Gensim模塊分詞、去停用詞,并將其轉換成對應的向量;(3)從向量的角度出發,利用Gensim模塊里面的similarities包計算系統用戶輸入的缺陷描述和缺陷庫中每個缺陷的相似度,得到相似度最高的缺陷。該缺陷視為根據系統輸入的缺陷描述信息檢索到的缺陷,可以根據該缺陷的相關信息輔助理解新缺陷。

本系統使用TF-IDF算法來抽取軟件缺陷的關鍵詞,TF-IDF是一種用于信息檢索與數據挖掘的常用加權技術。TF的意思是詞頻(Term Frequency);IDF的意思是逆文本頻率指數(Inverse Document Fre-quency)。詞頻TF表示關鍵詞在文檔中出現的頻率;逆文本頻率指數IDF表示某個詞的常見程度。根據公式(1)來抽取缺陷關鍵詞:

TF-IDF=TF×IDF

(1)

為完成缺陷關鍵詞的挖掘,需確定數據源。此處所采用的數據源是指語義匹配功能所篩選出語音相似度最高的缺陷,對其進行分詞、過濾掉常見詞并完成缺陷關鍵詞的抽取。

3 深度畫像模塊

深度畫像模塊包含實體識別、關系抽取以及相似性缺陷推薦3個功能,屬于深度的知識分析加工。

實體識別功能旨在識別缺陷文本中具有領域特定含義的單詞,例如:“Ruby”“C#”“Python”“Pascal”“Java”等,這些是屬于計算機領域的編程語言類別的單詞。明確實體位置并準確識別出實體所屬的類別有助于了解缺陷文本中所包含的實體語義關系,是實體識別工作必須完成的目標。此處采用Zhou等[2]提出的方法識別缺陷文本中的實體。

關系抽取功能旨在確定特定實體對之間的關系,以便能夠明確缺陷語句的語義關系。例如:針對缺陷文本“WhimbooreportedtheBug1848799”,在識別了實體“Whimboo(People)”和“Bug1848799(BugID)”后,需要能夠快速明確2個實體之間的關系,以便能夠確定該缺陷文本的語義信息,否則“Whimboo(People)”和“Bug1848799(BugID)”這對實體之間可能存在多種關系,無法界定它們之間的關系,對理解缺陷文本信息的實際含義造成困難。此處采用馮艷紅等[3]提出的方法抽取實體對之間的關系,通過謂詞并結合語境來表述實體關系。

相似性缺陷推薦功能旨在針對用戶輸入的缺陷描述信息,基于實體和實體關系進行相似度計算,從而推薦相關的缺陷,用來補充用戶所需缺陷的相關信息,輔助理解該缺陷。

在完成了實體識別和關系抽取后,需要構建以實體和實體之間關系為基礎的三元組,以Mozilla項目中ID為1848799的某條缺陷信息“WhimbooreportedtheBug1848799”為例,在識別了“Whimboo(People)”和“Bug1848799(BugID)”2個實體以及“BugReporter”這個實體關系后,需要將其表示成三元組的形式“”,來表達原來的缺陷信息。針對用戶輸入缺陷畫像系統的缺陷信息需要將其處理成三元組的形式。同時,歷史缺陷庫中的多個缺陷信息也要將其處理成對應的每個缺陷對應的缺陷三元組集合。

在完成缺陷三元組構建的基礎上,采用TF-IDF和Word Embedding(詞嵌)2種向量分別計算缺陷三元組的相似度得分,并將其結果相加得到最終的相似度。根據TF-IDF計算相似度的流程,如圖2所示。在將用戶輸入的缺陷描述信息轉換成缺陷三元組后,再將其轉換成對應的TF-IDF向量A;同時,將Bug歷史缺陷庫表示為多個缺陷對應的三元組列表后,再將其轉換成每個缺陷對應的TF-IDF向量B。在得到缺陷文本對應的TF-IDF向量后,使用余弦相似度來計算用戶輸入的缺陷信息和Bug庫中每一個歷史缺陷基于TF-IDF向量的相似度Score1。余弦相似度計算如公式(2)所示,其中A、B均為TF-IDF向量,Score1計算結果越大,表明A、B2個向量越相似,則對應的缺陷文本相似程度越高。

圖2 根據TF-IDF計算相似度流程

(2)

根據Word Embedding向量計算缺陷文本相似度的流程設計,如圖3所示。與利用TF-IDF向量計算缺陷文本相似度的流程類似:首先,需要用戶輸入的缺陷描述文本轉換成對應的Word Embedding向量C,并將歷史缺陷庫中的每個缺陷轉換成對應的Word Embedding向量D;其次,使用余弦相似度來計算用戶輸入的缺陷信息和歷史缺陷庫中每一個缺陷基于Word Embedding向量的相似度得分Score2。

圖3 根據Word Embedding計算相似度流程

對于用戶輸入的缺陷描述和Bug歷史缺陷庫中的缺陷,它們的相似度得分Score2可以由公式(3)計算。其中,Word Embedding向量C代表用戶輸入的缺陷描述對應的詞嵌向量;Word Embedding向量D代表歷史缺陷庫中某個缺陷對應的詞嵌向量。

(3)

獲取到上述相似度得分Score1和Score2,由于它們采用不同的方法計算,且均考慮到了缺陷信息的文本含義,所以需要將它們融合生成一個最終的相似度得分,依據最終的相似度分數排序推薦與用戶輸入相似的缺陷報告。由于TF-IDF和Word Embedding 2種方法均是基于缺陷文本計算相似度,方法本身不分好壞,所以將這2種方法在最終的缺陷相似度得分中所占比重設置為0.5,故最終的缺陷相似度得分Score計算公式,如公式(4)所示。

Score=Score1×0.5+Score2×0.5

(4)

4 結語

本文從缺陷文本信息語義理解的角度設計了軟件缺陷畫像系統。該系統包含普通畫像和深度畫像2個模塊,集多種功能于一體,為軟件開發和維護領域的研究人員高效獲取所需缺陷信息提供了便利,提高了用戶滿意度。后續可通過構建缺陷知識圖譜進一步提升缺陷知識獲取效率,推動缺陷修復進程。

猜你喜歡
語義文本用戶
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 欧美性色综合网| 一级毛片免费播放视频| 色欲国产一区二区日韩欧美| 日韩精品无码免费一区二区三区| 日韩专区欧美| 青青草原国产一区二区| 亚洲成A人V欧美综合| 国产成人在线无码免费视频| 精品91视频| 国产精品爽爽va在线无码观看| 91福利在线观看视频| 欧美日本在线观看| 国产精品永久久久久| 伊伊人成亚洲综合人网7777| 成人av手机在线观看| 曰韩人妻一区二区三区| 国产成人久久综合777777麻豆| 国产成人精品视频一区视频二区| AV不卡无码免费一区二区三区| 孕妇高潮太爽了在线观看免费| 久久精品亚洲中文字幕乱码| 国产永久无码观看在线| 91成人在线免费视频| 亚洲精品国产乱码不卡| 亚洲欧洲日韩综合| 2021国产精品自产拍在线| 成人国产精品视频频| 久久特级毛片| 久热精品免费| 国产欧美日韩综合一区在线播放| 91久久偷偷做嫩草影院精品| a级毛片免费网站| 亚洲男人的天堂久久香蕉| 99久久精品国产综合婷婷| 无码网站免费观看| 国产真实乱了在线播放| 亚洲人成网站在线播放2019| 亚洲浓毛av| 日本高清免费不卡视频| 国产丝袜啪啪| 在线不卡免费视频| 亚洲人成网线在线播放va| 久久中文字幕不卡一二区| 欧美激情第一欧美在线| 亚洲国产成人在线| 色天堂无毒不卡| 欧美爱爱网| 一区二区三区成人| 91麻豆精品国产91久久久久| 国产第一页屁屁影院| 91福利国产成人精品导航| 国产三级韩国三级理| 人妻精品久久久无码区色视| 精品一区二区三区中文字幕| 欧美日韩国产在线人| 国产尤物jk自慰制服喷水| 亚洲国产系列| 国产精品片在线观看手机版| 欧美亚洲中文精品三区| 欧美精品三级在线| 囯产av无码片毛片一级| 在线无码私拍| 国产午夜无码专区喷水| 国产精品女人呻吟在线观看| 亚洲成人精品| 成人精品视频一区二区在线| 色网站在线免费观看| 在线人成精品免费视频| 区国产精品搜索视频| 欧美日韩成人在线观看| 91伊人国产| 国产啪在线| 青草视频在线观看国产| 免费无码又爽又黄又刺激网站 | 国产精品妖精视频| 色婷婷在线影院| 亚洲欧美一区二区三区蜜芽| 欧美国产精品不卡在线观看 | 色噜噜久久| 国产不卡一级毛片视频| 欧美高清国产| 国产美女精品在线|