基于機器學習的軟件開發過程優化研究

2024-12-31 00:00:00李紅軍

信息系統工程 2024年11期

摘要：隨著人工智能技術的飛速發展，機器學習作為其中的重要分支，被廣泛應用于各個領域。旨在探討基于機器學習的軟件開發過程優化問題，以提高軟件開發效率和質量。首先，詳細分析了軟件開發過程中常見問題。其次，利用Apriori關聯規則算法對軟件開發過程中的大量數據進行訓練和分析。然后，基于訓練結果，優化軟件開發中的各個環節，從而提高開發效率和降低錯誤率。研究結果表明，在實際軟件開發項目中，采用基于機器學習的優化方法可以顯著提升團隊的協作效率，減少開發周期，提高軟件質量。

關鍵詞：機器學習；軟件開發；過程優化；Apriori關聯規則算法

一、前言

隨著信息技術的快速發展，軟件開發已經成為各行業的重要組成部分。然而，傳統的軟件開發方法在滿足日益增長的需求和挑戰方面已經顯得后勁不足。軟件質量、開發效率、團隊協作等方面的問題愈發凸顯[1]。在這種背景下，機器學習作為一種新興的技術手段，為優化軟件開發過程提供了全新的可能性。通過利用機器學習算法，軟件開發團隊可以更好地處理日益增加的開發數據，準確識別和預測潛在問題，從而及時調整開發方向。此外，機器學習還可以幫助優化開發流程，提高團隊的協作效率，降低開發成本，提高軟件的質量和可靠性[2]。因此，本研究旨在探討基于機器學習的軟件開發過程優化策略，為提高軟件開發效率和質量探索新的可能性。

二、軟件開發過程常見問題分析

在軟件開發過程中，常見的問題包括需求不明確、溝通不暢、進度把控困難、代碼質量低下等。首先，需求不明確可能導致開發團隊無法準確理解客戶需求，進而影響產品的最終質量。溝通不暢則可能導致開發團隊之間或開發團隊與客戶之間信息傳遞不暢，造成不必要的延誤和誤解。此外，軟件開發項目的進度把控往往是一個挑戰，團隊往往難以準確估計開發時間和資源，導致項目延期或超預算。最后，代碼質量低下可能導致軟件在使用過程中出現漏洞和問題，影響用戶體驗和產品可靠性。這些問題的存在常常會導致軟件開發過程效率低下、成本增加、質量下降等負面影響。因此，研究如何有效解決這些常見問題，提升軟件開發過程的效率和質量，具有重要的現實意義。結合機器學習等先進技術，可以幫助實現軟件開發過程的智能化優化，為推動軟件產業的發展提供新的可能性[3]。

三、軟件開發數據挖掘技術

（一）數據挖掘流程

數據挖掘是從大量結構與非結構化的信息數據中采集有價值信息的過程。研究者對數據挖掘有很多定義，提出的分階段處理模型應用較為廣泛，他們把整個數據挖掘階段分為七個過程。目前，數據采集挖掘方法已全面運用于金融、醫療等范疇，教育行業也在逐步根據自身特點和優勢進行探索和實踐[4]。

數據采集挖掘步驟包括：目標的定義、目標數據庫建立、預處理數據、模型建立、檢測、測評與說明和現實運用，如圖1所示。

通過圖1可以清晰地看到數據挖掘過程和各項流程的關系。首先，目標的定義是要求數據挖掘的技術人員與客戶前期進行一個良好的溝通，一方面可以明確實際要求，另一方面是要明確了解數據分析要解決什么具體問題。目標數據庫的建立是通過對大數據的收集和描述，對數據質量進行評估，加載數據庫模型，構建元數據。預處理數據是整個挖掘過程中的重要環節，其耗費時間占整個數據挖掘過程70%左右。數據預處理有處理噪聲數據、不一致數據和不完整數據等。例如，在有噪音干擾環境下得到的數據屬性，不同數據來源會導致數據產生不一致性。模型的建立是一個反復的過程，需要認真考慮模型的實用性，應該先創建小量數據模型，然后進行數據驗證再得到一個最終模型，還需要通過檢測環節對模型的穩定性和準確性進行評判。測試與說明是對模型運行的結果進行檢驗并評價它的模型價值。現實運用主要是在對模型進行充分論證和試驗后，應用于技術人員的實際工作和其他不同數據集的分析上[5]。

（二）面向數據挖掘的機器學習方法

數據挖掘是大數據分析首要研究的熱點。所謂數據挖掘是指從存儲或數據庫的大量數據中，找到隱藏的、未知曉和無法發現的具有潛在價值信息的過程。數據挖掘是對發展決策的一種支持手段，它立足于人工智能、機器學習、統計學、數據庫、可視化等方法與技術，通過對大型數據庫的探查與分析，可以預測未來的發展趨勢與走向。例如，通過對高校的招生大數據分析可以得到哪些專業受到學生歡迎，哪些省份的生源質量提高快，由此可以對學校的專業設置和招生名額分配提供一定決策支持。同樣，在教學管理、教學評價、網絡安全、學生管理等各個方面，大數據分析都有它重要的決策需求。在數據挖掘分析中最重要的基礎是有效的數據統計分析方法和數據分類分析方法[6]。

統計分析方法是在資料系統相對完善的基礎上進行統計分析，將定量和定性相融合，在統計調查、設計整理基礎上，通過分析統計對象的有關知識實施的活動來認識研究對象。常用的統計分析方法有主成分分析法和因子分析法等。

主成分分析法（PCA）是一種借助正交變換將可能有關聯性的變量轉為無關聯變量的方法。主成分分析不是簡單地舍去不關鍵的標準，而是全面分析各種標準，涉及信息獲得變成主成分的全面標準，是數學降維的一種主要方法。

因子分析法本質上是取得變量關聯的數據矩陣，研究內部結構。借助得到的若干能操控全部變量的任意變量，能夠說明諸多變量間的關聯性。這些不可查看的任意變量稱為因子，并按照關聯性進行分組。分組體現著同一組變量的關聯性高，而不同變量的關聯性低。

分類分析方法是指采用一定方法能夠將對象劃分到預先定義的目標類中的方法。分類分為兩個過程：首先，在數據收集與采集的基礎之上借助算法獲得分類模型。例如，F是目標模型函數，能夠將數據和屬性集X先行反饋到目標類之中。其次，檢驗模型的精準性，假如精確程度在可允許的范圍內，則能夠使用該模型進行新的數據類別區分。目前，普遍使用的分類分析法有決策樹法、貝葉斯區分算法、類別區分法和相關分析法等。

決策樹分析法也被稱為樹形分析法，因其圖形與樹干相似得名，是一種使用較為普遍的分類分析方法。它具有操作簡單，易于理解的特點，是一種立足現實案例的總結學習算法，可以幫助使用者很好地理解問題。決策樹的類別區分涉及三個環節：首先繪制樹形決策圖，對決策問題進行再次分析；其次由右到左反方向計算各節點期望值；最后對比各類方案的一個期望值，進行剪枝，并將去掉的部分用“=”號隔斷。

四、基于Apriori算法的軟件開發過程中數據關聯分析

關聯分析是數據挖掘中最實用的技術之一，也是目前數據挖掘研究中較為活躍的技術。良好的關聯算法可以為數據分析節省大量時間和空間，從大量的數據池中快速發現子項集間存在的有趣關聯，并充分利用這種關聯進行進一步數據挖掘和呈現。目前常用的Apriori算法是較為基礎的關聯規則算法，可挖掘和采集諸多數據中項集之間的關聯性，縮小頻繁項集之間的空間。其重點理念是找出全部項集，保證出現的次數與定義的最小度一致，進一步生成可以滿足最小可信度和支持度的關聯規則。該算法在安全、通信、數據管理等領域都有廣泛的應用，但是存在效率較低的問題，需要進一步改進和優化。

（一）Apriori關聯規則算法

Apriori算法是利用了逐層搜索迭代的思想找到數據庫中的項集關系，生成關系規則。算法中的項集就是項的集合，如K個項即K項集，如果其中的一個項集滿足最小的支持度則稱為頻繁項集。Apriori的關聯規則思想本質上是從數據庫中掃描所有候選項集，找到頻繁項集，進一步計算其支持度，將產生的候選項集互相聯結、循環，直至無法產生新候選項集為止。

該算法有四個性質：一是在數據遍歷運算時，遵循自上而下、由底到頂的遍歷方式；二是堅持寬度和深度優先的搜索策略；三是在給定的事務數據庫中，優先尋找候選項集；四是在數據分布上，主要在水平和垂直兩個方向進行分布。

Apriori關聯規則算法流程是：第一，掃描數據庫，對數據庫中的數據進行計數，結合需求給出項目集最小支持度以及最小置信度；第二，針對所有候選項目集支持度進行計算和比較，當該項目集支持度低于最小值支持度時將其刪除，否則將其作為下一步頻繁項集；第三，在第一次數據庫掃描時產生候選項集，并計算每個項集的承受度，令其與先行部署的最小承受度限值進行對比，獲得頻繁項集；第四，將頻繁項集數據項進行結合，經過關聯后獲得候選項集，將其最小支持度閾值進行比較，進一步獲得候選項集；第五，借助多次掃描進行比較，直到沒有新的、更大的項集產生；最后，結合從最大頻繁集獲得的相關規則，借助計算相關規則的置信度，深入地獲得較為合理的相關規則。

（二）改進Apriori關聯規則算法

Mapreduce是分布式的簡化編程的模式和調度模型。前文分析表明傳統Apriori關聯算法存在耗時和需要消耗大量存儲空間等弊端。如果在Mapreduce模型基礎上能結合 Apriori算法，形成Mapreduce+Apriori交叉的算法結構，則可以借助Mapreduce的并行計算框架改進傳統Apriori算法存在的計算效率不足弊端，可為數據挖掘工作提供一定技術支持。從算法的基本理念上來看，該算法是利用Mapreduce“劃分而治”的方法，將Apriori算法與Mapreduce框架進行結合。算法具體計算過程將分為Map和Reduce兩部分，通過這兩部分把大塊數據文件劃分成獨立的數據塊進行并行計算處理，其處理的過程如圖2所示。

Mapreduce+Apriori交叉算法內容包括：掃描原始數據到矩陣，壓縮重復數據成矩陣D；利用Mapreduce的并行計算模式特性對矩陣D分塊；將分塊后的矩陣D發送到Hado結構中的每一個計算終端上；由每一臺計算終端對數據進行分布式的計算處理，通過并行計算提高數據計算效率，擴大存儲空間。

該算法是運用Mapreduce并行模型與 Apriori關聯算法進行交叉融合。首先，將原始的數據劃分區塊，將數據集分為數據塊并提交給map節點。其次，引入局部最小承受度限值，按照塊的占比計算局部最小承受度限值。最后，針對每一塊數據使用該算法來減少事務數據矩陣的限值。這種算法通過借助數據的不斷劃分來采集數據矩陣中的頻繁項集。在整個計算階段之中，減少了對數據庫的掃描次數和頻率，可以降低算法的完成時間，提高算法的計算效率。

五、實驗結果分析

為驗證上述改進算法的有效性，本文在 Mapreduce模型結構下，構建一個分布式集群環境。該集群環境共建立了7個節點，各節點處理器主頻CPU2.8兆赫茲、6GB內存，操作系統為 Linux的Ubuntu18.10。傳統的數據分割式算法在計算耗時上較為顯著，在三頻繁項集關聯算法中耗費時間最長為35019秒，簡單并行算法時間的耗費為其次，在三頻繁項集關聯算法中耗費時間為30982秒。而本文的“Mapreduce+Apriori”交叉算法，在1、2、3頻繁項集中消耗時間分別為10228秒、12921秒以及29851秒，有效改善了在挖掘過程中隨著頻繁項數據的不斷增加而導致的系統運行速度和計算速度明顯降低的問題。表1給出了Mapreduce+ Apriori交叉算法在不同數量集群節點上的加速比提升結果。因而在耗時和加速方面，本文所提算法明顯要優于其他兩種算法。

六、結語

本研究基于機器學習的軟件開發過程優化方法在提高軟件開發效率和質量方面具有重要意義。研究的創新點在于將機器學習技術應用于軟件開發過程中，實現了自動化的問題識別和預測。傳統的軟件開發過程依賴于人工經驗和規則的制定，容易受主觀因素的影響，并且無法處理大量數據的復雜性。而基于機器學習的方法可以更準確地分析數據，發現隱藏在其中的規律和趨勢，幫助開發團隊更好地規劃和管理項目。未來可以進一步探索該方法在不同領域和環境中的應用，并結合其他先進技術，實現軟件開發過程的智能化和自動化，為推動軟件產業的發展作出貢獻。

參考文獻

[1]呂志穎.基于大數據智能化的信貸軟件開發過程優化研究[D].杭州：浙江大學，2023.

[2]黃作鵬.基于CMMI的鵬成網絡公司軟件開發質量管理優化研究[D].蘭州：蘭州理工大學，2023.

[3]馬潤楠.基于DevOps的A公司軟件項目過程管理優化研究[D].北京：北京郵電大學，2024.

[4]張暉.基于敏捷開發的D公司軟件項目管理過程優化研究[D].濟南：山東大學，2022.

[5]駱傳慧.FPGA軟件開發過程中編碼規范的作用[J].科技視界，2016（20）：239+241.

[6]白銳，任群英，郭萬里.生料漿制備過程的優化控制軟件[J].上海交通大學學報，2014，48（07）：998-1003.

作者單位：青島濱海學院

責任編輯：張津平、尚丹