999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘技術在體育領域的研究現狀與應用前景

2010-09-08 03:13:56喬克滿汪德秀
巢湖學院學報 2010年3期
關鍵詞:數據挖掘體育

喬克滿汪德秀

(1巢湖學院體育系,安徽巢湖238000)

(2巢湖市體育局業余體校,安徽巢湖238000)

數據挖掘技術在體育領域的研究現狀與應用前景

喬克滿1汪德秀2

(1巢湖學院體育系,安徽巢湖238000)

(2巢湖市體育局業余體校,安徽巢湖238000)

通過文獻研究的方法整理分析了相關文獻資料,探討了國內外體育數據挖掘的發展前沿,展望了數據挖掘技術在體育領域的應用前景,認為數據挖掘技術對我國體育領域的理論研究和實踐工作具有廣泛意義。

數據挖掘;體育;研究現狀;前景

數據采集和存儲技術的進步導致了數據規模的日益增加,這些數據涉及社會生產及生活的各個領域,包括從超市業務數據、信用卡使用記錄、電話呼叫記錄等普通應用領域到天體圖像、分子數據等特殊應用領域。近年來,體育領域的數據亦在日益激增,如:各式各樣的國民體質監測數據、競技體育比賽數據等。數據是一種寶貴的信息資源,但這種資源同礦藏一樣,只有通過、管理、分析、挖掘、提煉等操作,才能使潛在的資源變成可用的財富。而數據挖掘技術的目的正是為了解決此類問題。

1 數據挖掘簡述

數據挖掘是發掘大量數據中尚未被發現的知識,是從系統內部智能的自動獲取知識的過程,是數據準備、數據開采、結果表達和解釋的系統工程。Usama Fayyad博士于1996年提出了學術界較為廣泛認可的數據挖掘定義:“數據挖掘(Data Mining,DM)是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取出隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識的過程”[1]。隨后十多年中,數據挖掘被眾多領域的研究人員看作是數據庫系統和機器學習方面的一個重要研究課題。許多產業界人士將其看作是一個能帶來巨大回報的重要領域,從數據庫或數據倉庫中發現出來的規則和知識可以用在信息管理、查詢響應、決策支持、過程控制等許多方面。

目前,數據挖掘的重要性已經被商業應用、電子商務、犯罪研究、生物醫療、Internet等領域認可。比如,商人們聘請數據挖掘人員幫他們發現顧客購買模式,Amazon.com、Taobao.com利用購買的歷史記錄把相應的產品推薦給購物者。數據挖掘在科學研究方面也有著廣泛的應用,主要有生物研究、生物醫學研究、氣象研究、水文地質研究和考古等。朱玉全等歸納了比較活躍的數據挖掘應用方向,包括:市場營銷,銀行業,生產、銷售和零售業,制造業,經紀業和安全交易,保險業,醫藥,交通,電信,公司經營管理等。[2]

2 數據挖掘在體育中的研究與應用

2.1 國外體育數據挖掘的應用

在認識到數據挖掘的功能后,國外已經將其應用于眾多體育領域中。如,從競技體育歷史統計數據挖掘得出許多重要的信息,并據此提出了一系列的研究思路、方法和公式,開發了專業的體育數據挖掘工具。許多體育組織都聘請專門的數據挖掘人員來預測球隊未來前景、球員天賦、為球隊的教練及經理們引進和選擇球員提供決策依據。

2.1.1 全美職業棒球大聯盟(MLB)中的應用

當前數據挖掘在美國職業棒球聯盟中使用尤為出色。棒球領域內最先從事數據統計分析的先驅之一Bill James提出了新的分析方法“SABERmetrics”[3]——源于美國棒球研究協會(Society of American Baseball Research)的首字母——他用精確和科學的數據挖掘相關技術去搜集和處理棒球的統計數據,并提出了評價每位球員在比賽獲勝中貢獻量的一種新方法“Win Share”,用于評價球員對于球隊的價值。

棒球領域的專家們通過分析棒球歷史數據并結合Albert概率理論,提出并修正了廣泛用于挖掘擊球手和投手表現的加權線性預測評分公式。預測評分(RUNS)等于:

式中1B(2B、3B)表示一(二、三)壘打,HR為本壘打,BB四壞保送,HBP觸身球,SB被盜壘,CS盜壘失敗,(AB-H)為(打數-安打),OutsOnbase表示上壘被截殺次數。

另一個被棒球領域廣泛用于評價投手能力的公式是由Thorns和Palmer提出來的。

式中Pitching Runs是反映投手能力的特征量,IP(Innings Pitched)為投球局數,LeagueERA為聯盟平均自責分率,ER(Earned Run)為投手的自責分。結果大于0說明這個投手好于一般投手,結果小于0顯示該投手較差。

2.1.2 美國職業籃球聯盟(NBA)中的應用

NBA中與SABERmetrics形似的數據統計分析變革被稱為ABPRmetrics,命名源于職業籃球研究協會(theAssociationofProfessional Basketball Research,ABPR)。ABPRmetrics是以籃球的團隊運動理念為衡量準則的。這一新的數據挖掘分析方法證明了某些擁有優秀統計數據球員卻給他們的各自球隊的表現帶來了消極影響。

82games.com網站通過數據挖掘在原始統計數據中查找各種模式,對籃球運動員的價值和貢獻以及球隊的表現和效率,提出了許多新奇見解。其中之一就是將控球進攻的半場劃分為16個不同的投籃區域來觀察和分析籃球比賽中的投籃。如圖1(來源[4])所示。這種類型的分析價值在于能看出球員在哪些區域投籃最好,適用于教練們在進攻中如何最好的安排隊員。相反的,如果知道對手球員在哪些區域投籃最差,教練就能安排適合的防守策略來迫使對手球員在最不利的區域投籃。

圖1 進攻半場的投籃區域

82Games.com的數據分析專家們還提出了衡量球員關鍵時段效率的方法。他們定義“關鍵時段”為比賽分差不超過5分的第4節最后5分鐘和整個加時賽。

籃球數據挖掘專家John Hollinger,提出了球員效率值(Player Efficiency Rating,PER)的概念,用于評價球員每分鐘的比賽效率[5]。這一評價方法綜合考慮了球員比賽中的積極貢獻和消極影響。Dan Rosenbaum綜合考慮其他場上球員(包括對手和隊友)、主客場等多方面因素,根據球員上場與不上場時球隊效率的比較,提出并修正了用于評價球員對于球隊價值的綜合正/負效率值[6]。

2.1.3 全美橄欖球聯盟(NFL)中的應用

《職業橄欖球計劃》主編Schatz通過對橄欖球的數據挖掘分析,提出了DVOA方程(the Defense-adjusted Value Over Average formula)。[7]這個方程衡量特定位置的進攻球員的成功率與聯盟平均值的關系。全隊DVOA值可以用于衡量整個球隊在進攻、防守以及某些特別組的效率。

Jay Coleman和Allen Lynch通過歷史數據的挖掘分析,提出了用于詳細預測年度NCAA(全美大學生體育協會)賽事的公式Dance Card和Score Card。這兩個公式成功預測NCAA賽事獲勝者的準確率分別為94%和75%[8]。

除了美國三大體育聯盟體育數據挖掘的成功應用外,其它一些國家和體育相關組織也正在建設體育數據挖掘的系統工程。如歐洲足球產業領域中,許多知名足球俱樂部一直非常重視體育數據倉庫的建設,相關的體育數據挖掘理論與實踐研究為足球產業的發展帶來了巨大的經濟效益。

2.1.4 澳大利亞體育學院數據分析的兩項革新

澳大利亞體育學院(the Australian Institute of Sport,AIS)為了使與體育運動有關的多種豐富的體育數據信息得到最優化應用,提出了“兩項革新”。[9]第一項革新是建立用于存儲多種視頻、音頻和數據文件的數字化知識倉庫,這一知識倉庫集中規范化處理各種數據,使得各種不同的體育軟件能夠訪問需要的信息;第二項革新是力圖用數據挖掘的技術發現那些可能隱藏在數據庫海量數據中的新知識。

2.1.5 體育數據挖掘工具

許多商業產品包含的數據挖掘功能可以用作體育領域的數據挖掘工具,如SAS、SPSS、SQL等。隨著大多數體育組織和機構對數據挖掘應用感興趣,以及數據挖掘對其它行業帶來的效益越來越顯著,使得更多的第三方公司為獲取商業利潤而專門開發和設計應用于體育數據分析的數據挖掘工具。以下是美國三大體育聯盟應用較為廣泛的三款體育數據挖掘工具。

Advanced Scout(AS)是IBM公司開發的一款體育數據挖掘軟件。90年代中期起,NBA球隊教練就借助Advanced Scout來發現隱藏在比賽統計數據里的重要信息。該軟件有兩種數據:一種是結構性的,即比賽統計數據;另一種是非結構性的,即NBA比賽錄像帶上的多媒體資料。教練使用該軟件可以了解到即將比賽的對手特點以及預測比賽中出現的狀況,從而為比賽的決策提供幫助。

Digital Scout是非常受美國職業棒球和NBA歡迎的體育數據挖掘軟件,可以應用到棒球、籃球、橄欖球及其它體育運動中。該軟件可以方便地收集數據、統計分析,并得出分析報告。比如,棒球分析報告包括擊球隊員擊中和投手投中的數據統計圖表,而籃球分析報告包括球員以及整個球隊投籃統計圖表等。

Inside-Edge是另一款頗受棒球領域歡迎的數據挖掘工具。棒球世界系列賽(美國職業棒球聯盟總決賽)連續六次使用Inside-Edge產品。Inside-Edge給客戶提供的報告包括擊球隊員和投球隊員的具體數據,包括運動員力量、弱勢、傾向及習慣。在遇到特殊對手時,經理或教練可以借助分析報告做出決策。隊員自己也可以根據這些分析報告更好地了解自己,知道怎樣改善自身的不足。

2.2 國內體育數據挖掘的研究

已有不少學者提出,面向我國體育領域日益積累的大量數據,利用成熟的數據挖掘工具,根據數據挖掘的基本步驟,是能夠實現對體育數據的挖掘。但由于我國體育數據采集、體育數據庫建設和管理不完善、體育數據挖掘工具開發不力等方面的問題,在體育界的應用尚處于起步階段,大多為小規模樣本數據的探索性研究。

國內學者最先關注的是體育統計與數據挖掘的區別、聯系與融合,他們研究了數據挖掘對現代統計學發展的影響,數據挖掘在體育統計中的應用等,認為數據挖掘是一種重要的新思想、新理念、新方法,一種可以挖掘“寶藏”的金鏟子。姜達維則認為“數據挖掘是一個實踐性、目的性很強的數據分析技術門類,它充分利用數據資料,運用可利用的現有技術手段提取知識和信息,為決策服務,遠遠超出傳統統計方法的服務領域”。[10]

體能、技戰術等數據資源的挖掘研究,為提高運動員競技水平提供了參考。戴敏、黃亞樓通過挖掘體能測試項目之間的關聯關系,解決體能測試指標的優化問題;同時,運用數據挖掘的原理,將運動員體能狀態評價與預測問題轉換為分類挖掘問題,設計了一個包括輸入層、隱含層、輸出層的模型,用于對網球運動員體能狀態進行評價。[11]高洪歌從數據挖掘技術入手,分別介紹了關聯規則分析、聚類分析和基于馬爾科夫過程的數據挖掘算法在乒乓球比賽技戰術分析中的應用方法和實現過程[12]。

近年來,面向高等院校的體育數據挖掘研究也開始活躍起來。如李慧玲討論和分析了數據倉庫和數據挖掘在高校體育數據分析的應用,包括體育課程考核數據分析的應用、體質健康數據分析的應用、運動訓練數據分析的應用[13]。周興斌等采用數據倉庫技術和數據挖掘技術構建了大學生體育訓練輔助決策支持系統:基于大學生的體育成績及身體檢查表等數據,通過數據挖掘技術產生新的知識規則來充實知識庫,根據用戶輸入選擇相應的模型并結合知識庫中的規則來逐步產生一套合理的體育運動訓練方案[14]。

3 體育數據挖掘的前景

理論上講,數據挖掘可以在任何類型的信息存儲上進行。這包括關系型數據庫、數據倉庫、面向對象的數據庫、對象—關系數據庫、文本數據庫、多媒體數據庫和萬維網等。體育領域的各項科研實踐產生了大量存儲形式各異的數據,但由于數據挖掘自身的優勢,使得數據挖掘技術的應用具有與生俱來適應性。這項嶄新的技術可提高體育領域的科技含量,符合我國從體育大國向體育強國轉變的體育國策。

3.1 體質研究

我國政府對人民大眾健康和增強體質的重視,使得體質研究成為目前體育科研的熱點之一。體育相關理論知識結合數據挖掘技術,對日益增加的體質數據進行分析,能較為容易的提取海量體質數據背后隱含的、人們事先不知道的,但又是潛在有用的信息和知識。如:根據體質數據和體育健身項目方面的知識,挖掘出不同健身項目和國民體質健康之間的關聯,為全民健身項目優化服務;根據積累和不斷收集的數據,結合體質數據和營養學方面的知識,可以挖掘造成不同地區體質好或差的營養方面的原因;根據體質數據和醫學方面的知識,能夠挖掘出人們的健康狀況,甚至分析出導致健康狀況較低的可能的疾病原因,從而可以更好地為人們自我保健和健身等方面提供有力的指導。

3.2 體育產業

數據挖掘技術本身正是在產業經濟發展背景下產生的,體育產業作為產業經濟的一部分,其應用數據挖掘技術的可行性是毋庸置疑的。以體育銷售為例,通過歷史銷售數據挖掘分析出流失客戶的共同特征,可以在那些具有相似特征的客戶還未流失之前進行針對性的彌補。這樣,可以一定程度地提高體育銷售的效益。如同數據挖掘技術為其它產業經濟帶來效益一樣,必將可以為我國體育產業創造更多的財富。

3.3 競技體育

從美國三大體育聯盟數據挖掘的成功,可以看出體育數據挖掘可以為競技體育水平提高做出積極的貢獻。數據挖掘技術可以為體育訓練提供決策支持,提高競技體育數據分析的效率,挖掘優秀運動隊(員)之間潛在的規律,為競技體育的經營管理、教練員的戰術決策等提供參考。此外,采用數據挖掘對優秀運動員的早期體質數據進行分析,能夠找出它們的共同特點,從而為競技體育選材提供有力的依據。

3.4 體育教學

數據挖掘在體育教學領域的研究具有一定的應用前景,可以從體育教學管理,教學評價,課程設置,教學方法,教材選擇等方面對數據挖掘在體育教育信息化過程中的應用加以研究。如:運用數據挖掘中的關聯規則,根據學生性別、年齡、身體形態評分及身體機能評分、身體素質評價等級等對期末測試成績建立預測模型,從而尋找潛在知識,改善體育教學效果;運用聚類,分類等數據挖掘技術對體育教學分組方法進行分析,實現按照學生身體素質的相似程度來進行合理的教學分組,適應因材施教的教學要求。

3.5 體育科研選題

數據挖掘技術可以輔助科研工作者進行科研選題。科研選題是廣大科研工作者面臨的棘手問題,發掘即新穎又具相當研究價值的科研題項,對整個科研工作具有重要意義。數據挖掘技術可以根據純數據之間的關聯性挖掘出一些潛在的、容易被忽視的規則,這些規則可以作為潛在的科研題項。筆者在運用關聯規則研究體質數據的過程中,發現一些規則具有一定的潛在科研價值。如:發掘出握力與平衡能力的關系;肺活量與握力間的關系;吸煙與肺活量之間的關系等等。這些僅僅是通過純數據挖掘出的一些模式,尚需進一步的科研加以驗證性研究。

4 結論

數據挖掘技術自身的發展及其在眾多研究領域的成功應用,為其在體育領域的發展提供了啟示。數據挖掘技術對我國體育領域的各項科研實踐工作具有廣泛的意義,但尚需廣大體育科研工作者和數據挖掘專業人員的共同關注。

4.1 體育數據挖掘前景廣闊

數據挖掘技術在體育的許多子領域都具有旺盛的生命力。體育領域積累并不斷擴充著大量數據,如何對這些數據進行整理并采用數據挖掘的方法進行分析,創造新的價值,是體育科研人員的重要任務之一。

4.2 體育數據挖掘是一項系統工程

體育數據挖掘是一項復雜的系統工程。目前市場上雖具有各種相對成熟的數據挖掘工具,能夠在明確定義了解決的問題后,根據數據挖掘的基本步驟,實現對體育數據的挖掘。但體育領域自身的特殊性,使之難以避免的存在“水土不服”現象。因而需要在體育專業人員和數據挖掘專業人員共同努力下,完成對數據挖掘工具的二次開發,提高其在體育領域的交互性、適應性。

4.3 數據挖掘的有限性

數據挖掘無法實現對結果的最終解析,永遠不會替代有經驗的體育科研人員所起的作用,它只是更科學、更容易的根據純數據間的關系挖掘出一定模式的一種工具。

[1]Fayyad U,Piatetsky-Shapiro G,Smyth P.the KDD process for extracting useful knowledge from volumes of data[J]. Communications of the ACM,1996,39(11):27-34.

[2]朱玉全等.數據挖掘技術[M].南京:東南大學出版社,2006:12

[3]Albert,J.An Introduction to Sabermetrics[EB/OL].Bowling Green State University(http://www-math.bgsu.edu/~albert/ papers/saber.html),1997.

[4]Beech,R.NBA Player Shot Zones[EB/OL].82Games.com(http://www.82games.com/shotzones.htm),2005-10-08.

[5]Hollinger,J.Pro Basketball Prospectus[M].2002 Edition.Potomac Books,2002.

[6]Rosenbaum,Dan T.Measuring How NBA Players Help Their Teams Win[EB/OL].82Games.com(http://www.82games.com/ comm30.htm),2004-4-30.

[7]Schatz,A.Pro Football Prospectus:Statistics,Analysis,and Insight for the Information Age[M].2006 Edition.Workman Publishing Company,2006.

[8]Coleman,J.&A.Lynch.NCAA Men’s Basketball Tournament Score Card[EB/OL].University of Northern Florida(http:// www.unf.edu/~jcoleman/score.htm),2006.

[9]Lyons,K.Data Mining and Knowledge Discovery[J].Australian Sports Commission Journals,Ausport Volume 2,Number 4,2005.

[10]姜達維,姜一鵬.體育統計與數據挖掘:區別、聯系與融合[J].天津體育學院學報,2005,(06):63-65.

[11]戴敏,黃亞樓.基于數據挖掘的運動員體能測試數據分析[J].計算機工程與應用,2003,(09):38-40,60.

[12]高洪歌.數據挖掘技術在乒乓球比賽技戰術分析中的應用研究[D].北方工業大學,2006.

[13]李慧玲,林子.數據倉庫和數據挖掘在高校體育數據分析中的應用[J].廣州體育學院學報,2005,(05):126-128.

[14]遲殿委,周興斌.基于數據挖掘的體育訓練決策支持系統[J].微計算機信息,2009,(12):190-192.

Abstract:Through literature study,this thesis analyzed the development of data mining from home and abroad,made a view of the developing direction of data mining,and concluded that data mining has profound importance to theory study and practical work in sports.

Key words:data mining;sports;research status;prospect

責任編輯:宏彬

STATUS AND PROSPECT OF DATA MINING IN SPORTS

QIAO Ke-man1WANG De-xiu2
(1 Dept.P.E.,Chaohu College,Chaohu Anhui 238000)
(2 Amateur School,Chaohu Bureau of sport,Chaohu Anhui 238000)

TP311

A

1672-2868(2010)03-0031-05

2010-01-20

巢湖學院自然科學資助項目(項目編號:XLY-201015)。

喬克滿(1979-),男,安徽宿松人。巢湖學院體育系,館員,研究方向:體育信息統計、體育數據挖掘。

猜你喜歡
數據挖掘體育
探討人工智能與數據挖掘發展趨勢
提倡體育100分 也需未雨綢繆
甘肅教育(2020年2期)2020-11-25 00:50:04
我為體育狂
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
論清末體育熱
2016體育年
數據挖掘技術在中醫診療數據分析中的應用
我們的“體育夢”
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 久久久久人妻一区精品色奶水 | 亚洲综合久久一本伊一区| 国产一区二区精品福利| 高潮毛片免费观看| 二级特黄绝大片免费视频大片| 欧美特级AAAAAA视频免费观看| 国产白浆在线观看| 国产极品美女在线观看| 国产福利免费视频| 亚洲美女操| 91视频精品| 久久综合结合久久狠狠狠97色| 国产打屁股免费区网站| 狠狠做深爱婷婷久久一区| 色综合天天娱乐综合网| 亚洲中文字幕手机在线第一页| 国模极品一区二区三区| 亚洲精品中文字幕无乱码| 在线免费看片a| 国产成人亚洲综合a∨婷婷| 亚洲高清日韩heyzo| 欧美天堂久久| 亚洲无码电影| 日韩一区精品视频一区二区| 久久免费精品琪琪| 67194在线午夜亚洲| 国产精品第页| 伊人天堂网| 尤物国产在线| 性欧美精品xxxx| 亚洲三级成人| 久操线在视频在线观看| 四虎综合网| a毛片免费在线观看| 91色在线视频| 中文字幕久久亚洲一区| 日本成人福利视频| 久久亚洲高清国产| 亚洲视频二| 为你提供最新久久精品久久综合| 91亚瑟视频| 婷婷中文在线| 国产精品视频导航| 国产精品视频猛进猛出| 亚洲午夜福利精品无码不卡| 国产黄色片在线看| 亚洲精选高清无码| 国产18在线| 91综合色区亚洲熟妇p| 日本午夜三级| 亚洲欧州色色免费AV| 亚洲日韩Av中文字幕无码| 茄子视频毛片免费观看| 欧美精品H在线播放| 东京热av无码电影一区二区| 青青草国产一区二区三区| 国产三级韩国三级理| 欧美一级爱操视频| 国产麻豆永久视频| 欧美精品亚洲日韩a| 亚洲中文字幕精品| 欧美成人看片一区二区三区| 青青青国产视频手机| 亚洲日韩图片专区第1页| а∨天堂一区中文字幕| 午夜国产理论| 色婷婷成人网| 伊人福利视频| 欧美成人综合视频| 国产手机在线小视频免费观看| 69视频国产| 亚洲欧美一区在线| 午夜精品福利影院| 国产国语一级毛片| 无码免费的亚洲视频| 欧美日韩免费在线视频| 欧美日韩国产高清一区二区三区| 国产成人禁片在线观看| 亚洲一级色| 免费看av在线网站网址| 国产杨幂丝袜av在线播放| 中文字幕啪啪|