999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種健康醫療保險格式條款的結構化處理方法

2018-09-05 10:19:04張晶杜明
智能計算機與應用 2018年3期
關鍵詞:文本

張晶 杜明

文章編號: 2095-2163(2018)03-0087-04中圖分類號: 文獻標志碼: A

摘要: 關鍵詞: (School of Computer Science and Technology, Donghua University, Shanghai 201620, China)

Abstract: Introduce the data structure and concept level of Chinese insurance contract format clauses, and treat its unstructured insurance clause data set as the object of processing. First, analyze and study the structure and meaning of insurance format clauses, and then use template extraction and matching methods to perform the operating, transform it into structured data. Experiments show that this method can achieve higher accuracy.

Key words:

作者簡介:

收稿日期: 引言

隨著當前中國經濟水平的發展和民眾對保險產業認知的加深,使得保險產業在互聯網效應的驅動下有了更進一步的發展。目前各大應用平臺紛紛上線財產保險、人身保險等相關保險產品,從保險購買者的角度出發,對于健康醫療保險,投保人如何根據保險人的實際身體健康狀況和所需相關保障進行投保更大程度上取決于投保人對健康醫療保險條款的理解和判斷[1]。但對于普通保險購買人來說,保險行業信息仍然存在著極大的不透明性,保險合同格式條款是由保險公司單方面商定、購買人并不參與定制的文本文件,且保險合同格式條款[2-3]大多為長文本數據類型,文本內容多采用專業性語言和超長詞匯進行描述。

因此,如何從保險格式條款中獲取有效信息并且根據投保人意愿提供相關合理化意見和建議已經成為保險經營活動的新趨勢。 目前在文本數據結構化[4]處理方面,國內外均有許多相關的研究工作,但由于中文語言、語義、文法等存在著特殊性,借鑒國外的技術受到很多制約。首先,處理中文格式化健康保險文檔需要對長文本進行分詞,但目前現有的中文分詞工具,如中科院的NLPIR[5]、復旦的FNLP[6]、斯坦福的NLTK[7]等在處理具有很強專業性的中文保險合同格式條款中并不能取得很好的分詞結果;其次,與英文不同,中文不存在類似于英文的詞根/前綴,不能直接通過詞語本身對詞語進行分類,需要借助語境、語義做相應的判別分析。

針對上述問題,本文結合中文健康保險合同格式條款的具體特點,提出了一種簡單有效的中文健康保險合同格式條款文本結構化處理方法。該方法首先對獲取到的保險條款格式進行格式轉換、編碼轉換、事項分類、長句切分等預處理操作。然后利用外部詞庫和文本分詞計算詞語共現度和計算詞語權重的方法構建包含專業術語和具有重要意義的長復合詞組庫。構建RDF提取模板;首先對事項內容進行聚類,根據聚類結果進行關鍵名詞組提取,然后利用余弦相似度計算方法去除同義屬性,接著根據提取結果進行總結和含義轉換,最后回溯屬性提取過程,建立RDF提取模板。之后根據構建的RDF提取模板建立通用的正則算法對文本數據進行描述抽取。

1問題闡述

保險合同格式條款是根據保險法及保險險種、范圍所定義的內容。條款內容中包含大量的專業術語和規范性語言表述,其中還有大量“本合同”、“本合同條款”等無關鍵意義的詞語。保險合同格式條款文本數據樣例如圖1所示。

在文本結構上,保險合同格式條款以總分結構定義,每篇條款由多條事項構成;在語義上,保險合同格式條款是對其規定相關內容的描述,每項條款由若干關聯長短句組成。

定義1條款名稱指所屬的保險合同的條款名稱名詞。例:新華i健康定期重大疾病保險利益條款。

定義2事項名稱指保險合同格式條款中包含的規定事項。例:保險期間。

定義3屬性名指某一事項下包含的主體、原因、期間、賠付、結果等信息名詞。

定義4描述值指與指標名一一對應的描述性信息。

以圖1中的數據為例,該條款中的事項名稱為 “保險期間”、“保險責任”,在保險責任部分,按語義內容可提取指標和對應指標值“主體 :被保險人”,“原因:疾病”,“給付:重大疾病保險金”。

2保險格式條款機構化處理方法

本文提出的基于中文健康醫療保險合同格式條款的結構化信息抽取方法主要涉及到自然語言處理[9]的分詞、文本聚類、文本相似度計算、正則表達式匹配等技術,整個處理過程主要包括5部分,分別是:合同條款數據的預處理、模板提取、領域詞庫構建、信息抽取和糾錯校驗,其具體流程如圖2所示。

2.1文本預處理

由于保險格式條款的獲取渠道和文本形式不盡相同,所以在保存數據前需要對收集到的大量不符合結構化要求的數據進行前期處理,將表格形式、網頁格式的文檔轉換為純文本文件,且為了能在抽取過程中進行字符串匹配對獲取的文本數據按需要進行編碼轉換。保險合同格式條款單個數據量比較復雜,依據事項關鍵字匹配對其進行分類。由于保險條款存在一定的法律意義,所以數據相對正確性較高,無需進行清洗工作,只需根據斷點進行長短句切分。

2.2領域詞庫構建

在保險合同格式條款中,對很多保險事項內容的描述都采用了醫療保險領域內的專業術語或固有詞組進行表達,如“投保”、“保險期間”。并且其中包含很多在語義上不可分割的較長的字符串詞組,如“重大疾病保險金”。

本文首先采用結巴分詞工具對文本數據進行分詞,首先去除停用詞,然后利用TF-IDF統計算法篩選出文本數據集中比較重要的詞語,應用N-Gram模型套用貝葉斯公司計算詞語的共現度,從而得出數據集中復雜的復合詞語,然后經初步人工篩選建立醫療保險領域詞組庫。

2.3RDF提取模板建立

建立RDF資源描述框架形式的提取模板有助于對保險合同格式化條款進行高效的抽取和分類。提取模板的建立過程主要包含以下步驟:首先對事項中的內容利用Single-Pass算法進行聚類處理,然后利用IDF和IC-value計算關鍵名詞組提取,之后利用余弦相似度比較對提取的復雜詞組進行去重,經含義轉換操作對屬性值和描述值進行重新定義和轉換,最后根據抽取內容和內在聯系建立RDF 抽取模板。

2.3.1文本聚類

由于事項內容文本量較小,但待聚類數據量大,無法確定簇的個數,為便于后續根據數據情況增加新的類別,所以本文采用single-pass算法[13]對事項數據文本內容進行聚類。Single-pass算法流程如圖3所示。

文本進行聚類的目的是為了將每個事項內容中的長短句進行類別劃分。在本文中,對子句進行相似度對比是應用杰卡德相似系數(Jaccard Similarity)計算子句之間字符串的重合度實現的。 杰卡德相似系數計算公式如下:J(A,B)=|A∩B||A∪B|(1)

2.3.2關鍵名詞組抽取

對文本進行關鍵名詞組抽取主要應用基于統計參數的方法實現。在模板提取中重點需要用到兩個重要的統計參數分別為IDF值和IC-value值。IDF值為信息檢索中最常用到的“逆文本頻率指數”,IC-value是一種通過從逆文檔頻率、破碎子串和術語長度3個方面改進C-value而得到的一種計算候選術語度的方法。同時,屬性值的統計范圍是該類別的長子句的集合,而不是整個文本數據集。

計算屬性名w的IDF值的公式[10]如下:IDFw=logDDw(2)其中,D為子類中全部長句數,Dw為子類中W出現的長句數。

計算屬性名w的IC-value值的公式如下:

猜你喜歡
文本
文本聯讀學概括 細致觀察促寫作
重點:論述類文本閱讀
重點:實用類文本閱讀
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
作為“文本鏈”的元電影
藝術評論(2020年3期)2020-02-06 06:29:22
在808DA上文本顯示的改善
“文化傳承與理解”離不開對具體文本的解讀與把握
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
從背景出發還是從文本出發
語文知識(2015年11期)2015-02-28 22:01:59
主站蜘蛛池模板: 国产色爱av资源综合区| 欧美中出一区二区| 曰AV在线无码| AV不卡无码免费一区二区三区| 青青青国产视频手机| 成人一级免费视频| AⅤ色综合久久天堂AV色综合| 亚洲成年人片| 欧洲一区二区三区无码| 亚洲无码日韩一区| 永久免费无码成人网站| 九色最新网址| 亚洲有无码中文网| 国产在线视频自拍| 亚洲国产精品不卡在线| 久久久久久久久亚洲精品| 在线亚洲小视频| 日本道综合一本久久久88| 99久视频| 韩日午夜在线资源一区二区| 亚洲一区二区约美女探花| www.youjizz.com久久| 日韩在线第三页| 婷婷综合缴情亚洲五月伊| 欧美影院久久| 999精品在线视频| 国产又色又刺激高潮免费看| 亚洲成肉网| 国产成人高清精品免费软件| 99国产精品国产| 欧美区在线播放| 精品视频一区在线观看| 国产人碰人摸人爱免费视频| 国产91高清视频| 中文无码精品A∨在线观看不卡 | 亚洲男人天堂网址| 日韩二区三区无| 国产又黄又硬又粗| 国产女人综合久久精品视| 一区二区三区毛片无码| 97视频精品全国免费观看 | 一级毛片在线播放免费观看| 成人免费一级片| 无码人中文字幕| 亚洲无码视频一区二区三区 | 97精品久久久大香线焦| 国产精品视频免费网站| 欧美高清日韩| 成年免费在线观看| 国产成人1024精品下载| 亚洲人成网线在线播放va| 黄色国产在线| 毛片卡一卡二| 999国产精品永久免费视频精品久久| 亚洲国产成人麻豆精品| 黄色在线不卡| 88av在线| 大陆精大陆国产国语精品1024| 四虎精品黑人视频| 日本一区二区三区精品视频| 全午夜免费一级毛片| 国产在线观看人成激情视频| 久久影院一区二区h| 91成人在线免费视频| 毛片久久网站小视频| 色香蕉影院| 久久国产av麻豆| 国内精品九九久久久精品| 福利视频一区| 中文字幕av无码不卡免费| 国产精品私拍在线爆乳| 欧美v在线| 在线va视频| 人妻丰满熟妇αv无码| 欧美激情第一区| 欧美日韩综合网| 国产无码制服丝袜| 免费无码又爽又黄又刺激网站| 在线高清亚洲精品二区| 亚洲h视频在线| 亚洲色图欧美在线| 国产精品视频系列专区|