999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據庫漢語自然語言查詢技術研究

2019-09-06 06:44:34王代星
現代計算機 2019年22期
關鍵詞:語義數據庫系統

王代星

(貴州大學教育教學評估中心、高等教育研究所,貴陽550025)

0 引言

計算機人機交互界面一直在朝著簡單、易用、智能、人性化方向發展,數據庫自然語言查詢技術也正是順應這一趨勢,研究使用自然語言查詢數據庫的方法,從而擴大數據庫用戶群體,方便廣大用戶使用,而無需掌握數據庫專業技術知識,擺脫數據庫形式化查詢語言的桎梏。本文著重從數據庫角度出發,探討了數據庫漢語自然語言查詢技術的實現(以下簡稱自然語言查詢)。

1 國內外研究現狀

計算機自然語言處理NLP(Natural Language Processing)早在上個世紀60 年代,國外就展開了研究,并在機器翻譯領域獲得了成功。數據庫自然語言查詢技術的研究也伴隨著自然語言處理而展開,在80 年代進入高潮,前前后后開發了許多具有代表性的系統。如:60 年代美國B. Green 開發的基于關鍵字匹配技術的BASEBALL 系統,允許用戶用限定的英語句子查詢數據庫內記錄的美國全國棒球聯賽信息;1978 年美國國際人工智能研究所(SRI)C.Hendrix 等人設計的LIFER系統,通過將分析程序與知識庫相分離的做法,設計出了自然語言查詢通用接口,在它的基礎上,美國成功地建立了一批專用接口;80 年代,美國人工智能公司(AIC)推出Intellect 英語人機接口系統,Frey Associates公司推出Themis 人機接口系統,加利福尼亞工學院推出ASK 系統,日本日立公司推出HICALTS 英日、日英翻譯系統等,標志著語言產業的形成,研究的重點也向通用系統轉移;在80 年代末,90 年代初,由于受到圖形用戶界面技術的沖擊,數據庫自然語言查詢研究跌入低谷,之后朝著兩個方向發展,一是將前期的系統引入實用階段,二是不斷地探索新的理論和方法,引入多模式界面和人工神經網絡等技術。

我國于上世紀70 年代末80 年代初開始漢語自然語言數據庫接口系統的研究,在借鑒國外研究成果的基礎上,根據漢語的特點,設計了一批專用接口和通用接口,主要采用關鍵詞匹配、句法模式匹配、語義語法、擴充轉移網絡(ATN)等技術。主流實現方式有基于數據庫E-R 漢語理解模型、類關系代數邏輯式中間語言轉換、以條件為中心的句型匹配以及多語句組合模板等方法,將通用知識庫與領域專用知識庫相分離,利用學習模塊獲取領域專用知識,以此達到一定程度的可移植性、通用性。但從整體來說,進展緩慢,多數系統只停留在原型系統水平,未考慮向實用系統轉化。

2 基本術語約定

從實體聯系模型出發,數據庫邏輯模式與概念模式具有較為直接的對應,利用圖1 所示數據庫語義詞典,可以方便地進行轉換,因此,在后文提到關系、屬性以及查詢要素時,不再嚴格區分邏輯模式和概念模式。為方便討論,將文中用到的部分術語在此作簡略解釋。

目標屬性:自然語言查詢結果所涉及的數據庫關系屬性。即查詢結果是滿足查詢條件的目標屬性值的子集。

條件屬性:自然語言查詢中對查詢結果的限定條件涉及的數據庫關系屬性。

條件值:自然語言查詢條件部分的具體限定值。分字符串型、數值型和日期型三類。

查詢要素:指一條自然語言查詢包含的目標屬性、條件屬性、條件值以及排序屬性、分組屬性等要素。

數據庫語義詞典:數據庫邏輯模式與概念模式映射工具。主要用于自然語言查詢要素切分、SQL 語言轉換。簡稱語義詞典。

通用詞典:包括標點、介詞、連詞、查詢詞、是詞、有詞、聚集詞、比較詞、數詞、量詞、疑問詞等,涉及自然語言查詢的通用詞匯,它們對句子的結構分析、查詢要素之間的關聯分析具有特殊的意義,對不同類型的詞匯需要作相應的處理。

查詢要素切分:利用數據庫語義詞典和通用詞典,采用正向最大匹配或反向最大匹配方法從自然語言查詢句子中切分出查詢要素,必要時預先進行數據庫探測查詢。要素切分的同時也完成了數據庫概念模式與邏輯模式的轉換。

超關系:將目標屬性所在的基本關系,以及從該關系出發通過主鍵和外鍵兩兩關聯的所有基本關系連成一個虛擬的大關系,稱之為一個超關系。

條件值歸屬模糊:指自然語言查詢中未指明條件屬性的條件值可能歸屬超關系的幾個屬性的現象。系統需要采用探測查詢等技術才能消除這種模糊。

探測查詢:即數據庫預查詢。指在查詢要素切分過程中,對條件值可能歸屬的超關系屬性進行預查確認,消除歸屬模糊和排除領域動詞等無關詞匯。

3 數據庫語義分析

自然語言查詢有兩種實現方案:一是對數據庫管理系統進行擴充;二是在數據庫管理系統之上開發應用接口。兩種方案都必須建立數據庫邏輯模式與概念模式的映射。本文采用的是第二種方案,通過建立如圖1 所示的數據庫語義詞典,完成模式轉換。該詞典從具體數據庫抽取出來而獨立于數據庫存在,一般與分析處理程序一起放入Web 服務器中,以實現多服務器、多數據庫的訪問。考慮到自然語言詞匯的豐富性和用戶用詞的個性,詞典中需要加入大量的同義詞。同時還需要包括許多輔助信息,例如:屬性的類型、域、量詞、單位;關系的主外鍵約束;超關系;數據庫服務器的連接方式等。詞典采用樹型結構,這種結構與XML文檔結構非常相似,用XML 文檔詞典實現平臺無關性。語義詞典的建立過程如下:

(1)從數據庫的詞典中自動提取邏輯模式。

(2)從系統ER 模型、需求分析文檔中的數據詞典、系統說明書等提取概念模式、同義詞。需要人工參與,由數據庫管理人員或系統開發人員手工添加。

圖1 數據庫語義詞典

4 漢語自然語言查詢的語言特征

表示查詢的自然語言有祈使句和疑問句。祈使句只針對數據庫的內容,而疑問句則分兩種情況,一種是對數據庫內容提問,另一種是基于數據庫內容進行推理和判斷性要求提問。疑問句的后一種情形涉及人工智能領域的研究,需要知識庫的支持,本文不作討論。在現實中,人們的查詢請求基本上都是比較簡潔的單句,可簡化為短語結構,如:

例1 查詢數據庫的課程號和學分

簡化:數據庫的課程號和學分

例2 張三住什么地方?或:張三的家庭地址在哪里?

簡化:張三的家庭地址

例3 查詢學號為98001 的學生姓名、性別

簡化:學號為98001 的學生姓名、性別

可編程實現這種簡化,因此本文只針對這種短語結構進行討論。查詢要素在自然語言查詢短語中主要有如下規律:

(1)目標屬性(組)名稱前一般都有關系名修飾,或實體關系的名稱屬性的某個值限定,如:

例4 學生的姓名、年齡

其中目標屬性組“姓名、年齡”由其實體關系“學生”修飾。

例5 張三的性別、年齡

其中目標屬性組“性別、年齡”由實體關系的名稱屬性“姓名”的值“張三”修飾。

(2)當條件值前無屬性名稱修飾時,一般都是名稱類屬性的值。如例5 中的“張三”。

(3)實體關系名經常單獨出現,其后無屬性跟隨。取其默認屬性組為目標屬性,如:

例6 張三選修的課程

其中“課程”是實體關系,包含“編號、名稱、學分、先修課”等屬性。可以為其指定一組默認屬性。

(4)屬性名后無是詞、比較詞等與條件值關聯時,為目標屬性。如例4、例5。

(5)屬性名之后有是詞、比較詞等與條件值關聯時,屬性和條件值組合成查詢條件,如:

例7 學號為95001 的學生姓名

由此可知,雖然自然語言很不規范,但僅就表達查詢這一有限的自然語言集合來說,其用詞是有限的、句子結構是有規律可循的,各查詢要素之間是有一定的固定搭配的。綜合運用這些結構信息,是自然語言查詢處理的依據之一。

5 自然語言查詢要素切分

查詢要素切分不同于分詞概念。分詞技術必須盡可能準確地、徹底地把句子切分成語言的最小組成單位“詞”,而自然語言查詢分析只需要切分出查詢要素即可。例如“家庭地址”,在數據庫中它是一個獨立的概念,而不用細分為“家庭”和“地址”。對條件值的切分區別更為突出,例如公司名稱“聯華科技責任有限公司”、書名“高級數據庫技術與應用”等,分詞結果則顯得畫蛇添足。因此,查詢要素切分的概念更適合于自然語言查詢處理。

查詢要素切分使用的兩種漢字串切分方法:正向最大匹配法和反向最大匹配法,同時也是自然語言三種常用分詞技術中的兩種方法[1]。查詢要素切分交替使用正向和反向最大匹配方法,有利于效率的提高。每一輪匹配,當語義詞典匹配、通用詞典匹配、探測查詢匹配都失敗時,才考慮舍棄一個字,再進行剩余字串的匹配。

算法5.1 查詢要素切分

輸入:自然語言查詢字串、語義詞典、通用詞典

輸出:目標屬性、查詢條件(條件屬性=條件值)

1.采用反向最大匹配法或正向最大匹配法或交替使用這兩種方法,查詢數據庫語義詞典,切分出關系、屬性,同時完成模式轉換,確定所屬超關系。

2.采用同樣的方法,查詢通用詞典,切分出常用詞匯,結合第1 步的結果,判斷目標屬性、條件屬性、以及與條件屬性關聯的條件值。

3.采用同樣的方法,在超關系中進行探測查詢,消除條件值歸屬模糊。

4.若剩余的字串不空,重復上述過程,直到空串。

5.輸出目標屬性、查詢條件。

6 探測查詢

目前對條件值歸屬模糊或整個自然語言查詢的處理主要有以下幾種方法:

(1)規范查詢用語。對查詢用的自然語言進行一定的限制,要求用戶使用規范的句型格式。優點是簡單、易于實現,缺點是限制太多,要求用戶熟悉數據庫的概念模式。

(2)人機交互確認方式。對未登錄詞、專有名詞等系統無法解釋的詞匯,作出幾種可能的推測,由用戶進一步選擇確認。優點是增強了人機互動,提高了分析處理的精確度,具有自學習功能。缺點是用戶必須熟悉數據庫的概念模式,必須清楚地知道他要查詢的內容屬于哪一個實體或聯系的哪一個屬性。

(3)句型模式匹配方式。分析、統計數據庫中關系與關系之間、關系與屬性之間、屬性與屬性之間、值與值之間、值與屬性之間可能存在的修飾關系,與自然語言句子結構結合起來,歸納出若干特定的句型,然后將實際的查詢句子與這些句型模式匹配,取相似度最高的句型作為實際問題的解。這種方法查詢效率高,但實現起來麻煩,要歸納出一個龐大的數據庫的所有句型模式是非常困難的,普通的數據庫技術人員很難勝任這項工作,系統缺乏可移植性。

實際上數據庫內既然包含了我們想要知道的內容,就完全可以利用這些內容來幫助我們分析查詢。探測查詢正是基于這樣的思想。首先,數據庫內的數據是有組織、有結構的,作為一個整體,反映現實世界某個領域的客觀對象的信息,查詢也會緊緊圍繞這些信息進行,這種緊密相關性正好映射一個超關系的概念。其次,數據庫內的數據類型分成三類:數值型、日期型、字符串型,前兩種數據類型一般與“年月日”或量詞同時出現,而字符串型數據,在隱含條件屬性的情況下,都是現實客觀對象的名稱。第三,并行計算技術可以同時實現多個屬性的探測,提高查詢速度。最后,探測查詢不向用戶返回查詢結果,不占用網絡帶寬。總之,對條件值歸屬模糊,在超關系內按屬性分類進行探測,是行之有效的。例如:

例8 張三的家庭住址

例9 工程項目管理的學分

例10 張三的工程項目管理的考試成績

分析例8:假設數據庫內有學生、教師、課程三個實體關系,選課、授課兩個聯系關系,學生實體通過選課與課程實體關聯,教師實體通過授課與課程實體關聯,這五個關系構成一個超關系R。首先,通過反向最大匹配,查找語義詞典,得知“家庭住址”是屬性student.address,同時由student 關系確定超關系R;其次,查找通用詞典,匹配出“的”字,得知前面的“張三”修飾student.address 屬性;第三,查找語義詞典和通用詞典,無法匹配“張三”,轉而進行探測查詢;第四,“張三”屬字符串型數據,是客觀對象的名稱,而超關系R 中含有三個實體名稱型屬性:student.sname, teacher.tname,course.cname,且句中沒有明確指出“張三”到底是學生、教師還是課程名稱,因此產生條件值歸屬模糊,需要分別對這三個屬性進行探測查詢,依次或并行地執行下面三條SQL 查詢語句:

(1)select*from student where sname='張三'

(2)select*from teacher where tname='張三'

(3)select*from course where cname='張三'

最后,根據探測查詢的結果,確定“張三”到底歸屬于哪一個屬性,并組合成查詢條件。探測查詢的輸出結果可能有4 種:①student.sname=‘張三’;②teacher.tname=‘張三’;③course.cname=‘張三’;④FALSE(無滿足條件的記錄)。例9、例10 的分析類似。

探測查詢法立足于數據庫本身的內容,解決條件值歸屬模糊,從而簡化了自然語言查詢的分析處理。缺點就是在采用最大匹配方法從自然語言句子中切分出條件值時,在匹配過程中,可能需要進行多次探測查詢,從而占用過多的數據庫資源。

7 數據庫自然語言查詢系統體系結構

綜上所述,得出如圖2 所示自然語言查詢系統體系結構。自然語言字串經過要素切分、探測查詢后,已經由自然概念轉換成了數據庫邏輯模式,確定了超關系、目標屬性、查詢條件,再經SQL 轉換模塊組合成完整的SQL 語句,最后交底層數據庫管理系統執行,并以XML 文檔格式向用戶返回查詢結果。

SQL 轉換模塊主要有兩個功能:首先是超關系的簡化。超關系中存在很多冗余的基本關系,需要根據查詢要素,篩選出實體關系,再考察各實體關系之間是否需要聯系關系連接,從而確定FROM 子句和連接條件;其次將所有的查詢要素分別裝配成SQL 的子句,即SELECT子句、WHERE 子句(可能還有GROUP BY、ORDER BY子句),然后將它們組合成完整的SQL 語句。

圖2 自然語言查詢系統體系結構

系統將通用詞典、語義詞典與分析處理模塊分離,只要語義詞典不同,就可實現對不同數據庫的訪問,從而提高系統的可移植性。探測查詢既是簡化系統設計、提高可移植性的關鍵,也是影響系統性能的瓶頸,因為對數據庫反復地進行探測查詢,將浪費一定的系統資源、增加客戶查詢的等待時間。

8 結語

自然語言查詢技術具有廣闊的應用前景。首先,擴大了數據庫的使用群體,用戶可以避免學習數據庫形式化查詢語言,甚至不需要了解數據庫知識;其次,屏蔽了數據庫模式細節,提高了系統的安全性;第三,可以基于自然語言查詢技術聯成松散的多數據庫網絡系統,從而避免模式集成、數據轉換等繁瑣的工作,降低數據共享的成本;第四,可以基于自然語言查詢技術,通過Internet 建立網上虛擬數據庫,并與網上搜索引擎集成起來,提供完美的網上搜索查詢服務。

猜你喜歡
語義數據庫系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
語言與語義
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
主站蜘蛛池模板: 伊人久久婷婷| 人妻91无码色偷偷色噜噜噜| 成人蜜桃网| 国产成人AV综合久久| 国产伦精品一区二区三区视频优播| 亚洲国产精品一区二区高清无码久久| 欧美三级自拍| 99偷拍视频精品一区二区| 国产三级国产精品国产普男人| 日韩欧美在线观看| 精品福利国产| 欧美精品亚洲二区| 亚洲一区色| 亚洲国产欧美国产综合久久 | 丁香五月激情图片| 亚洲愉拍一区二区精品| 亚洲成a人片在线观看88| 国产视频大全| 亚洲国产黄色| 四虎成人在线视频| 伊人久久久久久久久久| 久久久久青草线综合超碰| 人妻精品久久无码区| av一区二区无码在线| 香蕉综合在线视频91| 日本三区视频| 日韩区欧美国产区在线观看| 中国毛片网| 尤物精品视频一区二区三区| 青青草久久伊人| 重口调教一区二区视频| 在线另类稀缺国产呦| 一本综合久久| 亚洲综合第一区| 国产精品视频导航| 毛片手机在线看| 久久精品国产91久久综合麻豆自制| 成人第一页| 四虎影视无码永久免费观看| 国产福利一区在线| 国禁国产you女视频网站| 成人年鲁鲁在线观看视频| 91香蕉视频下载网站| 亚洲视频免费在线看| 国产精品自在线拍国产电影| 欧美视频二区| 91啦中文字幕| 国产欧美在线观看一区| 伦伦影院精品一区| 亚洲综合经典在线一区二区| 欧美综合区自拍亚洲综合绿色| 91青青视频| 国产精品原创不卡在线| 亚洲天堂精品在线| 日韩精品无码免费一区二区三区| 操国产美女| 在线色国产| 中文字幕自拍偷拍| 美女被操黄色视频网站| www.日韩三级| 亚洲天堂视频在线免费观看| 欧美另类第一页| 国产一区二区三区精品久久呦| 欧洲亚洲欧美国产日本高清| 巨熟乳波霸若妻中文观看免费| 精品精品国产高清A毛片| 成人一区专区在线观看| 欧美有码在线| 宅男噜噜噜66国产在线观看| 97国产在线视频| 精品福利网| 久久久久国色AV免费观看性色| 伊人AV天堂| 欧美人与性动交a欧美精品| 国产欧美网站| 一级毛片在线直接观看| 日韩第一页在线| 亚洲人成网址| 国产鲁鲁视频在线观看| 日韩在线视频网站| 欧美啪啪网| 国产精品免费p区|