盧文哲,楊風雷,高 寧,毛 偉,
(1.北龍中網(北京)科技有限責任公司,北京 100190;2.中國科學院大學,北京 100049;3.中國科學院計算機網絡信息中心,北京 100190)
經過十多年的發展,中國互聯網發展與普及水平已居發展中國家前列。據中國互聯網信息中心(CNNIC)發布的《第31次中國互聯網絡發展狀況調查統計報告》[1]顯示,截至2012年12月底,中國網民數量達到5.64億,互聯網普及率為42.1%,網站總數已上升至268萬個。搜索引擎、網絡購物、網上銀行、團購、旅行預訂、網絡炒股等均已成為排名靠前的應用類型。
隨著互聯網與傳統行業的結合越來越緊密,以及互聯網帶給人們生活、工作越來越多的影響,眾多單位通過互聯網與網民產生了緊密聯系。如今,任何一項傳統的業務基本都能在互聯網上找到蹤影,而人們的大多現實需求都能夠通過互聯網來滿足。由此可以預計,隨著中國經濟社會的快速發展,互聯網在中國將更加普及,人們對互聯網應用水平的要求將會更高。
在電子商務領域,大型企業電子商務正在從網上信息發布、采購、銷售等基礎性應用向上下游企業間網上設計、制造、計劃管理等全方位協同方向發展。中小企業電子商務應用意識普遍提高,應用電子商務的中小企業數量保持較高的增長速度。網上零售規模增長迅速,市場逐步規范。《中國互聯網狀況》白皮書[2]中調查顯示,建立了電子商務系統的大型企業已超過 50%,通過互聯網尋找供應商的中小企業超過 30%,通過互聯網從事營銷推廣的中小企業達24%。截至 2012年6月底,網絡購物用戶規模達到2.1億,網民使用率提升至39.0%,較2011年底用戶增長8.2%。2011年中國電子商務市場交易額達到7萬億元。網上銀行和網上支付用戶規模在 2012 年上半年的增速分別達到14.8%和12.3%,截至2012年6月底兩者用戶規模分別為1.91億和1.87億。電子商務專業化服務體系正在形成,數字認證、電子支付、物流配送等電子商務應用支撐體系正在逐步形成。
但在電子商務領域高速發展的背后,誠信問題日漸突出。釣魚網站、掛馬網站、篡改網站、仿冒知名品牌等,給網民和網站帶來了極大的利益損失?!?012年中國網站可信驗證行業發展報告》[3]顯示,31.8%網購用戶遇到過釣魚網站,網購遭遇欺詐網民規模高達6169萬。保守估算,每年因釣魚網站或詐騙網站給網民造成的損失超過300億??梢?,在中國互聯網迅速發展的同時,對互聯網公信力的質疑已經成為互聯網進一步快速、健康發展的絆腳石。當前廣大網民、行業及相關管理部門都已意識到加強網絡誠信體系建設的重要性和緊迫性,這表明構建安全可信互聯網環境已成為管理部門和廣大用戶等多方的共識和共同訴求。
可信互聯網中身份可信的課題,研究的是如何對互聯網上的服務提供者的身份進行鑒定、傳播,同時能夠兼顧目前絕大多數的互聯網服務和應用,是一個比較新的課題和挑戰。本文總結目前針對互聯網服務提供者身份可信問題和網站可信標識方面的研究,提出一種網站身份可信標識的體系架構以及基于域名資源記錄的網站可信標識查驗協議,并開發相應的應用系統。
高可信性是下一代互聯網的重要特征,計算機系統需要建立高可信的網絡服務,可信性必須成為可以衡量和驗證的性能。因此,構建一個安全、可生存和可控的可信網絡正在成為人們關注的焦點。
目前對可信性比較有代表性的闡述主要有:ISO/IEC15408標準[4]指出,一個可信的組件、操作或過程的行為在任意操作條件下是可預測的,并能很好地抵抗應用程序軟件、病毒以及一定物理干擾所造成的破壞。微軟公司的Bill Gates認為可信計算是一種可以隨時獲得的可靠安全的計算并包括人類信任計算機的程度就像使用電力系統、電話那樣自由、安全[5]。正如清華大學林闖教授所說,“目前業界對可信網絡有不同理解:(1)認為可信網絡是基于認證的可信;(2)認為是基于現有安全技術的整合;(3)認為是網絡的內容可信;(4)認為是網絡本身的可信;(5)認為是網絡上提供服務的可信等”。林教授認為,可信網絡的定義是“網絡信息傳輸,服務提供者和用戶的行為及其結果總是可以預期與可控制的,即能夠做到行為狀態可監測、行為結果可評估、異常行為可控制的”[6]。
針對下一代互聯網的研究,目前國外比較有代表性的工作和項目主要包括美國自然科學基金委提出的 GENI計劃[7]和 FIND 計劃[8],研究的主要內容包括:重新設計一個從根本上來說比現今互聯網更加安全、可用的網絡;將信息分發、定位管理和身份管理等功能融入新的網絡體系結構中;研究新技術,如無線、光學等技術對未來網絡的影響。
在國內,對于下一代互聯網和可信網絡,很多學術機構的專家學者都有不同的研究。清華大學的吳建平教授承擔的“973”項目“新一代互聯網體系結構理論研究”主要研究了新一代互聯網的若干核心問題,包括新一代互聯網的模型結構和理論、新一代互聯網的路由交換協議、突發流量行為的基礎理論、可信任互聯網安全體系結構和安全監控理論和互聯網服務模型及其管理理論等多方面都開展了研究并取得了豐碩成果[9]。以清華大學林闖教授為代表的可信網絡研究更關注從網絡體系理論模型上,設計出新的可信網絡,林闖教授提出的可信網絡體系結構模型包括數據平面、可信控制平面;數據傳輸平面負責承載業務,并保障協議的可信性;可信控制平面則提供完備一致的控制信令,實現對用戶和網絡運行信息的分布式采集、傳播和處理,支持信任信息在可信用戶間的共享,并驅動和協調具體的行為控制方式;數據平面接受可信控制平面的監管,可信控制平面則向數據平面開放某些訪問接口,從而使得業務能夠獲知網絡運行是否可信[10]。北京交通大學張宏科教授承擔的“973”計劃“一體化可信網絡與普適服務體系基礎研究”,針對下一代互聯網的需求,建立一體化可信網絡,將網絡體系劃分為“網通層”和“服務層”,分別實現網絡一體化和服務普適化,這個兩層模型構成了一體化網絡與普適服務體系的基礎理論基礎[11]。
文獻[6]指出,可信網絡研究的內容主要包括3個方面:服務提供者的可信,網絡信息傳輸的可信和終端用戶的可信。其中,用戶的可信又包括用戶的身份和行為可信。用戶身份可信是指終端用戶的身份可以被準確鑒定,不被他人冒充,即終端用戶的身份真實有效。其中,對服務提供者(即網站)而言,研究者認為構建可信互聯網,需要解決網站最基本的 3個問題:身份可信,內容可信及服務可信,其中,身份可信是內容可信和服務可信的基礎。針對身份可信的研究主要是解決網站和網站所有者實體的統一性問題,保證網站身份真實可靠,防止釣魚網站和灰色網站。
網站可信標識體系結構中包括了 3個角色:網站,可信應用,標識權威機構,下面分別進行定義。
(1)網站:網絡服務提供者,指待認證實體。
(2)可信應用:指支持網站可信標識的應用,包括瀏覽器、搜索引擎、即時通訊軟件等??尚艖每梢詫哂锌尚艠俗R的網站進行驗證,并向最終用戶展示標識的信息。
(3)標識權威機構:指具備認證網站真實信息能力,能夠發布網站可信標識的機構。標識權威機構對網站進行驗證,為網站發放可信標識,同時對可信標識進行管理,并提供其驗證的可信標識詳細信息查詢和網站詳細驗證信息查詢。
此外,經過認證的網站身份信息,需要通過網站標識展示給最終用戶,具體的展示形式根據不同的互聯網應用特點而不同,比如,瀏覽器的展示形式是在地址欄中提示,搜索引擎的展示形式是在搜索結果中進行標識等。
網站可信標識體系結構如圖1所示。

圖1 網站可信標識體系結構
網站可信標識系統執行的具體過程如下:
(1)網站所有者向標識權威機構提交資料信息注冊,申請標識。
(2)標識權威機構對申請信息審核后,將被驗證網站的標識數據按指定格式生成網站可信標識數據,發布到查驗服務平臺上。
(3)可信應用需要獲取網站的可信標識信息時,應通過身份標識查驗協議訪問標識權威機構的查驗服務,根據返回結果獲得網站的可信標識信息。
(4)可信應用對標識驗證通過后,在應用上展示該網站的可信標識,并將標識中的內容向用戶展示,提示用戶正在訪問的網站信息。
(5)用戶可通過可信應用上展示的可信標識跳轉至驗證該網站的標識權威機構網站查看完整的驗證信息。
在網站可信標識體系結構中,適用范圍廣泛、性能高的身份標識查驗協議是其中的核心組件。
IETF在解決反垃圾郵件的方案時提出了 RFC4408標準[12],該標準是在域名服務器(Domain Name Server, DNS)解析協議的基礎上,通過對TXT資源記錄的格式化定義從而實現了對郵件發送者身份的查驗。這個思路和網站可信標識查驗的需求有相似之處,因此,網站可信標識查驗協議的設計也借鑒了這個思路,即通過對 DNS協議中 TXT資源記錄的格式化定義,來實現標識信息的傳輸。
在網站可信標識體系中,標識權威機構提供的身份標識查驗協議是一個基于DNS查詢協議的服務接口,可查詢某一網站是否經過標識權威機構驗證和相應的驗證信息。針對每個網站的驗證信息的集合,稱為網站可信標識對象。
網站可信標識對象由標識權威機構生成,并發布到該標識權威機構的身份標識查驗服務上。標識權威機構通過驗證信息的集合來生成網站可信標識對象。信息集合包括可辨別的網站域名、IP地址、用戶名稱以及一個可選的包含用戶附加信息的唯一性標識符。唯一性標識符內容的確切格式未做規定,而留給標識權威機構(IA)去定義。唯一性標識符可以是諸如對象標識符、日期或是說明有關可辨別用戶名的有效性的證書的其他形式。具體地說,如果一個標識對象的可辨別名為A,唯一性標識符為UA,并且該標識對象是由名為IA且其唯一性標識符為UIA的認證機構生成的,則網站可信標識對象具有下列形式:

其中,SN為標識權威機構生成的網站可信標識序列號;UIA為IA的可選的唯一性標識符;UA為用戶A的可選的唯一性標識符。
網站可信標識的有效期由 2個日期組成,兩者之間的時間段即是標識的有效期。標識有效期是一個時間區間,在這個時間區間里,IA必須保證維護該標識的狀態信息,也就是當該標識失效或吊銷時,IA必須實時更新查詢服務的結果。
標識對象是不可偽造的,可使用數字證書簽名技術或DNSSEC技術,保證標識對象的真實性。
標識權威機構發布的網站可信標識對象數據結構共包括4個部分:(1)標識開始符:標識信息域的開始,為字符串格式(kx://);(2)標識信息域:包含網站實體信息、標識機構信息等;(3)簽名算法域:采用的簽名算法,目前可以支持國標算法 id.cn.gmj.algo.sm2.sm3;(4)標識簽名域:對標識信息域的簽名信息。其中,簽名算法域和標識簽名域為可選。當使用數字證書簽名方式確保標識數據真實性時,需要用標識權威機構的私鑰,使用簽名算法域的算法,對標識信息域的數據進行簽名,并將簽名算法域和標識簽名域附加在標識信息域后。
網站可信標識對象數據的組成內容共包括14個字段:
(1)標識開始符(start symbol);
(2)版本號(version):用于標識當前記錄采用的數據格式版本;
(3)字符編碼格式(charset):用于標識當前數據使用的字符編碼格式;
(4)分組編號(packets number):由于txt記錄最好不超過255 Byte,當TXT超過該長度時,建議進行分組,用編號記錄當前分組的序號;
(5)總分組數(total packets number):用于記錄數據總分組數量;
(6)序列號(serial number):標識的唯一序列號;
(7)頒發者(issuer):頒發機構的名稱;
(8)網站域名(website domains):網站域名序列,驗證時只有驗證網站的域名在當前域名序列中才能驗證通過。*.abc.com 表示abc.com的所有子域名;
(9)驗證級別(level):認證級別,用于區分網站驗證級別;
(10)網站名稱(website name):網站名稱;
(11)網站首頁(website home):網站首頁地址;
(12)網站所有者(website owner):網站所有者的實體名稱,如企業名稱;
(13)網站地址(website IP Address):網站IP地址序列,驗證時只有驗證網站的IP地址在序列中才能驗證通過。IP可以用點分十進制表示,也可以用CIDR表示一個網段。*表示任意IP地址;
(14)簽名信息(signature)
1)簽名算法(signatureAlgorithm):描述簽名使用的算法;
2)簽名值(signatureValue)。
由于使用DNS TXT資源記錄存放網站標識數據,受到TXT數據長度255 Byte限制,如果超過255 Byte,有可能被一些網絡設備丟棄,因此標識信息域按照255 Byte大小分組。其中,當前分組號對應信息域中的分組編號,最大編號為信息域中的總分組數。查詢標識數據時,根據總分組數得知分組數量,根據分組編號將各段數據按順序重組為分組前的網站標識數據。
基于以上體系結構和協議,本文設計了可信網站驗證開放平臺,該平臺已投入生產應用,目前已有多個國內主流的互聯網應用接入了這個開放平臺。該平臺基于Java開發,主要包括網站身份驗證注冊管理服務、網站身份權威驗證解析服務和網站身份權威數據查詢服務3個功能模塊??尚啪W站驗證開放平臺的系統結構如圖2所示。

圖2 可信網站驗證開放平臺系統結構
網站主通過注冊系統提交申請,權威機構通過審核系統對網站主提交的信息進行審核,審核的進度和結果,可以通過信息查詢系統進行查詢,最后,各種互聯網應用可以通過身份標識查驗平臺的接口對網站身份進行識別,并根據識別結果給用戶以不同的展示形式。后面的章節可以看到一些應用實例。
“可信網站驗證開放平臺”可以支持各種互聯網應用,其中最典型的應用包括瀏覽器和搜索引擎,圖3和圖4分別展示了該平臺在淘寶瀏覽器和阿里云搜索引擎中的應用效果。

圖3 可信網站驗證服務在淘寶瀏覽器中的應用

圖4 可信網站驗證服務在阿里云搜索引擎中的應用
當用戶通過淘寶瀏覽器訪問一個經過驗證的網站時,會在瀏覽器的左端出現“可信網站”的標識,點擊這個標識會出現一個tips,tips顯示驗證的簡要信息,繼續點擊查看詳情,可以查閱針對該網站的詳細驗證信息。
在阿里云搜索引擎的應用中,以搜索“婷美”為例,搜索結果中只有一家是通過了可信驗證的網站,并被很明顯地標識出來,點擊這個標識還可以查看詳細的驗證信息,這樣可以非常方便地識別欺詐網站和釣魚網站。
目前已有包括微軟必應、傲游瀏覽器等多個互聯網應用開始使用“可信網站驗證開放平臺”。
為確保開放平臺能夠支持大規模的訪問量,本文進行了多次性能測試,以下是其中一次針對單臺服務器的性能測試的簡要描述:

測試使用 dnsperf做性能測試,構造一個帶查詢域名lqybgy.cn,將lqybgy.cn.ia2.knet.cn加入zongfile并加載進入bind service,先進行正確性驗證:


測試表明,單機的查詢性能可以達到15萬次/s,目前,可信網站驗證開放平臺的每日查詢量約為7000萬次,平臺中使用了10臺服務器,完全可以滿足性能需求。
針對互聯網中的服務提供者身份可信問題,本文在不重構現有互聯網體系結構的基礎上,借鑒了RFC4408的理念,通過規定域名txt資源記錄的方式,提出一種網站可信標識的體系結構,以系統的、開放的、可靠的方式解決互聯網的身份管理問題,在保證互聯網的可用性的基礎上,增加對互聯網服務的身份標識管理,同時在性能、實時性、適應性方面都可以滿足實際需要。
本文體系結構具有以下特點:(1)借鑒了域名技術的體系結構,使得其具有和域名體系一致的高性能、可靠性和穩定性;(2)具有開放性的特點,可以支持包括Web應用、IM應用、搜索引擎應用等多種互聯網應用。在理論研究的基礎上,同時開發完成了可信網站驗證開放平臺并投入生產環境使用。在實際生產使用中,本文的網站可信標識體系及協議得到了多家業界主流公司的認可,能夠滿足目前的業務需要。
出于簡化研究和易于實現的目的,本文提出的體系結構只描述了單一標識權威機構的運作情況,而在實際工作中會存在多個標識權威機構。多個標識權威機構的場景比單一標識權威機構的場景要復雜,管理難度也更大。因此,下一步將開展對多個標識權威機構場景的研究。
[1]中國互聯網信息中心.第31次中國互聯網絡發展狀況調查統計報告[EB/OL].(2013-01-15).http://www.cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/201301/t20130115_38508.htm.
[2]中國國務院新聞辦公室.中國互聯網狀況[EB/OL].(2010-06-08).http://politics.people.com.cn/GB/1026/11813615.html.
[3]中國電子商務協會可信電子商務推進中心, 中國可信網站應用推進聯盟, 北龍中網(北京)科技有限責任公司.2012年中國網站可信驗證行業發展報告[EB/OL].(2012-07-04).http://www.ectrust.org.cn/column_6/201210/t20121024_36991.html.
[4]International Standardization Organization.ISO/IEC15408-2009 Information Technology——Security Techniques——Evaluation Criteria for IT Security——Part 1: Introduction and General Model[S].2009.
[5]Gates B.Trustworthy Computing[EB/OL].(2002-01-17).http://www.wired.com/techbiz/media/news/2002/01/49826.
[6]林 闖, 田立勤, 王元卓.可信網絡中用戶行為可信的研究[J].計算機研究與發展, 2008, 45(12): 2033-2043.
[7]GENI.Global Enviroment for Networking Innovations[EB/OL].[2013-09-10].http://www.geni.net/.
[8]FIND.Future Internet Design[EB/OL].[2013-09-10].http://www.nets-find.net/.
[9]吳建平, 畢 軍.可信任的下一代互聯網及其發展[J].中興通訊技術, 2008, 14(1): 8-12.
[10]林 闖, 彭雪海.可信網絡研究[J].計算機學報, 2005,28(5): 751-758.
[11]張宏科, 蘇 偉.新網絡體系基礎研究——一體化網絡與普適服務[J].電子學報, 2007, 35(4): 593-598.
[12]Wong M, Schlitt W.Sender Policy Framework(SPF) for Authorizing Use of Domains in E-Mail, Version 1[S].RFC 4408,2006.