寇森
(1.中國勞動學會常務理事/北京華語雙文科技有限公司,北京 100085)
中國的計算機教育和信息科學技術教育一直沿用著歐美的教學內容,以至于在中國的計算機教育和信息科學教育領域產生了唯英語能夠成為計算機語言的偏見和盲從。包括數(shù)學、數(shù)學公式,物理、物理學公式,化學、化學公式都源自于英語以及英語的邏輯表達形式和應用習慣。拉丁中文是在現(xiàn)行《漢語拼音方案》的基礎上對漢語拼音方案進行優(yōu)化和完善而形成的。他不僅解決了漢語成為計算機語言的問題,特別是以此突破了歐美在高端芯片的卡脖子問題。通過拉丁中文作為漢語載體實現(xiàn)漢語成為計算機的程序語言,在漢語指令集和程序語言的基礎上通過使用編譯器來設計中央處理器的構成部件——存儲器、運算器、控制器等模塊的設計規(guī)劃,從而完成國家信息核心技術基礎建設的程序。在漢語計算機程序設計語言的基礎上,可以派生出諸多技術性和經(jīng)驗性成果,以此彌補我國信息科學技術產業(yè)沒有自主知識產權的空白[1-2]。從此,我國信息科學技術教育必將從以往跟隨西方的信息科學技術教育改變?yōu)橐詽h語和漢語構成的機器語言作為核心教育內容。在三五年內,漢語中央處理器和漢語操作系統(tǒng)將挾帶著漢語和漢文化大踏步走向世界。屆時,世界已經(jīng)形成的信息產業(yè)和經(jīng)濟格局必將重新洗牌,中國的國家信息安全就有了根本性保障。
我國古代啟蒙哲學家老子在《道德經(jīng)》中說:“合抱之木,生于毫末。九層樓臺,起于壘土。千里之行,始于足下。”如果把當今世界信息科學技術產業(yè)比喻成是一棵枝繁葉茂的參天大樹,根據(jù)中國信息科學技術產業(yè)沒有信息核心技術的現(xiàn)狀來看,我國信息科學技術產業(yè)只能說是這棵大樹上嫁接而生的枝葉而已;如果把當今世界信息科學技術產業(yè)比喻成是一棟大廈,我國信息科學技術產業(yè)實際就是租住在歐美建造的房間而已。這就像19世紀使用拉丁字母文字的國家已經(jīng)使用打字機打字,而中國在20世紀七八十年代才設計出笨拙的雙鴿牌打字機一樣。從漢語載體拉丁化起步,向計算機的機器語言邁進,在三五年后趕超歐美信息科學技術列車還來得及。
在農耕時期的封建社會,方塊漢字作為漢語和漢文化的載體在維護民族團結和文化傳播方面起到過積極作用。但進入計算機信息技術日新月異發(fā)展的今天,方塊漢字受書寫結構的描摹性和數(shù)量龐大的影響,它已經(jīng)是效率最低下的語言載體。歐美國家基于拉丁文字的優(yōu)勢而成為現(xiàn)代信息科學技術的“數(shù)字富豪”,而我國受漢字的拖累基本上是“數(shù)字赤貧”者。我國此前每年需要進口2000多億美元的芯片,還要受到斷供卡脖子的制約和“盜版侵權”的指責。
目前,世界上有超過上百項的根源性信息科學技術發(fā)明,但沒有一項是中國人發(fā)明的。基于“木桶原理”,漢字就是這個“木桶”的最短板。只要不能解決漢語載體的字母化問題,漢語數(shù)字化、信息化就不會有出頭之日。歐美對中國信息核心技術的壟斷地位就永遠不會被排除,國家信息安全就不會有保障。
建立完全自主的信息科學技術大廈,必須從漢語載體字母化的最底層建設開始,從中文字母化實現(xiàn)數(shù)字化的基礎建設方面做起。全面開啟漢語數(shù)碼化的系統(tǒng)工程建設必須用漢語載體的機器語言作為撫育中央處理器的沃土,以此拉開漢語成為機器語言的序幕,才能完成從底層各模塊的設計到程序語言的計算架構等基礎工程建設。讓漢語機器語言挾帶著漢語和漢文化快步走向世界,成為引領世界變革者。
拉丁中文就是用國際通用的26個拉丁字母,在現(xiàn)行《漢語拼音方案》的基礎上對漢語拼音進行了系列優(yōu)化,使之成為完整的漢語拼音文字體系,就像拉丁字母拼寫英語、法語、西班牙語、越南語、土耳其語等各語種一樣。在拉丁中文作為拼寫計算機的高級語言基礎上,從制定《中文機器語言標準代碼國家標準》、編制《漢語詞典》、《機器語言縮略語詞典》、制定《漢語音序排序標準》入手,進而設計編譯器和中央處理器、中文操作系統(tǒng)等設計方案。這將終結中國沒有信息核心技術的歷史,并將使世界計算機信息科學技術產業(yè)業(yè)已形成的格局和全球經(jīng)濟格局重新洗牌。
計算機的機器語言又稱為“低級語言”“二進制語言”和“匯編語言”。我國早在上古時代伏羲發(fā)明的陰陽八卦圖,到殷商時期姜子牙創(chuàng)制用于卜卦看運的八八六十四卦,其運算形式實際上就是現(xiàn)在計算機使用的二進制方法。眾所周知,計算機的機器語言0和1(英語把0和1稱為比特)不是數(shù)字意義上的0和1,而是表示開和關的邏輯關系。實際上0是陰、1就是陽,0是黑、1就是白,0是女、1就是男這樣一種正極和負極對應的電流關系。
在計算機的機器語言中,每個0和1就是一個比特或稱為一個位。比特(位)是計算機信息量和數(shù)據(jù)存儲的最小單位,逢二進一就是二進制機器語言的比特信息值。
人類的自然語言在計算機信息科學技術中稱為高級語言,計算機的程序設計就是人們把思維、想法、設計和指令通過語言載體——拉丁字母文字的描述與算術計算(邏輯計算)相結合的方法,通過編譯器轉換成機器語言。這些機器語言的原始數(shù)據(jù)、運算步驟和中間結果存儲在存儲器中。這個存儲器的指令集與高級語言、匯編語言是密不可分的一個整體。由程序計算器、指令計算器、指令譯碼器、時序產生器、操作控制器這幾個部件構成的控制器,是對存儲器中所需數(shù)據(jù)分別發(fā)出指令脈沖的裝置,是發(fā)布命令的指揮機關。存儲器、控制器、運算器是中央處理器構成的三大核心部件,類似于人的大腦中樞[3]。
人類社會各國家各民族的語言是平等的,不平等的因素是語言的載體受書寫結構繁簡的影響造成的。漢語載體拉丁化后,漢語不僅變得易學,而且解決了漢語成為計算機語言的瓶頸問題。計算機科學所說的高級語言是對計算機的機器語言——低級語言的比較說法。高級語言對于每一個程序員來講,認讀和理解都是極為平常易如反掌的事情,這是因為,高級語言實際就是人類自然語言使用拉丁字母作為載體而描述和表達的語言,就象英語、法語、西班牙語、德語一樣,漢語也不例外。漢語拉丁化后,它與英語無論是從字符構成的語素段看,還是從縮略形式上看差異并不大,從下列拉丁文漢語與英語例句中可以得出結論。
例句① 英語:central data processing program(中央數(shù)據(jù)處理程序);
漢語:ygik wuljol vuvliv vycxol。
英語和漢語都是4個單詞,英語用了28個字母,漢語用了22個字母。
例句② 英語:Centralized operation(集中式操作);
漢語:jcygwl cbzuel。
英語和漢語都是2個單詞,英語用了18個字母,漢語用了12個字母。
例句③ 英語:good time(正常工作時間);
漢語:yylvkc ggzuel wcjih。
英語是2個單詞,漢語是3個單詞。英語用了8個字母,漢語用了17個字母。
例句④ 英語:Multiplier rule(乘數(shù)法則);
漢語:vycwul favzec。
英語和漢語都是2個單詞,英語用了14個字母,漢語用了12個字母。由此可見,漢語和英語只是語言的發(fā)音不同,在字母構成的語素段方面大同小異,有時,漢語的組詞結構更勝英語一籌。
在我國計算機科學教育和其他自然學科(物理、化學)教育的若干教材或工具書中,除了公用的自定義的標識符(¥#)外,一般都把英語詞匯中的的縮略字母命名為“助記符”或“符號”。譬如:SRC是英語source programd(源程序)單詞的縮寫,教材中卻稱為助記符。Mg是英語Magnesium(鎂)單詞的縮寫,而工具書中卻把Mg稱為符號,等等。
匯編語言是計算機科學的一種說法。它實際上是使用拉丁字母文字作為語言載體而設計的有規(guī)則的縮寫方法,事實上它是語言的一種縮略形式。就像漢語將企業(yè)管理稱為“企管”,中國共產黨稱為“中共”一樣。這種縮略方法根據(jù)民族語言的語法結構和拼寫規(guī)則的不同,縮略形式也存在著異同。
匯編語言是計算機程序設計中最重要的應用語言。依據(jù)數(shù)據(jù)壓縮理論,信息熵愈小,存儲空間和消耗效率愈小,運行速度愈快。匯編語言中的指令代表了該指令管轄的行業(yè)領域、范圍和計算模式,具有排頭兵作用。在不同的存儲設備中,匯編語言對應著不同的指令集。因此,編制匯編語言是一個系統(tǒng)工程,涉及信息技術在各學科各領域的廣泛應用。在匯編語言中,英語往往以詞匯中的大寫字母作為縮略字母,而漢語則以單詞、詞匯(短語、句子)中的單詞首字母作為縮略字母。
在漢語的計算機編程匯編語言中,單語素匯編語言較少,僅有t T分別代表他、她;雙語素匯編語言也不多,如:DH(dihlhual電話)、XX(xoecxibl學校)、DT(diltiev地鐵)等;多語素在匯編語言中應用比較廣泛,其縮略形式與英語基本相同。譬如:
例句① FSCE是英語Free Spaoe Communication Epuipment單詞首字母的縮略,
ZKTW是這句話漢語拉丁文(有下劃線的字母是縮略首字母)zliwc kgjih tgxinl welbtl(自由空間通信設備)的縮略;
例句② HPSB是英語High Performance Serial Bus單詞首字母的縮略,
GNVZ是這句話漢語拉丁文(有下劃線的字母是縮略首字母)gbxiylnyc vuhlhkc zgvxihl(高性能串行總線)的縮略;
例句③ IPL是英語Industrial Programming Language單詞首字母的縮略,
GVWO是這句話漢語拉丁文(有下劃線的字母是縮略首字母)ggiel vycxol weljl ovihc(工業(yè)程序設計語言)的縮略。
從匯編語言的信息熵來看,英語和漢語的比特值完全相等。
高級語言與匯編語言混合應用是計算機各種程序設計比較常用的方法。高級語言語素完整,表達語言準確、直接,人們一看便知,但音素(字母)多;匯編語言是詞匯中對語言有規(guī)則的縮略形式,字母少,除非是常用縮略語外,一般人難以理解縮略語所描述的事物含義和表達內容。因此,編制《匯編語言(縮略語)詞典》是為編程技術人員檢索程序設計用語的必備工具。根據(jù)編程慣例,在計算機的程序設計語言中,高級語言與匯編語言混合應用是比較通用的技術手段,也是信息快速傳遞的有效措施。例如,下面拉丁中文“CVQ、OSQ、KYQ wl YVQ d SDYY(存儲器、運算器、控制器是中央處理器的三大支柱)”這段話(括號內下劃線字母為縮略首字母)中的CVQ(cuncvuvql)、OSQ(onlsuhlql)、KYQ(kglylql)、YVQ(ygik’vuvlivql)4個名詞單詞,因為是編程常用詞,一看便知。而SDYY(shdaly’yul)不常用,必須通過使用《匯編語言(縮略語)詞典查閱才能明白。
再譬如:拉丁中文YRJZB weljl l luljon igl YVQ 這段話,YRJZB是Ygguec rncminc jievfkljon zgvchmwcbul(中國人民解放軍總參謀部)固定名詞單詞的縮略, weljl l luljon igl(設計了陸軍用)則是語素齊全的高級語言,YVQ是ygik vuvlivql(中央處理器)名詞的縮略。因此,在計算機的程序設計語言中,高級語言和匯編語言相結合的運用方法是計算機程序設計的通用方法。
在我國的計算機學科教育中,計算機的機器語言又稱為低級語言、二進制語言和計算機語言。一串串的0和1,人是很難理解它是如何表達人類思想和各種指令的。只有通過設置的編譯器實現(xiàn)轉換,我們才能從浩如煙海的數(shù)據(jù)庫中調取可了解的明確內容信息,并將這些內容信息完整地設計在計算機中通過指令進行驅動運行。編譯器是人類自然語言經(jīng)過字母文字作為載體與機器語言聯(lián)姻的橋梁。計算機語言就是計算機能識別和運行的語言0和1。0和1是一個邏輯概念,它實際就是指導電平強弱的表示者和運行者。簡單的機器語言執(zhí)行著人類的各種設計和指令,這些設計和指令就是來源于高級語言和匯編語言的描述通過機器語言的編譯而形成可在晶體管存儲、運行的中央處理器。機器語言是如何與漢語自然語言融為一體的呢?拉丁中文與機器語言比特對應表清晰地解釋了這個問題。
從拉丁中文機器語言比特對應表中可以一目了然地找出二進制架構和運算規(guī)則。
拉丁中文與機器語言比特對應表中的大小寫字母,分別代表了漢語的輔音、元音和音標以及拼寫構成的語素單位以及縮略詞匯。它們的排列順序和發(fā)音,完全建立在漢語的發(fā)音和音序排序標準基礎上。詳見表1和正文4.5。

表1 拉丁中文與機器語言比特對應表
(1)比特:此表從豎格的b7 b6 b5 到橫格的b4 b3 b2 b1是7位比特代碼,b7是最高位,b1是最低位,其權值計算如下所示:
位 b7 b6 b5 b4 b3 b2 b1
權值 64 32 16 8 4 2 1
(2)字母:26個拉丁字母按照拉丁中文音序排序標準(大小寫等同)排列,即:bB pP mM fF…iI uU oO。
(3) 阿拉伯數(shù)字:按照從0~9的順序排列。
(4)并列的大寫字母:并列的大寫字母是部分計算機的指令。譬如:KB是單詞“kglbsc”的縮略語,WLY是術語“wuljollihl yuhvil”的縮略語。
(5)比特與指令、阿拉伯數(shù)字、標點符號、大小寫字母的格式化排列順序是從低位到高位。譬如:B的比特是100001,P是0100001,M是1100001…I是0001101,U是1001101,O是0101101;b是1000011,p是0100011,m是1100011…i是0001111,u是1001111,o是0101111等。
(6)高級語言和匯編語言混合應用的比特序位:
拉丁中文:lulj dhldbldbvdhl fkcol yukyl welzsl Livhsv hsvahl x’cel(路基彈道導彈防御裝置設在里海海岸西側);高級語言和匯編語言的結合應用:
LDDFY welzsl Livhsv HAXC比特序列00010011010001 101000100100011111001100011111101110001011101011111001 110001001000111100001111101011110100101100010111001。
中央處理器的構建涉及行業(yè)術語、設計方法和計算內容、流程等方方面面的規(guī)范。因此,每個行業(yè)都要有自己行業(yè)的中央處理器,而不是各行各業(yè)共用一個中央處理器。這就像人一樣,從事醫(yī)藥工作的人,滿腦子裝得都是醫(yī)藥方面的知識;從事化學研究工作的人,滿腦子裝得都是化學成分、化學元素等方面的知識。我國的汽車制造業(yè)、機械制造業(yè)、化學工業(yè)、農業(yè)、林業(yè)、教育、衛(wèi)生等各行業(yè)都要有行業(yè)中央處理器,以實現(xiàn)行業(yè)信息化和自動化。通過一個功能比較大的中央處理器將這些行業(yè)中央處理器并列串聯(lián)起來,從而形成全國統(tǒng)一一個總中央處理器——根服務器。
從全球現(xiàn)有的12個根服務器來看,9個在美國,2個在歐洲,1個在亞洲的日本。如果人為關閉服務器,我國勢必深受其害。
中央處理器的架構歷經(jīng)幾代升級,現(xiàn)在已經(jīng)達到外觀非常小巧、功能非常強大的狀態(tài)。如何設計管理效率更高、運行邏輯更穩(wěn)、功能更加強大的漢語中央處理器,不僅要借鑒歐美已有的優(yōu)勢,還要發(fā)揮漢語以及漢語匯編語言較英語匯編語言中重復縮略語少、不易亂碼的優(yōu)勢。例如:在英語匯編語言中,CCT是英語23條專業(yè)術語的縮略語,這些縮略語的內容彼此之間南轅北轍毫不相干,如:
(1)Call Circuit Tester;
(2)Capacitively Coupled Transistor;
(3)Character Calss Table;
(4)Constant Chip Temperature
這些英語的專業(yè)術語經(jīng)過縮略就都成了CCT形式。漢語則不然,如以下內容。
(1)“恒定芯片溫度”的拉丁中文:hycdiyl xinpihl undul縮略:HXU;
(2)“呼叫電路測試器”的拉丁中文:hujibl dihllul celwlql縮略:HDC;
(3)“電容性耦合晶體管”的拉丁中文:dihlrgcxiyl ewvhc jiytivguhv縮略:DEJG;
(4)“符號分類表”的拉丁中文:fuchbl fn'ltlbibv縮略:FFB。
在編制各行各業(yè)專業(yè)術語的匯編語言庫時,類似英語的縮略重疊現(xiàn)象到底有多少?現(xiàn)在還不得而知。譬如:nhc-nov-和niwv-nie-(男男女女、扭扭捏捏)的漢語縮略就是雷同的NNNN。
拉丁中文就是用國際通用的26個拉丁字母通過設置21個輔音、4個音標字母(1個隔音號兼輕聲號)、5個單元音、10個雙字母元音和20個拼音元音。通過輔音附加聲調字母,元音附加聲調字母,以及元音與元音拼音及附加聲調字母,輔音與元音拼音和附加聲調字母,漢語普通話的1300多個語素就全部拼寫出來了。
中國現(xiàn)在的音序排序無論是發(fā)音方法還是字母排序序位,都是按照英語音序排序操作的。建設漢語計算機語言的程序設計必須有漢語的音序排序標準,以適應程序設計的排序規(guī)范。漢語1300多個語音對應于載體——拉丁中文的語素上就是:b bb bbl bbv bbc bt btl btv bn bnl bnv bl bk bkl bkv bh bhl bhv bhc by byl byv byc bv bc bs bsl bsv bsc ba bal bav bac bi bib bibl bibv bibc bin binl bil bih bihl bihv biy biyl biyv biv bic bie biel biev biec bu bul buv buc p pb pbl pbv pbc pt ptl ptv ptc pn pnl pnv pnc pl pk pkl pkv pkc ph phl phv phc py pyl pyv pyc pv pw pwv pwc pc ps psl psv psc pa pal pac pi pib pibl pibv pibc pin pinl pinv pinc pil pih pihl pihv pihc piy piyv piyc piv pic pie piel piev piec pu pul puv puc……
以上是b、p2個字母的音序排序樣例。
編制匯編語言所用的《漢語縮略語詞典》是一個系統(tǒng)工程,需要匯集各行各業(yè)詞條信息。《漢語縮略語詞典》是匯編語言和指令集的紙質文獻,是為程序員進行程序設計提供的檢索信息庫。
本文提到的高級語言、匯編語言實際就是編程所用的拉丁文漢語詞典和縮略語詞典。這兩部詞典是方便廣大程序員檢索和查詢單詞的備用工具書。
實際上,0表示低電平,1表示高電平,這些可以用晶體管的通路和斷路表示。0和1是計算機最基本的存儲單位,也是中央處理器采用的最基本的計算單位。人類的思想、思維和設計就是通過26個字母文字(即高級語言和匯編語言)的描述,經(jīng)過與計算機能夠識別的語言——0和1進行編譯后,就形成了一串串的(0和1)機器語言。這一串串的機器語言就是虛擬世界的物質基礎,是人類社會信息化取之不盡、用之不竭的源泉。