涂子沛

如果要追溯歷史,美國的人口普查部門和美國的建國可謂是相生相伴,但這個最早的統計部門在它成立100 多年后,依然是一個臨時機構。
其實,從19 世紀50 年代的肯尼迪開始,每一屆辦公室主任都想把臨時的普查辦公室升級為一個常設機構。民間的統計團體也長期在國會游說,包括沃克,他在離開普查系統之后,還擔任美國統計協會的主席,他也主張,普查范圍應該不斷擴大、升級為永久性機構,這樣有助于保持工作的連續性。
但歷屆國會均拒絕了升級,總統不支持的理由也很明確,普查工作每10年才一次,公務員隊伍應該盡量精簡。
1899年3月,為了籌備世紀之交的新普查,梅里亞姆被任命為普查辦公室主任。梅里亞姆是一名資深政客,曾擔任明尼蘇達州州長,但卻毫無統計工作經驗,這一任命曾引起普查系統的強烈批評和反對。
但歷史常常和人類開玩笑:正是在這位外行的領導下,普查人實現了半個多世紀的夢想,普查辦公室成功升級為常設機構!
姑娘的力量
這位外行走的也是“偏門”。要說原因,和霍爾瑞斯發明的自動打孔機有關。
那時候,在數據分析開始之前,必須把幾千萬張問卷先轉變為打了孔的卡片。因為霍爾瑞斯發明的自動打孔機,打孔工作已經成為女性的專利。梅里亞姆因此雇用了幾千名卡片打孔員,清一色都是年輕的姑娘。她們每天打扮得花枝招展,像云彩一樣,在聯邦政府的辦公大樓里穿梭,成為一道亮麗的風景線。
除了年輕,姑娘們還有一個共同的特點——都想留在首都華盛頓結婚生子。梅里亞姆在國會、政府頻繁組織聯誼活動,于是,姑娘們和議員、公務員們打成了一片。在她們的強力攻勢下,國會議員在不知不覺中被爭取了過來。美國的人口學之父、著名的威爾科斯教授在談到這段往事時說:“在處理和國會的關系上,梅里亞姆十分聰明,這些姑娘令人眼花繚亂。普查局之所以能成為永久性的常設機構,和統計科學沒有‘半毛錢關系,僅僅是因為有人想把姑娘們留在華盛頓。”
姑娘們“攻陷”了國會,但任何一個法案的通過,還需要總統點頭。恰恰這時候的總統西奧多·羅斯福也非常重視數據,而且就在議員們消受了艷福、改變了立場的時候,發生了一件小事,讓羅斯福看到了小數據的大力量。
棉花也瘋狂
1793 年軋棉機的發明,激活了正在萎縮的奴隸制,棉花種植業從此興起,并成為美國的重要經濟支柱,這種情況一直延續到20世紀。1899年,美國共產棉花900萬擔,其中3/4 用于出口。但接下來的幾年,英國的紡織業不景氣,導致棉花價格大幅波動,不少棉農破產。羅斯福總統因此急需數據,他要求統計一年當中各個時段的棉花產量,以便根據價格變化進行調控。
每一年的棉花產量,農業部都會統計,來年的產量他們也會預測,但這次羅斯福總統要的,是一年內各個時段的實時數據。農業部左拼右湊,還是束手無策,拿不出可靠的數據。
這時候,普查辦公室一個部門主管諾思靈機一動。他提出,在剛剛完成的工業普查中,已經掌握了全國各地軋棉機的分布和數量,每一朵棉花都要通過軋棉機去籽。因此,通過軋棉機的軋棉記錄,我們就可以準確地計算不同時間節點上的棉花產量。諾思用了一年的時間,在全國3萬臺軋棉機上建立了統計報告制度,每月統計兩次,從而獲得了棉花產量的準確數據。這個數據精細到半個月,羅斯福總統大感欣慰,于是同意普查辦公室升級為永久性的常設機構。
1902年3月,在經歷了100多年的波折起伏之后,美國聯邦政府終于在內務部成立了普查局。一年后,普查局和勞工統計局一起并入商務勞工部(DCL)。因為棉花統計的功勞,諾思晉升為普查局局長。
人口普查局和勞工統計局堪稱美國統計工作的中樞和主干,美國政府后來的很多統計部門,例如交通統計部、能源統計部、衛生統計部大多是在這兩個部門的基礎上分化而來的。因為沒有統一的標準,全社會的數據就不可能進行有效的對比和匯總,即使計算得再準確,也沒有什么意義。1901年,美國還建立了國家標準與技術研究院(NIST),推進各類標準在社會中的建立和應用。勞工統計局、普查局、標準局與1863年成立的農業統計局并駕齊驅,標志著美國國家統計機構的健全和崛起。
值得一提的是,在棉花統計過程中,開始出現商業隱私的爭議。普查局最初以縣為單位,公開發布各地的棉花產量,以供各級政府、商業組織和個體農戶參考。但對于一個小縣,如果只有兩三臺軋棉機,公布其總數,則意味著各臺軋棉機的機主就能推算出其他軋棉機的產量,這相當于商業機密的變相泄露,因此引起了一些地方的抗議。普查局很快修改了規定,規定一個郡縣的軋棉機如果不超過三臺,其數據必須合并在其他郡縣中,不予單獨發布。這也表明,美國社會的隱私意識在逐步成熟。
到1910年,第27任總統塔夫脫首次為普查發表了專門的總統聲明,向大眾公開保證政府不會濫用普查信息和數據。他在聲明中說:
“普查的唯一目標是獲得我們國家人口和資源的總體信息,我們要求每個人都回答問卷,是為了保證能夠編撰細致的統計信息。普查和納稅、軍隊服役、強制入學、移民管理以及任何國家、州和地方層面的執法工作沒有任何關系,任何人都不會因為提供這些信息而受到傷害,沒有任何必要擔心我們會公開個人情況及事務的數據。我們會對信息提供人的權益進行合理保護,每個工作人員都禁止泄露任何信息,違反規定必受重罰。”
棉花,又一次改變了美國歷史。
數據安全浮出水面
除了隱私意識的成熟,在棉花的統計和預測中,數據安全的問題也開始浮出水面。上文提到,農業統計局每個月都要發布統計報告,其中的一個重要指標,就是對下個月各種農作物產量的預測。這些數據會影響全國很多商品的供求關系,甚至左右期貨市場價格的波動和成交量的多少。因此,這份報告在發布之前,被視為機密。1903年,農業部總統計師海德成立了一個三人小組,專門負責對全國各種農作物的產量進行預測。每月正式發布數據的當天,三人小組就會召開會議,共同確定各項數據的大小,然后在同一時間提供給所有的新聞媒體。
1903年12月,羅斯福給農業部部長寫信,說他收到多起投訴,有人提前知道了棉花的產量數據,并利用它在股票和期貨市場上進行內線交易。這意味著數據泄密。海德立刻修改了數據討論和發布的過程:他把會議地點定在了一個與外界通信隔絕的房間,并規定在完成數據預測的工作之后,三人小組的成員也必須待在會議室,直到數據正式對外發布之后才能離開。
海德認為這萬無一失,他也向部長拍胸膛保證,但羅斯福總統還是繼續接到投訴。
泄密者確實是三人小組中的一名成員,他是助理統計師霍姆斯。霍姆斯把數據泄露給了華爾街一位棉花投機商賴柏。在被要求不能離開會議室之后,他跟賴柏約定,用會議室百葉窗的窗簾作為信號:當窗簾拉到一半,就是約定的棉花產量,窗簾最后停在不同的位置,就表示不同的產量。
海德百思不得其解,但他最終還是想出了一個辦法,挖出了“內鬼”。
一天,在所有的數據匯總、預測完成后,他在最后一分鐘提出要緊急修改,但這時候,霍姆斯的信號已經發出,得到錯誤信號的賴柏在當天的交易中損失了25000 美元。巨虧之下,賴柏憤憤不平,他在交易現場公開指責有人“篡改”了數據,這當然也暴露了他提前知道數據這一事實。在后續的調查當中,賴柏供出了霍姆斯。
令人尷尬的是,雖然霍姆斯對其陰謀供認不諱,但當時卻找不到一部法律能給他定罪。因為無法可依,農業部最后只能對霍姆斯開除了事,總統計師海德被迫引咎辭職。
面對丑聞的尷尬,羅斯福十分震怒,他責令立即立法。1909 年,美國國會通過立法,將公務員提前泄露相關數據的行為定為刑事犯罪。此后,農業部著力完善了數據安全機制,推出了“鎖定”制度:凡是接觸到敏感數據的工作人員,在數據發布前必須被隔離,數據公布以后隔離才能解除。鎖定制度同時也明確規定,數據大小的最終決定權在專業統計人員手中,即使是農業部部長,也屬于鎖定的對象:他僅僅在數據正式發布前的15分鐘,在同樣封閉的情況下聽取專業人員對數據的解釋,以便回答記者們提出的問題。這個制度不僅提高了數據的安全性,也把數據的決策權牢牢地掌控在專業技術人員手里,保證了統計工作的中立性和專業性。
這種鎖定制度很快在其他統計部門得到推廣。例如,每屆總統大選期間,“失業率”就十分敏感,甚至可以影響老總統的去留和成敗,它的計算過程,都是在“鎖定”的情況下由統計學家獨立計算得出的,連勞工部部長也無權過問。
隱私觀念的成熟、數據安全管理制度的完善都表明,這時候的美國,已經開始向一個具有現代意識的國家轉變。