999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網絡寫作,大數據讓你無法隱身

2018-04-11 10:04:08姚美家
大科技·百科新說 2018年3期
關鍵詞:單詞語言分析

姚美家

不管我們寫任何東西,都必定透露大量關于我們自己的個人信息,無論是你在微信發了一條朋友圈,或者是在網絡新聞下面發表匿名評論。美國語言學家們向我們揭示了我們的“數字指紋”是怎樣出賣我們的,同時,也教給我們一些隱藏自己的小竅門。

“中本聰”之謎

比特幣如今是網絡上炒作得最火熱的貨幣,但它的創始人中本聰到底是誰,至今仍是個謎。我們所知道的就是,他是個天才、億萬富翁,善于隱藏自己,并且已經撼動了全球金融界。不過專家相信,這個世界上最難以捉摸的人已經被揭露出來了!而揭露他(他們)的正是其寫作風格。

2014年,英國阿斯頓大學的一群學生在法醫語言學家杰克·格里夫的帶領下,分析了中本聰2008年發表的關于比特幣的學術論文。他們從“仍然”“只有”這類可有可無的詞的使用頻率,“和”“但是”前的逗號的使用習慣等線索中,推斷出“中本聰”可能是精通加密貨幣的美國計算機科學家尼克·薩博的筆名。2017年,美國企業和政治專家亞歷山大·繆斯聲稱,美國國家安全局使用過類似的語言識別技術來尋找中本聰,不過,他們并沒有公開結果是不是薩博。

雖然尼克·薩博并未承認自己就是中本聰,但這些試圖找出中本聰的故事給我們提出了一些有趣的問題:我們每次寫東西時是如何暴露自己的身份的?會暴露多少我們的個人信息呢?隨著數字通信的激增,我們的微博、微信、郵件中隱藏的關于我們的線索是什么?隨著大數據分析的興起,我們還有什么方法可以隱藏自己嗎?

事實上,幾個世紀以來,偵探們一直在用書面語言習慣的特征來追捕罪犯。這種分析方法叫作“筆觸分析”。現在,計算機筆觸分析的應用其實更常見,它是大學計算機專業的必修課程,是大學和出版者檢測剽竊的日常工具,也是專家們從罪犯的網絡書寫記錄中劃定嫌疑人范圍的有效途徑。

“魔鬼地帶”勒索信

下面,我們來看一個著名的勒索信案例。綁匪綁架了受害人,用電腦打出了一封勒索信,要求其家人把錢留在“魔鬼地帶”,否則就撕票。

于是,警察尋求了美國語言學家羅杰·舒易的幫助。舒易知道“魔鬼地帶”是一個罕見的俚語,指人行道和街道之間的草地,而事實上,只有俄亥俄州阿克倫市的人會使用這個俚語。當舒易問警察是否有來自阿克倫市的嫌疑犯時,警察非常吃驚。最終,這名來自阿克倫市的嫌疑犯供認了自己的罪行。

這個案例告訴我們,如果你不想讓你的語言暴露自己,就要避免使用地區性詞匯或其他特殊詞匯。可是,只要我們提筆落字,我們就有可能被出賣,舉凡字母的大小寫,標點后空格的距離,段落是否縮進,句子的長短等文本特征都有可能出賣我們,更不用說介詞、連詞、人稱代詞等的使用頻率。

研究顯示,有些看似毫無意義的語言可能會指向一個人的性格類型、健康狀況,甚至是未來的自殺行為。這是由于語言具有非凡靈活性。語言學家認為,我們學會統一的語法之后,就會開始偏離它來表達我們的個性。而現在更普遍的觀點是,我們每個人都有自己的語言的心智模型,這是由于我們所處的社會和情感環境不同造成的,所以,語言就像我們的指紋一樣,每個人都有不同的語言指紋。

在模仿中隱藏?

那么,怎樣才能躲避那些試圖用你的語言指紋找出你的人呢?有人說,假設有100位作者,每個人都提交了一篇文章,而你不希望被人認出哪篇是你寫的,你所要做的就是:讓你的文字看起來像其他99位作者之一。

這種方法在某些情況下很有效。在一項研究中,科學家讓人們模仿美國著名作家科馬克·麥卡錫的寫作方式記錄自己的早晨,結果,一個用來檢測麥卡錫作品的電腦程序竟然被愚弄了:它認為這些文字都是麥卡錫寫的!

然而,人們通常不能堅持這種“正確”的改變。在“魔鬼地帶”案例中,罪犯故意拼錯“警察”和“可以”這兩個單詞,以偽裝成一個受教育程度較低的人,可惜的是,他同時也拼寫對了一些很難的單詞。事實上,當一個人故意偽裝出和自己平時不同的寫作手法時,他可能會暴露更多自己的特征。

語言指紋難以偽裝,這對偵破刑事案件來說肯定是好事,但是,我們普通人的隱私該怎么辦?畢竟,保持匿名是一種合理合法的需求。很多時候,只有匿名的情況下人們才能安心地表達自己的真實想法,例如學者們希望他們在同行的評審中保持匿名。另外,匿名也可能是攸關告密者、政治人士甚至是程序員生死的問題。這里,我們所討論的程序員并不是指黑客,而是普通程序員——在一些國家或地區,別的地方能用的程序是被當地禁止的,所以有些程序員希望人們能使用一些公開軟件,卻不希望給自己帶來麻煩。

這些情況下,單靠我們個人的模仿能力似乎很難完全隱藏自己。于是,有人提出了讓高科技去對付高科技——既然有筆觸分析軟件,那肯定有反筆觸分析軟件吧?

事實上,許多支持匿名功能、反筆觸分析的程序員正致力于保護匿名的研究。你所要做的就是上傳你的文字,讓電腦程序告訴你需要改變哪些細節,才不會被筆觸分析軟件檢測出來。

反筆觸分析軟件

有一個叫“匿名嘴”的匿名軟件,其目標就是降低筆觸分析的準確性,使其變得像隨機猜測。匿名嘴的內核是一個叫JStylo的筆觸分析程序。據稱,JStylo只需要6500個單詞樣本就可以創建一個作者的語言指紋,它將文本與作者進行匹配的準確率可以達到80%到85%。如此,匿名嘴就可以通過評估句子長度、單詞選擇和某些字母的使用頻率等功能,建議作者如何修改文本,使其看起來不像是他自己寫的。

類似的軟件還有一個名為“艾瑪身份”的人工智能程序,該程序需要8000個單詞樣本來建立一個作者的個人資料,匹配準確度是85%。

然而,現實中可以用來訓練JStylo和艾瑪的樣本可能并不充足,而當匿名的文本是一封精心書寫的信件或亟待發表的科學論文時,作者可能會跳過使用這些程序來修改的步驟。因此,有研究者設計了一款名為“作者網”的工具,可以給作者提供寫作的目標風格,并用一個可視化的儀表盤來提供實時反饋,讓作者知道自己寫的東西和目標風格的匹配程度。這可以幫助作者更容易、更持久地隱藏他們自己本身的風格。

語言學家告訴我們,其實最具希望的反筆觸分析方法很簡單,那就是合作寫作。一個人寫,另一個人編輯,可以有效地互相抵消語言指紋。這可能正是中本聰長期隱瞞自己身份的策略——有些人認為,比特幣背后隱藏著的是一個群體,而不是一個人,隨著他們的語言指紋錯綜復雜地交織在一起,他們可能會繼續安全地潛伏下去。

猜你喜歡
單詞語言分析
隱蔽失效適航要求符合性驗證分析
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
單詞連一連
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
看圖填單詞
讓語言描寫搖曳多姿
電力系統及其自動化發展趨勢分析
累積動態分析下的同聲傳譯語言壓縮
我有我語言
最難的單詞
主站蜘蛛池模板: 国产在线精品人成导航| 国产日本一线在线观看免费| 亚洲V日韩V无码一区二区| 日本午夜视频在线观看| 亚洲码一区二区三区| 国产chinese男男gay视频网| 欧美人人干| 无码日韩人妻精品久久蜜桃| 久久久久人妻一区精品色奶水| 国产亚卅精品无码| 亚洲视频欧美不卡| 国产区免费| 国产精品区网红主播在线观看| 久久国产精品电影| 午夜毛片福利| 免费啪啪网址| 亚洲精品卡2卡3卡4卡5卡区| 久久人妻系列无码一区| 精品91自产拍在线| 尤物精品视频一区二区三区| 尤物特级无码毛片免费| 午夜天堂视频| 精品一区二区三区波多野结衣| 久久99国产综合精品女同| 2022国产91精品久久久久久| 国产浮力第一页永久地址| 日韩精品无码不卡无码| 国产青榴视频在线观看网站| 欧美精品伊人久久| 日韩在线视频网| 五月天丁香婷婷综合久久| 国产第三区| 国产亚洲视频免费播放| 亚洲综合第一页| 精品视频在线观看你懂的一区 | 亚洲日韩精品无码专区97| 亚洲欧美综合在线观看| 四虎永久在线精品影院| 中文字幕1区2区| 手机精品视频在线观看免费| 国产在线观看精品| 国产亚洲欧美在线专区| 青青草综合网| 久久人与动人物A级毛片| 久久国产拍爱| 国产主播福利在线观看| 久久黄色一级片| 欧美成人免费午夜全| 亚洲av无码人妻| 亚洲成A人V欧美综合| 九九这里只有精品视频| 大香网伊人久久综合网2020| 久久精品欧美一区二区| 91探花国产综合在线精品| 狠狠色狠狠综合久久| 自拍欧美亚洲| 原味小视频在线www国产| 99视频在线免费| 久久精品娱乐亚洲领先| 国内丰满少妇猛烈精品播| 久久久久人妻精品一区三寸蜜桃| 亚洲欧美自拍一区| 91成人在线观看| 亚洲无码免费黄色网址| 色婷婷亚洲综合五月| 婷婷色狠狠干| 亚洲成人动漫在线观看| 国产资源免费观看| 午夜视频免费试看| 99精品免费欧美成人小视频| 国内精自线i品一区202| AV在线天堂进入| 在线欧美国产| 久久精品亚洲专区| 久久精品国产在热久久2019| 波多野结衣在线se| 在线观看网站国产| 91免费观看视频| 婷婷色丁香综合激情| 成人午夜精品一级毛片| 亚洲视频免费在线看| 色有码无码视频|