在一批在線教育試水者當中,趙梓淳帶領的考拉閱讀有點不太一樣。因為國內做分級閱讀的雖然不多,但是做中文分級閱讀,目前僅有他們一家。
在線教育這個領域,考拉閱讀算是新人——成立不足1年,團隊滿60人,剛完成新一輪融資。在創始人趙梓淳眼中,閱讀教育是一項非常龐大的產業,AI+教育的未來仍存在很多不確定性??祭喿x也還處于摸索階段。
為什么要做中文的分級閱讀標準?
事實上,在國內,如好未來、VIPkid等一些在線教育企業已經在做英文的分級閱讀,雖有其物,但一直沒多大水花。趙梓淳透露,對于考拉閱讀來說,做英語的分級閱讀標準并沒有太大的技術難度,但他們并不想做。

原因很簡單,國外已有一套很成熟的英文分級閱讀標準系統,不僅運行了將近40年且已覆蓋了美國90%的學校,如Lexile分級(藍思分級)、GE分級等。而在國內,中文閱讀不僅連分級標準都未建立,很多教師甚至連分級閱讀都沒聽過,尤其是在重要的基礎教育領域,很多書店給童書分級,只能給出諸如“適合8歲以下孩子閱讀的童話書”等基于感性、經驗基礎的文字建議。此外,教師、家長對孩子閱讀水平的了解也一直處于空白狀態,因為獲取這一數據的渠道不是沒有,而是非常有限。
在這兩大剛需的驅使下,再加上全民閱讀、全面二孩等相關政策的頒布,以及人工智能、機器學習和大數據的發展,又給前者提供了更充分的條件,這一切都讓趙梓淳覺得:做一套中文分級閱讀標準很有必要,而且,時機也來了。
瞄準AI,建立中文分級閱讀系統
考拉閱讀首席技術官任易透露,在歐美,英文的分級閱讀主要有兩個維度:語義,主要看詞頻,如果一個單詞出現的頻次很低,則系統會判定這個詞相對較難。句法,主要看句子長度,長句一般較難去分析和理解。而句子難度跟從句、副詞、介詞等的使用也密切相關。
在這兩個維度上,歐美國家通過統計學的方法來完成分級閱讀標準的建立。任易表示,考拉閱讀的中文分級閱讀標準借鑒了國外“詞、句”的分析思想,因而和其有一定的相似性。但是,由于中文相較英文的“天生復雜性”,決定了考拉閱讀必須做得更加深入。

據趙梓淳介紹,中文和英文的三大本質區別主要在于:一是基礎單元,英文的基礎是26個字母,中文的常用漢字達3500個,這就決定了中文閱讀的分析必然需要一個規?;恼Z料庫;二是分詞,英文不需要分詞,僅需空格即可判定詞語的邊界,但漢字脫離不了分詞。如“量子自旋效應”這個詞,有人可以將其分為“量子”“自旋”“效應”三個詞,也有人認為這就是一個詞,但在英文中就無此類困擾;三是句式結構,英文的句式結構要嚴謹得多,如主從句之間會有that、which、what等來界定。中文的行文風格則較為隨意,嵌套結構也要混亂得多。
鑒于這三大區別,考拉閱讀基于ER Framework的分級閱讀標準在“詞”“句”的基礎上再加入“字”“段”“篇”三個維度,即從“字詞句段篇”五大維度提取幾十個特征來表達中文的難度,并實現段落、主題等的分析。
趙梓淳介紹,他們一共處理了幾百萬字的非平衡語料庫和幾億字的平衡語料庫。考拉閱讀的非平衡語料庫主要來自各個版本的小學教材及其教輔資料,其是指垂直于某一品類的語料庫,如小說、歷史傳記各有其對應的語料庫;平衡語料庫即指一個孩子在日常生活中需要真實接觸的語料,如,按照一個10歲小孩需要看20%的名著小說、50%的課文和20%的漫畫這種比例來配語料庫。
“因為中文的句子相較英文要復雜得多,機器在理解中文的第一步就會遇到詞性分析、語言模型上的困難。所以,有賴于現在流行的AI技術?!比我妆硎荆艾F在我們可以做到,將一個句子按照句法樹、依賴關聯等予以拆解,以分析每一個成分在句子中的比重,從而實現閱讀文本的難度分級。”
而區別于歐美英文分級閱讀,考拉閱讀的分級閱讀系統最大的優勢即在于AI在此發揮的作用。趙梓淳透露,隨著用戶數量的增加,產生的數據越多,該系統中的模型可實現自主學習,不斷優化,從而對文本閱讀的難度感知越發準確。
從上至下 走To B路線
據了解,目前趙梓淳帶領其團隊共開發了三款產品:基于ER Framework的個性化分級閱讀系統、基于ER Framework和“新課標”的閱讀能力測評以及針對公立學校的閱讀整體解決方案,包括教師培訓、分級短文材料等。其中,考拉閱讀的分級閱讀系統現在已經進入天津市200余所中小學,被全市上百萬的小學生使用。趙梓淳稱,考拉閱讀的用戶群主要為小學階段的孩子,目標是利用AI和語言學的結合,全面提升這些孩子的閱讀能力。
在公司戰略決策的制定上,趙梓淳顯得非常冷靜而果斷,其稱,考拉閱讀的業務從一開始就是圍繞To B在展開,不會針對C端使用。原因有兩點:
1.普通民眾并不明白什么是分級閱讀。對于考拉閱讀這種體量的創業公司而言,要轉變他們對分級閱讀的認知,任務實在過于繁重。所以,更好的方式就是在一開始就從To B端的公立學校、教育機構去切入,讓教育局、教師等為分級閱讀背書,且還能增強公司產品的公信力。
2.目前獲取C端用戶的成本依然很高?;诖?,趙梓淳表示,“所以我們還是想在B端穩扎穩打下去。后期公司發展到一定程度之后,必定會走向To C端,畢竟To B的天花板一定是可以預見的”。
目前,考拉閱讀已經成功牽手200余所中小學,但在在線教育這一慢熱的市場,特別是在很多教育資源都被政府等相關機構緊緊攥在手里的情況下,考拉閱讀又是如何打通這些壁壘,和這些中小學成功牽手的呢?
趙梓淳說,事實上,考拉閱讀一開始走這條路也不太順利——最先采取對每家學校進行單點突破的方式,效率非常低下。趙梓淳帶領其團隊觀察到這樣一個現象,國內很多中小學都很重視學生的測評,但在閱讀能力的測評上卻處于相對空白的狀態。于是,考拉閱讀聯合北京師范大學基礎教育評測中心做了一件大事:在國內一線到四線城市,對近10萬學生進行了基于ER Framework和“新課標”的閱讀能力測試,并對相關數據進行分析,最終出具了一份中國學生的閱讀能力量表。在測評的助攻下,考拉閱讀成功打通了和中小學合作的路徑。
開設教師培訓課程
同時,在推進分級閱讀標準的過程中,考拉閱讀發現教師是整個推進過程的關鍵角色。因為雖然已經開發出中文分級閱讀標準及其配套工具和產品,但在趙梓淳看來,這些工具和產品依然需要人來使用,需要教育者來向這些孩子傳遞教育的溫度和理念。但是,國內教育理念跟不上,語文教師對整個前沿教育的趨勢掌握不到位……這些都是問題。
針對這一痛點,考拉閱讀還和學校合作開展了20課時和40課時不同版本的針對教師的培訓課程,由其團隊里具有深厚教研經驗的成員進行研發,分為線下集中輔導和線上遠程支持兩種路徑,以培訓教師們及時更新各種新興教育理念的能力,從而及時掌握教育閱讀的最新發展趨勢。
總的來說,“分級閱讀系統只是一種工具,它并不能喧賓奪主取代老師。我們做分級閱讀的意義就在于,想告訴家長和老師,哪種文本難度的書目是適合你的孩子或學生去閱讀的。至于讀還是不讀,依然需要家長和老師去做出判斷?!壁w梓淳坦言。