僅依靠數據自身不能完成“智慧型”轉化,比數據更重要的是闡釋數據的方式。除了將統計分析與經典論題相關聯,數據的切分與聚類也是至關重要的基礎環節。一項經典研究案例是,將《紅樓夢》以四十回為單位進行文本切分,最後一部分在用字量方面的顯著不同剛好佐證關於作者的疑問。然而,以用字量直接衡量作品質量或閱讀難度又會墮入機械的統計分析思維。例如統計中居首的幾部小說文獻,其體量大、涉及內容廣、雅俗語體並包等因素共同提升了用字量。同樣,受常用漢字總量限制,文獻篇幅的增加反而會導致用字比下降。故而統計中引入計算語言學常用的TTR_H模型以修正用字比,最終結果顯示,用字比最高者皆為蒙學讀本:《千字文》(1)、《百家姓》(0.986)、《三字經》(0.894)、《聲律啟蒙》(0.857)。可見,編著者有意識地在有限的篇幅和內容難度中增加用字量,讓學童能比較密集地習得盡可能多的漢字。蒙學讀物的編纂者選字標準是什麼,是當時常見經典文獻中的高頻字,還是日常生活中的常用字,還是有別的標準?這種選擇是以何種方式完成的?這些都是值得進一步探究的話題。
從用字特征探測經典命題
字頻統計中,考慮到虛字和實字的不同屬性和闡釋功能,二者通常被分別計算。虛詞在漢語史等領域的研究中經常被作為特征數據使用,同時也是作品風格比對的標誌性參數,虛詞的使用比重本身便構成不同作者間的風格標識。“五經”之中,參照後世“文筆之辨”,《詩》為有韵之文,因而與其他幾部書相比,高頻詞中實詞比重更大,古人“實字多則健,虛字多則弱”的詩論觀點或濫觴於此。以高頻字的虛實映射“文筆之辨”的方法可推及後世,普遍而言,在詩歌與詞曲等文體中,實詞作為高頻詞的概率大於散文文體。
作為“五經”中成書年代最早的《尚書》,其虛字運用特征同樣保存了上古漢語的流變痕跡。《尚書》中頻次居首者是極具上古色彩的虛詞“惟”,這不僅與其中許多篇目的記言性質有關,也體現了早期漢語與後來“之乎者也於”時代的分野。以相同視角觀照近古作品,可以窺見漢語史上的另一重大變革。對話是小說中的重要元素,表達說話行為的動詞自然享有高頻地位,在《三國演義》與《聊齋》中體現為“曰”,而《西游記》和《水滸傳》中則體現為“道”,這是後一組作品文言色彩減弱的重要標誌。而真正的白話轉型發生在《紅樓夢》身上,“的”首次取代語法功能相同的“之”而上榜,成為第二高頻詞。《紅樓夢》中居首的高頻詞是另一個極具白話特征的虛詞“了”,這也是《水滸傳》中的第一高頻詞。 |