作者 : 子正
(Fotolia)
漢字產生以後,走過了四五千年不間斷的發展演變歷程。在這漫長的歷史過程中,歷朝歷代產生的新字不計其數。時至今日,漢字的數量究竟有多少?或說兩三萬、三四萬、四五萬,甚至有說七八萬,竟然沒人能大致說清楚。漢字的數量真沒有一個相對確定的數字嗎?
讓我們先看看歷代字書(及韻書)的收字情況:
商(公元前1600~前1046年):甲骨文已發現單字4378個(《甲骨文字編》,臺灣中央研究院歷史語言研究所李宗焜,2012年),其中已識2000餘字,公認1000餘字。
西周:《史籀篇》(周宣王期間,前827~前781),共十五篇,字數不詳。估計在1500~3000字之間。
秦(公元前221年):《倉頡篇》(李斯作)、《博學篇》(趙高作)、《爰歷篇》(胡毋敬作),共計3300餘字。
漢:《訓纂編》(楊雄,公元前53~公元18年),5340字(已佚);《說文解字》(公元100年,許慎著),9353字;加上重文(異體字),共10,516字。
晉:《字林》(公元514年,呂忱著):12,824字(已佚)。
南朝.梁:《玉篇》(公元534年,著顧野王):16,917字(後增補至22561字)。
宋:《廣韻》(1008年,陳彭年等編著),26,194字;《集韻》(1039年,丁度等編著),53,525字;《類篇》(1066年,司馬光等編著),31,319字。
明:《字彙》(1615年,梅膺祚等編著),33,179字;《正字通》(崇禎末年,張自烈著),33,549字。
清《康熙字典》(1716年,張玉書等編著),47,043字。
1915年,《中華大字典》(歐陽博存主編):48,000餘字。
1971年,《中文大辭典》(張其昀主編):49,888餘字。
1993年,《漢語大字典》(徐中舒主編):56,000餘字。
1994年,《中華字海》(冷玉龍主編):85,000餘字。
可是,漢字的數量真的有這麼多嗎?
其實,當我們明白了漢字造字的原理與方法,清楚漢字發展演變的來龍去脈,對於漢字的數量問題,就會有一個基本的判斷。
在《漢字的造字理念與原則》一文中談到,漢字的具體構字方法是「六書」(其中的「假借」與「轉注」,是後起的二法)。也就是說,真正的漢字,得符合「六書」才算數。一個人隨便寫一個「字」,其構造不符合「六書」的要求,使人無從解讀,那就不能算是一個真正的漢字。歷史上,這樣的「字」很多,有些是俗字,有些是錯別字。所以,「有效漢字」的數量,其實是可以有定數的。
這裏所說的「有效漢字」,主體是指符合六書的通用漢字(很多字後世發生了訛變,變得不符合六書),也包括後世歷代沿用下來的俗字。
下面我們再看看有關中國古籍的用字統計,看能不能找到確定漢字數量的線索。
由上表可以看出,中國歷代各類著作所用不重複字數很少有超過4000的,大多介於2000~4000之間,說明中國歷代社會常用字有一個恒量,即3000字左右。我國古代童蒙識字教材同時並用時的總字數,恰在3000~4000上下,說明當時圍繞漢字教育所進行的字頻研究和常用字研究,已經達到很高的水準。
有人曾統計過,十三經(《易》、《書》、《詩》、《周禮》、《儀禮》、《禮記》、《春秋左傳》、《春秋公羊傳》、《春秋穀梁傳》、《論語》、《孝經》、《爾雅》、《孟子》)中不相同的單字數為6544字。因此,實際上古人日常使用的漢字數不過六、七千上下而已。
以下,我們再分析大陸有關單位所作的漢字使用頻度統計資料。
現代語料字頻統計(清華大學):
統計字數:6,763(GB2313-80字元集)。
使用語料總字數:86,405,823字。
古籍字頻統計(北京書同文數字化技術有限公司所,2004年):
語料來源:
《四庫全書》用字:總字數:698,076,596字:不重複單字:29,081字。
《四部叢刊》用字:總字數: 90,616,538字;不重複單字:27,606字。
二者合併: 總字數:788,693,134字,不重複單字:30,135字。
由現代語料字頻統計結果可看出:
前1,000個常用字,對語料的覆蓋率達到91.9%以上;
前2,500個常用字,對語料的覆蓋率達到99.2%以上;
前3,500個常用字,對語料的覆蓋率達到99.8%以上;
前4,500個常用字,對語料的覆蓋率達到99.9%以上。
這與中國古時歷代社會常用字的數量基本一致。而對古籍字頻的統計,雖然統計字數擴大了將近五倍,達到3萬多字,但字頻與現代漢語相比,差別並不很大:
前1,000個常用字,覆蓋率達到80.9%以上;
前2,000個常用字,覆蓋率達到91.6%以上;
前4,000個常用字,覆蓋率達到97.5%以上;
前6,000字常用字,覆蓋率達到99.1%以上;
前8,000字常用字,覆蓋率達到99.6%以上;
前13,000字常用字,覆蓋率達到99.9%以上。
以後字數再增加,語料覆蓋率的增加就很少了。如果拋除古籍中大量的異體字、俗字,則古今語料漢字的使用頻度基本一致。
1988年,大陸發布的收錄3500字的《現代漢語常用字表》(常用字2500個、次常用字1000個),以及收錄7000的《現代漢語通用字表》(含《現代漢語常用字表》中的3500字),就是依據與上述漢字字頻統計相關的資料制定的。
2013年,大陸又發布了《通用規範漢字表》,將收字數量提高到8105(其中一級字仍為3500)。
香港城市大學研究中心的Benjamin K. Tsou教授關於漢字信息熵的研究表明:隨著漢字容量增大到一定數量,信息熵的增加趨緩;當漢字增加到12,370個以後,不再使信息熵有明顯的增加。據此,有關專家認為:漢字的容量極限為12,366個。
所謂信息熵,是指信息中排除了冗餘後的平均信息量。信息熵越高,意味著能傳輸的信息越多;信息熵越低,則能傳輸的信息越少。
由以上介紹可知,有效漢字的數量,也就在13,000個左右。
對於通常的出版印刷、信息處理、姓氏人名、地名、科技術語等方面的用字需要,8000通用漢字基本上都能滿足。對於專業人員而言,掌握4000~4500個漢字足矣;而對於普通人士,掌握2500~3500個漢字,則基本上就能滿足正常的工作與閱讀需要。
所以,2007年(民國民國九十六年)臺灣《國語小字典》第二版,收字4,305個。1997年(民國民國八十六年)臺灣教育部的《重編國語辭典修訂本》,收字11,930個;另有異體字1,848個,共計13,778字。2011年大陸第十一版《新華字典》,收字11,200餘個。
所以,那些所謂的漢字的數量有幾萬個,甚至是超過十萬個的說法,是不能成立的。因為,那其中的絕大部分,或是異體字、俗字、錯別字,還有大量的死字(歷史上曾經出現過而後世廢置不用的字)。@*
美東時間: 2014-03-29 19:04:31 PM
【萬年曆】 【投稿/爆料】
本文網址: http://www.epochtimes.com/b5/14/3/2/n4095950.htm漢字正義(十三)︰漢字的數量有定數嗎-.html
This entry passed through the Full-Text RSS service — if this is your content and you're reading it on someone else's site, please read the FAQ at fivefilters.org/content-only/faq.php#publishers.