分詞書寫
中文分詞書寫(Chinese word-segmented writing),也稱分詞連寫或詞式書寫,是指像英文等拼音文字一樣,按詞書寫,在詞與詞之間留出空格[1]。例如以下的句子在詞和詞之間加上空格,就是中文分詞書寫的句子。
- 乒乓 球拍 賣完了。
分詞書寫可提高漢語閱讀和信息處理的效率。例如:傳統寫法「桌球拍賣完了。」有歧義,用分詞書寫可根據需要明確表達爲「乒乓 球拍 賣完了。」或「桌球 拍賣 完了。」[2]
歷史
[編輯]中文和英文都曾經沒有標點沒有分詞書寫。現在英文等拉丁文字兩者都用上了。中文在1900年代初五四新文化運動前後引入了標點符號,但是單詞之間仍然沒有邊界記號,沒有分開來寫。[3]
在1950年代,中國語言學家曾討論過採用分詞書寫的建議,但沒有獲得通過。 [3]
1987年,陳立為在國際中文信息處理會議上再次提出中文分詞書寫的想法。 [4]
第一篇分詞書寫的中文文章的出現不晚於1998年,當時在中國的〈中文信息學報〉中發表了題為《也谈汉语书面语的分词问题——分词连写十大好处》的論文。[5] 全文(共七頁)分詞連寫,其摘要如下:
摘要: 单词 的 切分 对 现代 汉语 的 运用、研究 和 计算机 信息 处理 等 都 具有 相当 重要 的 意义。本文 阐述 书面 汉语 分词 连写 的 十 大 好处 , 并 讨论 一些 实施 方面 的 问题。文章 全文 分词 连写。
2018年,英文維基學院發表了一篇題為"Word segmentation of Hanzi" (漢字分詞)的短文,其中文版全文分詞如下:[6]
历史上,中国古文 是 没有 标点符号的。读者 需要 付出 额外的 精力 专注于 断句,而且 稍有差池 便会 造成 误读。所谓 差之毫厘 失之千里。引入 标点符号 是 一次 重大的 文字改革,使得 汉字文本的 阅读效率 有了 很大的 提高。但 中文的 改革 才 刚刚 起步, 远未达到 尽善尽美的 程度。至少 在 阅读效率 方面 仍然 存在着 一个 显而易见的 障碍 - 断词 (汉字的 分词连写)。
第一本分詞書寫的書籍是2000年出版的《語言 理論》。 [7]
漢字分詞書寫
[編輯]中文通常是用漢字書寫的,所以中文分詞書寫主要是指漢字文本的分詞書寫。以下介紹分詞書寫的一些方法或依據。
以表意為主導
[編輯]分詞書寫的主要目的是準確、清楚地表達作者的意思。 例如,傳統的非分詞句子 「美國會反對。」 有兩種可能的含意,分詞書寫可根據需要清楚表達爲 「 美國 會 反對。」(The US will oppose.) 或 「 美 國會 反對。」 (The US Congress opposed)。又如,「昨天我應用鋼筆簽名。」也有歧義,用分詞書寫可以表達為「昨天 我 應用 鋼筆 簽名。(做了) 」和「昨天 我 應 用 鋼筆 簽名。 (可能沒做)」。這種區別對法庭來說可能很重要。 作者應該根據自己的意思選擇正確的分詞方式,消除歧義。 [3]
使用詞典和語言知識
[編輯]如果不能確定某個字串是否為合法單詞,作者可以在可靠的漢語詞典或分詞語料庫中檢查其是否存在,例如現代漢語詞典、重編國語辭典修訂本[8]和平衡語料庫[9]等。 或根據詞彙、詞法和句法知識檢查它是否是語言學上合格的單詞。 [10]
參考口語規則
[編輯]在口語中,兩個單詞之間通常有或者可以有停頓,而單詞內音節之間一般不允許停頓。[11][12]
空格的寬度
[編輯]兩個詞之間的間距設定為漢字寬度的一半比較合適,小於兩行之間的距離。 由於漢語詞的平均長度約為2個字,如果詞間空格是一個漢字的寬度,且大於行間距離,則頁面上的文字行會顯得分散,不緊湊。 更理想的做法是由電腦根據上下文環境做智能的動態調整,類似於MS Word的排版功能。[13]
專有名詞的標記
[編輯]英文是用大寫字母來標記。漢字文本的專有名詞也應該有標記,例如用底線。[3] 事實上,某些中文聖經(例如現代標點和合本)已經這樣做了。例如:
7. 耶和華神用地上的塵土造人,將生氣吹在他鼻孔裏,他就成了有靈的活人,名叫亞當。8. 耶和華神在東方的伊甸立了一個園子,把所造的人安置在那裏。(創世記 2:7-8) [14]
拼音分詞書寫
[編輯]拼音通常用來給漢字注音,但是在初級漢語教學或對外漢語教學中有時也用拼音直接表達漢語,所以拼音的書寫也是一種中文書寫,同時還可以是漢字分詞書寫的重要參考。[15] 《漢語拼音正字法基本規則》是漢語拼音書寫和分詞的中國國家標準。其主要內容《5. 總則》摘錄如下:[16]
拼音正字法總則摘錄
[編輯]5.1 拼寫普通話基本上以詞為書寫單位。例如: rén (人), pǎo (跑), hǎo (好), fúróng (芙蓉), māma (媽媽), diànshìjī (電視機), túshūguǎn (圖書館)。
5.2 表示一個整體概念的雙音節和三音節結構,連寫。例如: quánguó (全國), zǒulái (走來), dǎnxiǎo (膽小), duìbuqǐ (對不起), chīdexiāo (吃得消)。
5.3 四音節及四音節以上表示一個整體概念的名稱,按詞或語節(詞語內部由語音停頓而劃分成的片段)分寫,不能按詞或語節劃分的,全都連寫。例如: wúfèng gāngguǎn (無縫 鋼管), huánjìng bǎohù gūihuà (環境 保護 規劃), jīngtǐguǎn gōnglǜ fàngdàqì (晶體管 功率 放大器), yánjiūshēngyuàn (研究生院), hóngshízìhuì (紅十字會)。
5.4 單音節詞重疊,連寫;雙音節詞重疊,分寫。例如: rénrén (人人), niánnián (年年), yánjiū yánjiū (研究 研究), xuěbái xuěbái (雪白 雪白), tōnghóng tōnghóng (通紅 通紅)。
重疊並列即AABB式結構,連寫。例如: láilaiwǎngwǎng (來來往往), qīngqīngchǔchǔ (清清楚楚), fāngfāngmiànmiàn (方方面面)。
5.5 單音節前附成分(副、總、非、反、超、老、阿、可、無、半等)或單音節後附成分(子、兒、頭、性、者、員、家、手、化、們等)與其他詞語,連寫。例如: fùbùzhǎng (副部長), zǒnggōngchéngshī (總工程師), fùzǒnggōngchéngshī (副總工程師), zhuōzi (桌子), háizimen (孩子們)。
5.6 為了便於閱讀和理解,某些並列的詞、語素之間或某些縮略語當中可用連接號。例如: bā-jiǔ tiān (八-九 天), rén-jī duìhuà (人-機 對話), Jīng-Zàng Gāosù Gōnglù (京-藏 高速 公路)。
此外,還有一些其他方面的規則,請見該規範的原文。[17]
分詞實例
[編輯]下面是一個較長的分詞書寫例子。聯合國《世界人權宣言》中文版第一條 :[18]
人人生而自由,在尊严和权利上一律平等。他们赋有理性和良心,并应以兄弟关系的精神相对待。
其拼音可分詞連寫為
Rénrén shēng ér zìyóu, zài zūnyán hé quánlì shàng yīlǜ píngděng. Tāmen fùyǒu lǐxìng hé liángxīn, bìng yīng yǐ xiōngdì guānxì de jīngshén xiāng duìdài.
相應的,其漢字文本分詞書寫形式是
人人 生 而 自由,在 尊严 和 权利 上 一律 平等。 他们 赋有 理性 和 良心, 并 应 以 兄弟 关系 的 精神 相 对待。
英文原文:[19]
All human beings are born free and equal in dignity and rights. They are endowed with reason and conscience and should act towards one another in a spirit of brotherhood.
評論
[編輯]優點
[編輯]中文分詞書寫的優點包括:[20]
- 有利於語言表達和理解。
- 有利於漢語教學。
- 有利於語言學研究。
- 有利於漢語詞彙的定義和應用。
- 有利於電腦自然語言處理。
- 有利於拼音與漢字的自動轉換。
- 有利於簡繁體漢字轉換。
- 有利於校對文章、防止錯字。
- 有利於文件排版。
- 有利於軟體的漢化或西化。
- 將分詞書寫的文本自動正確轉換爲非分詞形式容易,反之則難。
- 等等。
缺點
[編輯]中文分詞書寫的缺點包括:[21]
- 需要(大約1/4)更多的(紙面)空間。
- 人們還不習慣這種書寫方式。
- 需要辨識每個單詞。
- 句子看起來不像沒有空格的傳統格式那麼整齊。
- 大多數中文單詞都是一兩個字長,即使不使用邊界標記,辨識也不困難。
計算機自動分詞
[編輯]在分詞書寫普及之前,可用計算機技術來進行漢語文本自動分詞。 目前自動分詞的準確度已達到百分之九十幾, 但仍需要人工校對, 而且永遠不會像作者親自分詞那麼可靠。 [22] [23]
參見
[編輯]參考資料
[編輯]- ^ 陳, 力為 (陳力為). 汉语书面语的分词问题- - 一个有关全民的信息化问题. (中文信息學報). 1996,. 10 (1996) (1): 11–13 [2023-12-09]. (原始內容存檔於2023-07-08).
- ^ 張, 小衡 (張小衡). 也谈汉语书面语的分词问题——分词连写十大好处. 中文信息學報. 1998,. 12 (1998) (3): 57–63 [2023-12-09]. (原始內容存檔於2023-06-06).
- ^ 3.0 3.1 3.2 3.3 陳 1996,第12頁.
- ^ 陳, 力為 (陳力為). 当前中文信息处理 中的几个问题及其发展前景. 計算機世界(Chinese Computer World ). 1987, 21 (34).
- ^ 張 1998,第57-63頁.
- ^ English-Chinese/Word segmentation of Hanzi - Wikiversity. [2023-12-09]. (原始內容存檔於2023-07-08).
- ^ 彭, 澤潤 (彭澤潤、李葆嘉 eds). 语言理论. 長沙: 中南大學出版社. 2000. ISBN 978-7-810-61342-2 (中文).
- ^ 教育部《重編國語辭典修訂本》. 2021 [2023-12-08]. (原始內容存檔於2024-06-05).
- ^ 存档副本. [2023-12-09]. (原始內容存檔於2023-09-28).
- ^ 張 1998,第61頁.
- ^ Haspelmath, Martin. The indeterminacy of word segmentation and the nature of morphology and syntax. Folia Linguistica. 2011, 45 (1) [2023-12-09]. ISSN 0165-4004. S2CID 62789916. doi:10.1515/flin.2011.002. (原始內容存檔於2023-09-22).
- ^ 存档副本. [2023-12-09]. (原始內容存檔於2024-05-28).
- ^ 張 1998,第62頁.
- ^ 聯合聖經公會. 聖經(現代標點和合本). 香港: 浸信會出版社. 1998. ISBN 962-933-101-2 (中文).
- ^ Arcodia, Giorgio (and Basciano, Bianca). Chinese Linguistics. Oxford: Oxford University Press. 2021: 84–85. ISBN 978-0-19-884784-7.
- ^ 國家語委. 漢語拼音正字法基本規則 (PDF). 2012 [2023-12-08]. (原始內容存檔 (PDF)於2020-12-06).
- ^ 國家語委 2012.
- ^ Universal Declaration of Human Rights - Chinese, Mandarin (Simplified). unicode.org. [2023-12-11]. (原始內容存檔於2022-01-19).
- ^ 存档副本. [2023-12-23]. (原始內容存檔於2021-03-16).
- ^ 張 1998,第57-61頁.
- ^ 陳 1996,第12頁.
- ^ 張 1998,第57頁.
- ^ 劉, 開瑛 (劉開瑛). 中文文本自動分詞和標注. 北京: 商務印書館. 2021. ISBN 7-100-03068-4.
外部連結
[編輯]- Chinese word-segmented writing (https://en.wikipedia.org/wiki/Chinese_word-segmented_writing#See_also (頁面存檔備份,存於網際網路檔案館))
- Word boundaries (https://en.wikipedia.org/wiki/Word#Word_boundaries (頁面存檔備份,存於網際網路檔案館))
- Text segmentation (https://en.wikipedia.org/wiki/Text_segmentation (頁面存檔備份,存於網際網路檔案館))
- Chinese Word Segmentation. [2023-12-08]. (原始內容存檔於2024-04-12).