分詞書寫

中文分詞書寫（Chinese word-segmented writing），也稱分詞連寫或詞式書寫，是指像英文等拼音文字一樣，按詞書寫，在詞與詞之間留出空格^[1]。例如以下的句子在詞和詞之間加上空格，就是中文分詞書寫的句子。

乒乓球拍賣完了。

分詞書寫可提高漢語閱讀和信息處理的效率。例如：傳統寫法「乒乓球拍賣完了。」有歧義，用分詞書寫可根據需要明確表達爲「乒乓球拍賣完了。」或「乒乓球拍賣完了。」^[2]

歷史

中文和英文都曾經沒有標點沒有分詞書寫。現在英文等拉丁文字兩者都用上了。中文在1900年代初五四新文化運動前後引入了標點符號，但是單詞之間仍然沒有邊界記號，沒有分開來寫。^[3]

在1950年代，中國語言學家曾討論過採用分詞書寫的建議，但沒有獲得通過。 ^[3]

1987年，陳立為在國際中文信息處理會議上再次提出中文分詞書寫的想法。 ^[4]

第一篇分詞書寫的中文文章的出現不晚於1998年，當時在中國的〈中文信息學報〉中發表了題為《也谈汉语书面语的分词问题——分词连写十大好处》的論文。^[5] 全文（共七頁）分詞連寫，其摘要如下：

摘要: 单词 的 切分 对 现代 汉语 的 运用、研究 和 计算机 信息 处理 等 都 具有 相当 重要 的 意义。本文 阐述 书面 汉语 分词 连写 的 十 大 好处 , 并 讨论 一些 实施 方面 的 问题。文章 全文 分词 连写。

2018年，英文維基學院發表了一篇題為"Word segmentation of Hanzi" (漢字分詞)的短文，其中文版全文分詞如下：^[6]

历史上，中国古文 是 没有 标点符号的。读者 需要 付出 额外的 精力 专注于 断句，而且 稍有差池 便会 造成 误读。所谓 差之毫厘 失之千里。引入 标点符号 是 一次 重大的 文字改革，使得 汉字文本的 阅读效率 有了 很大的 提高。但 中文的 改革 才 刚刚 起步， 远未达到 尽善尽美的 程度。至少 在 阅读效率 方面 仍然 存在着 一个 显而易见的 障碍 - 断词 （汉字的 分词连写）。

第一本分詞書寫的書籍是2000年出版的《語言理論》。 ^[7]

漢字分詞書寫

中文通常是用漢字書寫的，所以中文分詞書寫主要是指漢字文本的分詞書寫。以下介紹分詞書寫的一些方法或依據。

以表意為主導

分詞書寫的主要目的是準確、清楚地表達作者的意思。例如，傳統的非分詞句子「美國會反對。」有兩種可能的含意，分詞書寫可根據需要清楚表達爲「美國會反對。」(The US will oppose.) 或「美國會反對。」 (The US Congress opposed)。又如，「昨天我應用鋼筆簽名。」也有歧義，用分詞書寫可以表達為「昨天我應用鋼筆簽名。（做了）」和「昨天我應用鋼筆簽名。（可能沒做）」。這種區別對法庭來說可能很重要。作者應該根據自己的意思選擇正確的分詞方式，消除歧義。 ^[3]

使用詞典和語言知識

如果不能確定某個字串是否為合法單詞，作者可以在可靠的漢語詞典或分詞語料庫中檢查其是否存在，例如現代漢語詞典、重編國語辭典修訂本^[8]和平衡語料庫^[9]等。或根據詞彙、詞法和句法知識檢查它是否是語言學上合格的單詞。 ^[10]

參考口語規則

在口語中，兩個單詞之間通常有或者可以有停頓,而單詞內音節之間一般不允許停頓。^[11]^[12]

空格的寬度

兩個詞之間的間距設定為漢字寬度的一半比較合適，小於兩行之間的距離。由於漢語詞的平均長度約為2個字，如果詞間空格是一個漢字的寬度，且大於行間距離，則頁面上的文字行會顯得分散，不緊湊。更理想的做法是由電腦根據上下文環境做智能的動態調整，類似於MS Word的排版功能。^[13]

專有名詞的標記

英文是用大寫字母來標記。漢字文本的專有名詞也應該有標記，例如用底線。^[3] 事實上，某些中文聖經（例如現代標點和合本）已經這樣做了。例如：

7. 耶和華神用地上的塵土造人，將生氣吹在他鼻孔裏，他就成了有靈的活人，名叫亞當。8. 耶和華神在東方的伊甸立了一個園子，把所造的人安置在那裏。(創世記 2:7-8） ^[14]

拼音分詞書寫

拼音通常用來給漢字注音，但是在初級漢語教學或對外漢語教學中有時也用拼音直接表達漢語，所以拼音的書寫也是一種中文書寫，同時還可以是漢字分詞書寫的重要參考。^[15] 《漢語拼音正字法基本規則》是漢語拼音書寫和分詞的中國國家標準。其主要內容《5. 總則》摘錄如下：^[16]

拼音正字法總則摘錄

5.1 拼寫普通話基本上以詞為書寫單位。例如： rén (人)， pǎo (跑)， hǎo (好)， fúróng (芙蓉)， māma (媽媽)， diànshìjī (電視機)， túshūguǎn (圖書館)。

5.2 表示一個整體概念的雙音節和三音節結構，連寫。例如： quánguó (全國)， zǒulái (走來)， dǎnxiǎo (膽小)， duìbuqǐ (對不起)， chīdexiāo (吃得消)。

5.3 四音節及四音節以上表示一個整體概念的名稱，按詞或語節（詞語內部由語音停頓而劃分成的片段）分寫，不能按詞或語節劃分的，全都連寫。例如： wúfèng gāngguǎn (無縫鋼管)， huánjìng bǎohù gūihuà (環境保護規劃)， jīngtǐguǎn gōnglǜ fàngdàqì (晶體管功率放大器)， yánjiūshēngyuàn (研究生院)， hóngshízìhuì (紅十字會)。

5.4 單音節詞重疊，連寫；雙音節詞重疊，分寫。例如： rénrén (人人)， niánnián (年年)， yánjiū yánjiū (研究研究)， xuěbái xuěbái (雪白雪白)， tōnghóng tōnghóng (通紅通紅)。

重疊並列即AABB式結構，連寫。例如： láilaiwǎngwǎng (來來往往)， qīngqīngchǔchǔ (清清楚楚)， fāngfāngmiànmiàn (方方面面)。

5.5 單音節前附成分（副、總、非、反、超、老、阿、可、無、半等）或單音節後附成分（子、兒、頭、性、者、員、家、手、化、們等）與其他詞語，連寫。例如： fùbùzhǎng (副部長)， zǒnggōngchéngshī (總工程師)， fùzǒnggōngchéngshī (副總工程師)， zhuōzi (桌子)， háizimen (孩子們)。

5.6 為了便於閱讀和理解，某些並列的詞、語素之間或某些縮略語當中可用連接號。例如： bā-jiǔ tiān (八-九天)， rén-jī duìhuà (人-機對話)， Jīng-Zàng Gāosù Gōnglù (京-藏高速公路)。

此外，還有一些其他方面的規則，請見該規範的原文。^[17]

分詞實例

下面是一個較長的分詞書寫例子。聯合國《世界人權宣言》中文版第一條 :^[18]

人人生而自由，在尊严和权利上一律平等。他们赋有理性和良心，并应以兄弟关系的精神相对待。

其拼音可分詞連寫為

Rénrén shēng ér zìyóu, zài zūnyán hé quánlì shàng yīlǜ píngděng. Tāmen fùyǒu lǐxìng hé liángxīn, bìng yīng yǐ xiōngdì guānxì de jīngshén xiāng duìdài.

相應的，其漢字文本分詞書寫形式是

人人 生 而 自由，在 尊严 和 权利 上 一律 平等。 他们 赋有 理性 和 良心， 并 应 以 兄弟 关系 的 精神 相 对待。

英文原文：^[19]

All human beings are born free and equal in dignity and rights. They are endowed with reason and conscience and should act towards one another in a spirit of brotherhood.

有利於語言表達和理解。
有利於漢語教學。
有利於語言學研究。
有利於漢語詞彙的定義和應用。
有利於電腦自然語言處理。
有利於拼音與漢字的自動轉換。
有利於簡繁體漢字轉換。
有利於校對文章、防止錯字。
有利於文件排版。
有利於軟件的漢化或西化。
將分詞書寫的文本自動正確轉換爲非分詞形式容易，反之則難。
等等。

缺點

中文分詞書寫的缺點包括：^[21]

需要（大約1/4）更多的（紙面）空間。
人們還不習慣這種書寫方式。
需要辨識每個單詞。
句子看起來不像沒有空格的傳統格式那麼整齊。
大多數中文單詞都是一兩個字長，即使不使用邊界標記，辨識也不困難。

計算機自動分詞

在分詞書寫普及之前，可用計算機技術來進行漢語文本自動分詞。目前自動分詞的準確度已達到百分之九十幾，但仍需要人工校對，而且永遠不會像作者親自分詞那麼可靠。 ^[22] ^[23]

參見

參考資料

^ 陳, 力為 (陳力為). 汉语书面语的分词问题- - 一个有关全民的信息化问题. (中文信息學報). 1996,. 10 (1996) (1): 11–13 [2023-12-09]. （原始內容存檔於2023-07-08）.
^ 張, 小衡 (張小衡). 也谈汉语书面语的分词问题——分词连写十大好处. 中文信息學報. 1998,. 12 (1998) (3): 57–63 [2023-12-09]. （原始內容存檔於2023-06-06）.
^ ^3.0 ^3.1 ^3.2 ^3.3 陳 1996，第12頁.
^ 陳, 力為 (陳力為). 当前中文信息处理中的几个问题及其发展前景. 計算機世界（Chinese Computer World ). 1987, 21 (34).
^ 張 1998，第57-63頁.
^ English-Chinese/Word segmentation of Hanzi - Wikiversity. [2023-12-09]. （原始內容存檔於2023-07-08）.
^ 彭, 澤潤 (彭澤潤、李葆嘉 eds). 语言理论. 長沙: 中南大學出版社. 2000. ISBN 978-7-810-61342-2 （中文）.
^ 教育部《重編國語辭典修訂本》. 2021 [2023-12-08]. （原始內容存檔於2024-06-05）.
^ 存档副本. [2023-12-09]. （原始內容存檔於2023-09-28）.
^ 張 1998，第61頁.
^ Haspelmath, Martin. The indeterminacy of word segmentation and the nature of morphology and syntax. Folia Linguistica. 2011, 45 (1) [2023-12-09]. ISSN 0165-4004. S2CID 62789916. doi:10.1515/flin.2011.002. （原始內容存檔於2023-09-22）.
^ 存档副本. [2023-12-09]. （原始內容存檔於2024-05-28）.
^ 張 1998，第62頁.
^ 聯合聖經公會. 聖經（現代標點和合本）. 香港: 浸信會出版社. 1998. ISBN 962-933-101-2 （中文）.
^ Arcodia, Giorgio (and Basciano, Bianca). Chinese Linguistics. Oxford: Oxford University Press. 2021: 84–85. ISBN 978-0-19-884784-7.
^ 國家語委. 漢語拼音正字法基本規則 (PDF). 2012 [2023-12-08]. （原始內容存檔 (PDF)於2020-12-06）.
^ 國家語委 2012.
^ Universal Declaration of Human Rights - Chinese, Mandarin (Simplified). unicode.org. [2023-12-11]. （原始內容存檔於2022-01-19）.
^ 存档副本. [2023-12-23]. （原始內容存檔於2021-03-16）.
^ 張 1998，第57-61頁.
^ 陳 1996，第12頁.
^ 張 1998，第57頁.
^ 劉, 開瑛 (劉開瑛). 中文文本自動分詞和標注. 北京: 商務印書館. 2021. ISBN 7-100-03068-4.

外部連結

Chinese word-segmented writing (https://en.wikipedia.org/wiki/Chinese_word-segmented_writing#See_also （頁面存檔備份，存於互聯網檔案館）)
Word boundaries (https://en.wikipedia.org/wiki/Word#Word_boundaries （頁面存檔備份，存於互聯網檔案館）)
Text segmentation (https://en.wikipedia.org/wiki/Text_segmentation （頁面存檔備份，存於互聯網檔案館）)
Chinese Word Segmentation. [2023-12-08]. （原始內容存檔於2024-04-12）.

[1] 陳, 力為 (陳力為). 汉语书面语的分词问题- - 一个有关全民的信息化问题. (中文信息學報). 1996,. 10 (1996) (1): 11–13 [2023-12-09]. （原始內容存檔於2023-07-08）.

[2] 張, 小衡 (張小衡). 也谈汉语书面语的分词问题——分词连写十大好处. 中文信息學報. 1998,. 12 (1998) (3): 57–63 [2023-12-09]. （原始內容存檔於2023-06-06）.

[FOOTNOTE陈199612-3] 3.0 ^3.1 ^3.2 ^3.3 陳 1996，第12頁.

[4] 陳, 力為 (陳力為). 当前中文信息处理中的几个问题及其发展前景. 計算機世界（Chinese Computer World ). 1987, 21 (34).

[FOOTNOTE张199857-63-5] 張 1998，第57-63頁.

[6] English-Chinese/Word segmentation of Hanzi - Wikiversity. [2023-12-09]. （原始內容存檔於2023-07-08）.

[7] 彭, 澤潤 (彭澤潤、李葆嘉 eds). 语言理论. 長沙: 中南大學出版社. 2000. ISBN 978-7-810-61342-2 （中文）.

[8] 教育部《重編國語辭典修訂本》. 2021 [2023-12-08]. （原始內容存檔於2024-06-05）.

[9] 存档副本. [2023-12-09]. （原始內容存檔於2023-09-28）.

[FOOTNOTE张199861-10] 張 1998，第61頁.

[Haspelmath2011-11] Haspelmath, Martin. The indeterminacy of word segmentation and the nature of morphology and syntax. Folia Linguistica. 2011, 45 (1) [2023-12-09]. ISSN 0165-4004. S2CID 62789916. doi:10.1515/flin.2011.002. （原始內容存檔於2023-09-22）.

[12] 存档副本. [2023-12-09]. （原始內容存檔於2024-05-28）.

[FOOTNOTE张199862-13] 張 1998，第62頁.

[14] 聯合聖經公會. 聖經（現代標點和合本）. 香港: 浸信會出版社. 1998. ISBN 962-933-101-2 （中文）.

[15] Arcodia, Giorgio (and Basciano, Bianca). Chinese Linguistics. Oxford: Oxford University Press. 2021: 84–85. ISBN 978-0-19-884784-7.

[16] 國家語委. 漢語拼音正字法基本規則 (PDF). 2012 [2023-12-08]. （原始內容存檔 (PDF)於2020-12-06）.

[FOOTNOTE国家语委2012-17] 國家語委 2012.

[18] Universal Declaration of Human Rights - Chinese, Mandarin (Simplified). unicode.org. [2023-12-11]. （原始內容存檔於2022-01-19）.

[19] 存档副本. [2023-12-23]. （原始內容存檔於2021-03-16）.

[FOOTNOTE張199857-61-20] 張 1998，第57-61頁.

[FOOTNOTE陳199612-21] 陳 1996，第12頁.

[FOOTNOTE张199857-22] 張 1998，第57頁.

[23] 劉, 開瑛 (劉開瑛). 中文文本自動分詞和標注. 北京: 商務印書館. 2021. ISBN 7-100-03068-4.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]