Phân bổ Pachinko

Trong học máy và xử lý ngôn ngữ tự nhiên, mô hình phân bổ Pachinko (tiếng Anh: pachinko allocation model, viết tắt là PAM) là một mô hình chủ đề. Các mô hình chủ đề là một bộ thuật toán khám phá cấu trúc chủ đề (chuyên đề) ẩn của một tập tài liệu.^[1] Thuật toán cải tiến dựa trên các mô hình chủ đề trước kia như phân bổ Dirichlet tiềm ẩn (LDA) bằng cách mô hình hóa sự tương quan giữa các chủ đề, bên cạnh các mối tương quan giữa các từ cấu thành nên các chủ đề đó. PAM cung cấp khả năng linh hoạt hơn và biểu đạt tốt hơn so với phân bổ Dirichlet tiềm ẩn.^[2] Mặc dù đầu tiên được mô tả và triển khai trong lĩnh vực xử lý ngôn ngữ tự nhiên, thuật toán có thể áp dụng ứng dụng cho các lĩnh vực khác như tin sinh học. Mô hình được đặt tên theo tên các máy Pachinko—một trò chơi phổ biến ở Nhật Bản, trong đó các quả bóng kim loại dội xuống xung quanh một tập các chốt (ghim) phức tạp cho đến khi rơi trong các thùng khác nhau ở phía dưới.^[3]

Lịch sử

Wei Li và Andrew McCallum là hai người đầu tiên giới thiệu phân bổ Pachiko vào năm 2006.^[3] Ý tưởng đó được mở rộng với việc phân bổ Pachinko theo phân cấp bởi Li, McCallum, và David Mimno vào năm 2007.^[4] Cùng năm, McCallum và các cộng sự đề xuất một Bayes "trước" phi tham số dành cho PAM dựa trên một biến thể của quy trình Dirichlet phân cấp (HDP).^[2] Thuật toán đã được triển khai ở gói phần mềm dự án Mallet được xuất bản bởi nhóm McCallum ở Đại học Massachusetts Amherst.

Mô hình

PAM kết nối các từ ở tập V và các chủ đề ở tập T với một đồ thị xoay chiều có hướng (DAG) bất kỳ, với các nút chủ đề phân cấp và các lá là các từ vựng.

Xác suất sinh ra toàn bộ ngữ liệu là tích số của các xác suất đối với mỗi tài liệu^[3]:

$P(\mathbf {D} |\alpha )=\prod _{d}P(d|\alpha )$

Xem thêm

Lập chỉ mục ngữ nghĩa tiềm ẩn xác suất (probabilistic latent semantic indexing) (PLSI), một mô hình chủ đề ban đầu của Thomas Hofmann vào năm 1999.^[5]
Phân bổ Dirichlet tiềm ẩn, một tổng quát về PLSI được phát triển bởi David Blei, Andrew Ng, và Michael I. Jordan vào năm 2002, cho phép các tài liệu có chứa nhiều chủ đề.^[6]
Mallet (dự án phần mềm), một thư viện mã nguồn mở Java triển khai dành cho phân bổ Pachinko.

Tham khảo

^ Blei, David. “Topic modeling”. Bản gốc lưu trữ ngày 2 tháng 10 năm 2012. Truy cập ngày 4 tháng 10 năm 2012.
^ ^a ^b Li, Wei; Blei, David; McCallum, Andrew (2007). “Nonparametric Bayes Pachinko Allocation”. arXiv:1206.5270. Chú thích journal cần |journal= (trợ giúp)
^ ^a ^b ^c Li, Wei; McCallum, Andrew (2006). “Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations” (PDF). Proceedings of the 23rd International Conference on Machine Learning.
^ Mimno, David; Li, Wei; McCallum, Andrew (2007). “Mixtures of Hierarchical Topics with Pachinko Allocation” (PDF). Proceedings of the 24th International Conference on Machine Learning. Bản gốc (PDF) lưu trữ ngày 18 tháng 5 năm 2018. Truy cập ngày 22 tháng 2 năm 2021.
^ Hofmann, Thomas (1999). “Probabilistic Latent Semantic Indexing” (PDF). Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. Bản gốc (PDF) lưu trữ ngày 14 tháng 12 năm 2010.
^ Blei, David M.; Ng, Andrew Y.; Jordan, Michael I; Lafferty, John (tháng 1 năm 2003). “Latent Dirichlet allocation”. Journal of Machine Learning Research. 3: pp. 993–1022. Bản gốc lưu trữ ngày 1 tháng 5 năm 2012. Truy cập ngày 19 tháng 7 năm 2010.

Liên kết ngoài

Mixtures of Hierarchical Topics with Pachinko Allocation, a video recording of David Mimno presenting HPAM in 2007.

Bài viết này vẫn còn sơ khai. Bạn có thể giúp Wikipedia mở rộng nội dung để bài được hoàn chỉnh hơn.

[1] Blei, David. “Topic modeling”. Bản gốc lưu trữ ngày 2 tháng 10 năm 2012. Truy cập ngày 4 tháng 10 năm 2012.

[mccallum07-2] Li, Wei; Blei, David; McCallum, Andrew (2007). “Nonparametric Bayes Pachinko Allocation”. arXiv:1206.5270. Chú thích journal cần |journal= (trợ giúp)

[li2006-3] Li, Wei; McCallum, Andrew (2006). “Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations” (PDF). Proceedings of the 23rd International Conference on Machine Learning.

[mimno2007-4] Mimno, David; Li, Wei; McCallum, Andrew (2007). “Mixtures of Hierarchical Topics with Pachinko Allocation” (PDF). Proceedings of the 24th International Conference on Machine Learning. Bản gốc (PDF) lưu trữ ngày 18 tháng 5 năm 2018. Truy cập ngày 22 tháng 2 năm 2021.

[hofmann1999-5] Hofmann, Thomas (1999). “Probabilistic Latent Semantic Indexing” (PDF). Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. Bản gốc (PDF) lưu trữ ngày 14 tháng 12 năm 2010.

[blei2003-6] Blei, David M.; Ng, Andrew Y.; Jordan, Michael I; Lafferty, John (tháng 1 năm 2003). “Latent Dirichlet allocation”. Journal of Machine Learning Research. 3: pp. 993–1022. Bản gốc lưu trữ ngày 1 tháng 5 năm 2012. Truy cập ngày 19 tháng 7 năm 2010.

[1]

[2]

[3]

[4]

[5]

[6]

x t s Xử lý ngôn ngữ tự nhiên
Thuật ngữ chung	Hiểu ngôn ngữ tự nhiên Ngữ liệu văn bản Ngữ liệu tiếng nói Từ dừng Mô hình túi từ AI-đầy đủ N-gram (Bigram, Trigram)
Khai thác văn bản	Phân đoạn văn bản Gán nhãn từ loại Phân tích cú pháp sơ bộ Compound-term processing Collocation extraction Stemming Lemmatisation Nhận dạng thực thể có tên Coreference Phân tích tình cảm Khai phá khái niệm Phân tích cú pháp Nhập nhằng Ontology learning Trích xuất thuật ngữ Textual entailment Truecasing
Tóm tắt tự động	Tóm tắt đa văn bản Trích xuất câu Đơn giản hóa văn bản
Dịch tự động	Computer-assisted translation Example-based machine translation Rule-based machine translation Dịch máy bằng nơ-ron
Nhận dạng tự động và thu thập dữ liệu	Nhận dạng tiếng nói Tổng hợp giọng nói Nhận dạng ký tự quang học Sinh ngôn ngữ tự nhiên
Mô hình ngữ nghĩa phân phối	BERT Document-term matrix Explicit semantic analysis fastText GloVe Mô hình ngôn ngữ (lớn) Phân tích ngữ nghĩa tiềm ẩn Seq2seq Vectơ từ Word2vec
Mô hình chủ đề	Phân bổ Pachinko Phân bổ Dirichlet tiềm ẩn Phân tích ngữ nghĩa tiềm ẩn
Xem xét với sự trợ giúp máy tính	Automated essay scoring Concordancer Sửa lỗi chính tả Predictive text Spell checker Syntax guessing
Giao diện người dùng ngôn ngữ tự nhiên	Trợ lý ảo Chatbot Interactive fiction Question answering Giao diện giọng nói người dùng