Phân bổ Pachinko
Trong học máy và xử lý ngôn ngữ tự nhiên, mô hình phân bổ Pachinko (tiếng Anh: pachinko allocation model, viết tắt là PAM) là một mô hình chủ đề. Các mô hình chủ đề là một bộ thuật toán khám phá cấu trúc chủ đề (chuyên đề) ẩn của một tập tài liệu.[1] Thuật toán cải tiến dựa trên các mô hình chủ đề trước kia như phân bổ Dirichlet tiềm ẩn (LDA) bằng cách mô hình hóa sự tương quan giữa các chủ đề, bên cạnh các mối tương quan giữa các từ cấu thành nên các chủ đề đó. PAM cung cấp khả năng linh hoạt hơn và biểu đạt tốt hơn so với phân bổ Dirichlet tiềm ẩn.[2] Mặc dù đầu tiên được mô tả và triển khai trong lĩnh vực xử lý ngôn ngữ tự nhiên, thuật toán có thể áp dụng ứng dụng cho các lĩnh vực khác như tin sinh học. Mô hình được đặt tên theo tên các máy Pachinko—một trò chơi phổ biến ở Nhật Bản, trong đó các quả bóng kim loại dội xuống xung quanh một tập các chốt (ghim) phức tạp cho đến khi rơi trong các thùng khác nhau ở phía dưới.[3]
Lịch sử
[sửa | sửa mã nguồn]Wei Li và Andrew McCallum là hai người đầu tiên giới thiệu phân bổ Pachiko vào năm 2006.[3] Ý tưởng đó được mở rộng với việc phân bổ Pachinko theo phân cấp bởi Li, McCallum, và David Mimno vào năm 2007.[4] Cùng năm, McCallum và các cộng sự đề xuất một Bayes "trước" phi tham số dành cho PAM dựa trên một biến thể của quy trình Dirichlet phân cấp (HDP).[2] Thuật toán đã được triển khai ở gói phần mềm dự án Mallet được xuất bản bởi nhóm McCallum ở Đại học Massachusetts Amherst.
Mô hình
[sửa | sửa mã nguồn]PAM kết nối các từ ở tập V và các chủ đề ở tập T với một đồ thị xoay chiều có hướng (DAG) bất kỳ, với các nút chủ đề phân cấp và các lá là các từ vựng.
Xác suất sinh ra toàn bộ ngữ liệu là tích số của các xác suất đối với mỗi tài liệu[3]:
Xem thêm
[sửa | sửa mã nguồn]- Lập chỉ mục ngữ nghĩa tiềm ẩn xác suất (probabilistic latent semantic indexing) (PLSI), một mô hình chủ đề ban đầu của Thomas Hofmann vào năm 1999.[5]
- Phân bổ Dirichlet tiềm ẩn, một tổng quát về PLSI được phát triển bởi David Blei, Andrew Ng, và Michael I. Jordan vào năm 2002, cho phép các tài liệu có chứa nhiều chủ đề.[6]
- Mallet (dự án phần mềm), một thư viện mã nguồn mở Java triển khai dành cho phân bổ Pachinko.
Tham khảo
[sửa | sửa mã nguồn]- ^ Blei, David. “Topic modeling”. Bản gốc lưu trữ ngày 2 tháng 10 năm 2012. Truy cập ngày 4 tháng 10 năm 2012.
- ^ a b Li, Wei; Blei, David; McCallum, Andrew (2007). “Nonparametric Bayes Pachinko Allocation”. arXiv:1206.5270. Chú thích journal cần
|journal=
(trợ giúp) - ^ a b c Li, Wei; McCallum, Andrew (2006). “Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations” (PDF). Proceedings of the 23rd International Conference on Machine Learning.
- ^ Mimno, David; Li, Wei; McCallum, Andrew (2007). “Mixtures of Hierarchical Topics with Pachinko Allocation” (PDF). Proceedings of the 24th International Conference on Machine Learning. Bản gốc (PDF) lưu trữ ngày 18 tháng 5 năm 2018. Truy cập ngày 22 tháng 2 năm 2021.
- ^ Hofmann, Thomas (1999). “Probabilistic Latent Semantic Indexing” (PDF). Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. Bản gốc (PDF) lưu trữ ngày 14 tháng 12 năm 2010.
- ^ Blei, David M.; Ng, Andrew Y.; Jordan, Michael I; Lafferty, John (tháng 1 năm 2003). “Latent Dirichlet allocation”. Journal of Machine Learning Research. 3: pp. 993–1022. Bản gốc lưu trữ ngày 1 tháng 5 năm 2012. Truy cập ngày 19 tháng 7 năm 2010.
Liên kết ngoài
[sửa | sửa mã nguồn]- Mixtures of Hierarchical Topics with Pachinko Allocation, a video recording of David Mimno presenting HPAM in 2007.