خودرمزگذار متغیر
این مقاله نیازمند ویکیسازی است. لطفاً با توجه به راهنمای ویرایش و شیوهنامه، محتوای آن را بهبود بخشید. |
این مقاله نیازمند تمیزکاری است. لطفاً تا جای امکان آنرا از نظر املا، انشا، چیدمان و درستی بهتر کنید، سپس این برچسب را بردارید. محتویات این مقاله ممکن است غیر قابل اعتماد و نادرست یا جانبدارانه باشد یا قوانین حقوق پدیدآورندگان را نقض کرده باشد. |
یادگیری ماشین و دادهکاوی |
---|
در یادگیری ماشینی،خودرمزگذار متغیر (به انگلیسی: Variational autoencoder)، یک نوع شبکه عصبی مصنوعی است که متعلق به خانوادههای روشهای بیزی متغیر (به انگلیسی: Variational Bayesian methods) و مدل گرافیکی (به انگلیسی: Graphical model) است.[۱] خودرمزگذارهای متغیر علیرغم شباهت اسمی و ساختاری به خودرمزگذارها تفاوتهای فراوانی در هدف و فرمولبندی ریاضی دارند. هر دو مدل از دو بخش رمزگذار و رمزگشا تشکیل شدهاند، در هر دو مدل بخش رمزگذار سعی میکند دادهها را به یک فضای نهفته (به انگلیسی: Latent space) نگاشت کنند که دادهها در این فضا توسط متغیر پنهان توصیف میشوند. بخش رمزگشا سعی میکند دادهها را از فضای نهفته به فضای ورودی نگاشت کند از خودرمزگذار عادی برای کاهش ابعاد، کاهش نویز استفاده میشود. نحوهٔ عملکرد خودرمزگذار متغیر نیز همانند خودرمزگذار عادی است اما سعی میکنیم با استفاده از یک دانش پیشین (به انگلیسی: A priori) شروطی روی فضای نهفتهٔ تولید شده توسط رمزگذار قرار دهیم تا نقاط نزدیک(به انگلیسی: Probability distribution) هم در فضا دادههایی نزدیک به هم در فضای ورودی تولید کنند. در این روش رمزگذار میتواند چندین دادهٔ جدید از هر ورودی تولید کندک که همه از یک توزیع آماری نمونهبرداری شدهاند.[۲][۳]
با اینکه این مدل در ابتدا برای یادگیری خودران (خودسازمانده) طراحی شده بود،[۴][۵] به دلیل اثربخشی بالا عملکرد خود را در یادگیری نیمهنظارتی و یادگیری با نظارت اثبات کردهاست.[۶][۷][۸]
معماری
[ویرایش]یک خودرمزگذار متغیر از دو شبکهٔ عصبی مصنوعی به نامهای رمزگذار (به انگلیسی: Encoder) و رمزگشا (به انگلیسی: Decoder) طراحی شدهاست. شبکهٔ اول دادهها را به صورت خام میگیرد و پارامترهای توصیف کنندهٔ ورودی داده شده را به عنوان خروجی بخش اول تولید میکند. رمزگذار بخش دوم این مدل است که یک تابع است. وظیفهی رمزگذار نگاشت دادهها از فضای نهان به فضای ورودی است; این کار با استفاده از تخمین پارامترهای میانگین و واریانس یک توزیع نویز (به انگلیسی: Noise distribution) و سپس نمونهگرفتن از آن انجام میشود.
برای بهینهسازی و آموزش این مدل نیاز به تعریف دو عبارت داریم: "خطای بازسازی" و واگرایی کولبک-لیبلر. تابع ضرر (به انگلیسی: Loss function) مشتقپذیر نهایی ما ترکیبی از این دو عبارت خواهد بود. واگرایی کولبک-لیبلر سعی در مشابه کردن توزیع پیشین فضای نهان که یک توزیع نرمال چند متغیره با میانگین صفر و ماتریس کوواریانس همانی فرض گرفته میشود با توزیع تخمینیای که از بخش رمزنگار مدل ما بدست میآید دارد. عبارت خطای بازسازی وظیفه یکسان کردن خروجی مدل با ورودی داده شده را در بردارد.
فرمولبندی
[ویرایش]از نگاه مدلسازی آماری، مدل سعی در بیشینه کردن احتمال دیدن داده با انتخاب پارامترهای یک توزیع آماری را دارد. توزیع گفته شده معمولا به دلیل سادگی نمونهگیری و بهینهکردن در تابع ضرر یک توزیع نرمال قرار داده میشود که توسط میو و سیگما پارامترسازی میشود.
زمانی که یک توزیع پیشین بر روی فضای نهفته فرض میشود، محاسبه و بیشینه کردن احتمال رخداد داده منجر به یک انتگرال غیر قابل حل (به انگلیسی: Intractable integral) میشود. میتوانیم را با استفاده از توزیع حاشیهای از طریق رابطهی مقابل دست آوریم
در مدل ابتدایی خودرمزگذار متغیر، معمولا به صورت یک بردار در فضای متناهی اعداد حقیقی تعریف میشود و همانطور که بالاتر نیز به آن اشاره شد یک توزیع نرمال گرفته میشود. فرضهای گفته شده باعث میشود ترکیبی از توزیعهای گاوسی باشد.
متاسفانه محاسبهی بسیار هزینهبر و اکثر اوقات غیرممکن است. برای محاسبهی توزیع دادهها نیاز است توزیع پسین را با استفاده از یک تابع تخمین بزنیم
با سادهسازی بالا مشکل بدست آوردن توزیع داده تبدیل به طراحی یک خودرمزگذار متغیر میشود به صورتی که توزیع توسط رمزگشا محاسبه میشود و تخمین توزیع پسین که بالاتر آن را به صورت تعریف کردیم، توسط رمزنگار محاسبه میشود.
کاربردها
[ویرایش]- تولید تصاویر جدید
- تولید دادههای جدید برای دامنههای پزشکی که با مشکل کمبود عکس مواجه هستند بسیار کاربردی است.
- طراحی چهرههای جدید برای انسانها و حیوانات
- طراحان بازیهای کامپیوتری میتوانند با الگو گرفتن از این تصاویر چهرههای جدیدی طراحی کنند.
- ترجمهی عکس به عکس
- عکاسان میتوانند با صرفهجویی در زمان و هزینه تصاویر گرفته شدهی خود را به عنوان مثال از روز به شب تبدیل کنند.
- پیشبینی ویدئو و طراحی ادامهی آن
- تبدیل متن به عکس
جستارهای وابسته
[ویرایش]منابع
[ویرایش]- ↑ Pinheiro Cinelli, Lucas; et al. (2021). "Variational Autoencoder". Variational Methods for Machine Learning with Applications to Deep Networks. Springer. pp. 111–149. doi:10.1007/978-3-030-70679-1_5. ISBN 978-3-030-70681-4. S2CID 240802776.
- ↑ Dilokthanakul, Nat; Mediano, Pedro A. M.; Garnelo, Marta; Lee, Matthew C. H.; Salimbeni, Hugh; Arulkumaran, Kai; Shanahan, Murray (2017-01-13). "Deep Unsupervised Clustering with Gaussian Mixture Variational Autoencoders". arXiv:1611.02648 [cs.LG].
- ↑ Hsu, Wei-Ning; Zhang, Yu; Glass, James (December 2017). "Unsupervised domain adaptation for robust speech recognition via variational autoencoder-based data augmentation". 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). pp. 16–23. arXiv:1707.06265. doi:10.1109/ASRU.2017.8268911. ISBN 978-1-5090-4788-8. S2CID 22681625.
- ↑ Dilokthanakul, Nat; Mediano, Pedro A. M.; Garnelo, Marta; Lee, Matthew C. H.; Salimbeni, Hugh; Arulkumaran, Kai; Shanahan, Murray (2017-01-13). "Deep Unsupervised Clustering with Gaussian Mixture Variational Autoencoders". arXiv:1611.02648 [cs.LG].
- ↑ Hsu, Wei-Ning; Zhang, Yu; Glass, James (December 2017). "Unsupervised domain adaptation for robust speech recognition via variational autoencoder-based data augmentation". 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). pp. 16–23. arXiv:1707.06265. doi:10.1109/ASRU.2017.8268911. ISBN 978-1-5090-4788-8. S2CID 22681625.
- ↑ Ehsan Abbasnejad, M.; Dick, Anthony; van den Hengel, Anton (2017). Infinite Variational Autoencoder for Semi-Supervised Learning. pp. 5888–5897.
- ↑ Xu, Weidi; Sun, Haoze; Deng, Chao; Tan, Ying (2017-02-12). "Variational Autoencoder for Semi-Supervised Text Classification". Proceedings of the AAAI Conference on Artificial Intelligence (به انگلیسی). 31 (1). doi:10.1609/aaai.v31i1.10966. S2CID 2060721.
- ↑ Kameoka, Hirokazu; Li, Li; Inoue, Shota; Makino, Shoji (2019-09-01). "Supervised Determined Source Separation with Multichannel Variational Autoencoder". Neural Computation. 31 (9): 1891–1914. doi:10.1162/neco_a_01217. PMID 31335290. S2CID 198168155.