جیپیتی ۱
نویسنده(های) اصلی | اوپنایآی |
---|---|
انتشار اولیه | ژوئن ۲۰۱۸ |
مخزن | |
جایگزین شده با | جیپیتی ۲ |
نوع | |
مجوز | پروانه امآیتی[۱] |
یادگیری ماشین و دادهکاوی |
---|
ترنسفورمر تولیدگر از پیش آموزشدیده ۱ (به انگلیسی: Generative Pre-trained Transformer 1) یا به اختصار جیپیتی ۱ (به انگلیسی: GPT-1) اولین مدل زبانی بزرگ شرکت اوپنایآی پس از اختراع معماری ترنسفورمر توسط گوگل در سال ۲۰۱۷ بود.[۲] در ژوئن ۲۰۱۸، اوپنایآی مقالهای با عنوان «بهبود درک زبان توسط مولد از پیش آموزش دیده» منتشر کرد.[۳] که در آن مقاله مفهوم کلی ترنسفورمر تولیدگر از پیش آموزشدیده معرفی شد.
تا آن زمان، بهترین مدلهای NLP عصبی، عمدتاً از یادگیری نظارتشده استفاده میکردند که از مقادیر زیادی دادههای برچسبگذاری شده دستی به کار گرفته میشد. این اتکا به یادگیری نظارت شده، استفاده از مجموعه دادههایی که به خوبی دستهبندی نشده بودند، محدود میکرد، علاوه بر این، آموزش مدلهای بسیار بزرگ را بسیار پرهزینه و وقت گیر میکرد.[۳] ترجمه و تفسیر بسیاری از زبانها (مانند زبان سواحلی یا زبان کریول آییسینی) با استفاده از چنین مدلهایی به دلیل فقدان متن موجود برای ساخت مجموعه دشوار بود.[۴] در مقابل، رویکرد «نیمه نظارتشده» جیپیتی شامل دو مرحله بود: مرحله «پیشآموزشی» مولد بدون نظارت، که در آن از هدف مدلسازی زبان برای تنظیم پارامترهای اولیه استفاده میشد و مرحله «مدل تمایزی» تحت نظارت که در آن این موارد پارامترها با یک کار هدف تطبیق داده شدند.[۳]
استفاده از یک معماری ترنسفورمر، برخلاف تکنیکهای قبلی که شامل RNNهای افزایشیافته با توجه بود، به مدلهای جیپیتی حافظه ساختاریافتهتری نسبت به آنچه میتوان از طریق مکانیسمهای مکرر به دست آورد، ارائه کرد. این منجر به «عملکرد انتقال قوی در بین وظایف مختلف» شد.[۳]
معماری
[ویرایش]معماری جیپیتی ۱ یک ترنسفورمر رمزگشای دوازده لایه ای است که از دوازده سر خودتوجهی پوشانده شده، با حالتهای ۶۴ بعدی (در مجموع ۷۶۸) استفاده میکند. به جای استفاده از گرادیان کاهشی تصادفی، از الگوریتم بهینهسازی گرادیان کاهشی تصادفی استفاده شد. نرخ یادگیری به صورت خطی از صفر در طول ۲۰۰۰ به روز رسانی اول به حداکثر ۲٫۵×۱۰–۴ افزایش یافت و با استفاده از برنامه کسینوس به ۰ آنیل شد.[۳] جیپیتی ۱ دارای ۱۱۷ میلیون پارامتر است.[۵]
عملکرد و ارزیابی
[ویرایش]GPT-1 نسبت به بهترین نتایج قبلی به ۵٫۸٪ و ۱٫۵٪ بهبود دست یافت[۳]
منابع
[ویرایش]- مشارکتکنندگان ویکیپدیا. «GPT-1». در دانشنامهٔ ویکیپدیای انگلیسی، بازبینیشده در ۲۱ اکتبر ۲۰۲۴.
- ↑ "gpt-2". GitHub. Archived from the original on 11 March 2023. Retrieved 13 March 2023.
- ↑ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). "Attention is All you Need" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 30.
- ↑ ۳٫۰ ۳٫۱ ۳٫۲ ۳٫۳ ۳٫۴ ۳٫۵ خطای یادکرد: خطای یادکرد:برچسب
<ref>
غیرمجاز؛ متنی برای یادکردهای با نامgpt1paper
وارد نشده است. (صفحهٔ راهنما را مطالعه کنید.). - ↑ خطای یادکرد: خطای یادکرد:برچسب
<ref>
غیرمجاز؛ متنی برای یادکردهای با نامtsvetkov
وارد نشده است. (صفحهٔ راهنما را مطالعه کنید.). - ↑ "GPT-1 to GPT-4: Each of OpenAI's GPT Models Explained and Compared". 11 April 2023. Archived from the original on 2023-04-15. Retrieved 2023-04-29.