جی‌پی‌تی ۱

ترنسفورمر تولیدگر از پیش آموزش‌دیده ۱ (جی‌پی‌تی ۱)
نویسنده(های); اصلی	اوپن‌ای‌آی
انتشار اولیه	ژوئن ۲۰۱۸
مخزن	github.com/openai/finetune-transformer-lm ;
جایگزین شده با	جی‌پی‌تی ۲
نوع	مدل زبانی بزرگ; ترنسفورمر تولیدگر از پیش آموزش‌دیده;
مجوز	پروانه ام‌آی‌تی

ترنسفورمر تولیدگر از پیش آموزش‌دیده ۱ (به انگلیسی: Generative Pre-trained Transformer 1) یا به اختصار جی‌پی‌تی ۱ (به انگلیسی: GPT-1) اولین مدل زبانی بزرگ شرکت اوپن‌ای‌آی پس از اختراع معماری ترنسفورمر توسط گوگل در سال ۲۰۱۷ بود.^[۲] در ژوئن ۲۰۱۸، اوپن‌ای‌آی مقاله‌ای با عنوان «بهبود درک زبان توسط مولد از پیش آموزش دیده» منتشر کرد.^[۳] که در آن مقاله مفهوم کلی ترنسفورمر تولیدگر از پیش آموزش‌دیده معرفی شد.

تا آن زمان، بهترین مدل‌های NLP عصبی، عمدتاً از یادگیری نظارت‌شده استفاده می‌کردند که از مقادیر زیادی داده‌های برچسب‌گذاری شده دستی به کار گرفته می‌شد. این اتکا به یادگیری نظارت شده، استفاده از مجموعه داده‌هایی که به خوبی دسته‌بندی نشده بودند، محدود می‌کرد، علاوه بر این، آموزش مدل‌های بسیار بزرگ را بسیار پرهزینه و وقت گیر می‌کرد.^[۳] ترجمه و تفسیر بسیاری از زبان‌ها (مانند زبان سواحلی یا زبان کریول آییسینی) با استفاده از چنین مدل‌هایی به دلیل فقدان متن موجود برای ساخت مجموعه دشوار بود.^[۴] در مقابل، رویکرد «نیمه نظارت‌شده» جی‌پی‌تی شامل دو مرحله بود: مرحله «پیش‌آموزشی» مولد بدون نظارت، که در آن از هدف مدل‌سازی زبان برای تنظیم پارامترهای اولیه استفاده می‌شد و مرحله «مدل تمایزی» تحت نظارت که در آن این موارد پارامترها با یک کار هدف تطبیق داده شدند.^[۳]

استفاده از یک معماری ترنسفورمر، برخلاف تکنیک‌های قبلی که شامل RNNهای افزایش‌یافته با توجه بود، به مدل‌های جی‌پی‌تی حافظه ساختاریافته‌تری نسبت به آنچه می‌توان از طریق مکانیسم‌های مکرر به دست آورد، ارائه کرد. این منجر به «عملکرد انتقال قوی در بین وظایف مختلف» شد.^[۳]

معماری

معماری جی‌پی‌تی ۱ یک ترنسفورمر رمزگشای دوازده لایه ای است که از دوازده سر خودتوجهی پوشانده شده، با حالت‌های ۶۴ بعدی (در مجموع ۷۶۸) استفاده می‌کند. به جای استفاده از گرادیان کاهشی تصادفی، از الگوریتم بهینه‌سازی گرادیان کاهشی تصادفی استفاده شد. نرخ یادگیری به صورت خطی از صفر در طول ۲۰۰۰ به روز رسانی اول به حداکثر ۲٫۵×۱۰–۴ افزایش یافت و با استفاده از برنامه کسینوس به ۰ آنیل شد.^[۳] جی‌پی‌تی ۱ دارای ۱۱۷ میلیون پارامتر است.^[۵]

عملکرد و ارزیابی

GPT-1 نسبت به بهترین نتایج قبلی به ۵٫۸٪ و ۱٫۵٪ بهبود دست یافت^[۳]

منابع

مشارکت‌کنندگان ویکی‌پدیا. «GPT-1». در دانشنامهٔ ویکی‌پدیای انگلیسی، بازبینی‌شده در ۲۱ اکتبر ۲۰۲۴.

↑ "gpt-2". GitHub. Archived from the original on 11 March 2023. Retrieved 13 March 2023.
↑ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). "Attention is All you Need" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 30.
↑ ^۳٫۰ ^۳٫۱ ^۳٫۲ ^۳٫۳ ^۳٫۴ ^۳٫۵ خطای یادکرد: خطای یادکرد:برچسب <ref>‎ غیرمجاز؛ متنی برای یادکردهای با نام gpt1paper وارد نشده است. (صفحهٔ راهنما را مطالعه کنید.).
↑ خطای یادکرد: خطای یادکرد:برچسب <ref>‎ غیرمجاز؛ متنی برای یادکردهای با نام tsvetkov وارد نشده است. (صفحهٔ راهنما را مطالعه کنید.).
↑ "GPT-1 to GPT-4: Each of OpenAI's GPT Models Explained and Compared". 11 April 2023. Archived from the original on 2023-04-15. Retrieved 2023-04-29.

[1] "gpt-2". GitHub. Archived from the original on 11 March 2023. Retrieved 13 March 2023.

[:0-2] Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). "Attention is All you Need" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 30.

[gpt1paper-3] ۳٫۰ ^۳٫۱ ^۳٫۲ ^۳٫۳ ^۳٫۴ ^۳٫۵ خطای یادکرد: خطای یادکرد:برچسب <ref>‎ غیرمجاز؛ متنی برای یادکردهای با نام gpt1paper وارد نشده است. (صفحهٔ راهنما را مطالعه کنید.).

[tsvetkov-4] خطای یادکرد: خطای یادکرد:برچسب <ref>‎ غیرمجاز؛ متنی برای یادکردهای با نام tsvetkov وارد نشده است. (صفحهٔ راهنما را مطالعه کنید.).

[makeuseof-5] "GPT-1 to GPT-4: Each of OpenAI's GPT Models Explained and Compared". 11 April 2023. Archived from the original on 2023-04-15. Retrieved 2023-04-29.

[۱]

[۲]

[۳]

[۴]

[۵]