LLaMA
นักพัฒนา | Meta AI |
---|---|
วันที่เปิดตัว | 24 กุมภาพันธ์ 2023 |
รุ่นเสถียร | 3.2
/ 25 กันยายน 2024 |
ที่เก็บข้อมูล | github |
ภาษาที่เขียน | ภาษาไพธอน |
ประเภท | |
สัญญาอนุญาต | Meta Llama 3.2 Community License[1] |
เว็บไซต์ | llama.com |
LLaMA (ย่อมาจาก Large Language Model Meta AI) เป็นแบบจำลองภาษาขนาดใหญ่ที่เผยแพร่โดย Meta AI ในเดือนกุมภาพันธ์ 2023[2]
ตามรายงานของนักพัฒนา LLaMA[3] มีการสร้างแบบจำลองไว้หลายขนาด โดยจำนวนพารามิเตอร์มีตั้งแต่ 7 พันล้านพารามิเตอร์ (ตามแบบแผนอุตสาหกรรม บางครั้งเขียนเป็น "7B" โดยใช้ B ใน Billion) ถึง 65 พันล้านพารามิเตอร์ (65B) LLaMA-13B มีประสิทธิภาพเหนือกว่า GPT-3-175B ในการวัดประสิทธิภาพการประมวลภาษาธรรมชาติส่วนใหญ่ และประสิทธิภาพของ LLaMA-65B ก็เทียบได้กับรุ่นล้ำสมัย เช่น PaLM-540B ของกูเกิล และ Chinchilla ของดีปไมด์
สถาปัตยกรรมและการเรียนรู้
[แก้]LLaMA ใช้สถาปัตยกรรมทรานส์ฟอร์เมอร์ ซึ่งเป็นสถาปัตยกรรมมาตรฐานสำหรับการสร้างแบบจำลองภาษามาตั้งแต่ปี 2018
นักพัฒนาของ LLaMA มุ่งเน้นไปที่การเพิ่มประสิทธิภาพของตัวแบบจำลองโดยการเพิ่มจำนวนข้อมูลการฝึกมากกว่าจำนวนพารามิเตอร์ เนื่องจากต้นทุนของการอนุมานโดยใช้แบบจำลองที่ได้รับการฝึกมีความสำคัญมากกว่าต้นทุนการคำนวณของกระบวนการฝึกแบบจำลอง
LLaMA ได้รับการฝึกแบบจำลองโดยใช้โทเค็น 1.4 ล้านล้านที่ดึงมาจากแหล่งข้อมูลสาธารณะจำนวนมาก ได้แก่:
- หน้าเว็บที่ถูกรวบรวมมาด้วยด้วยคอมมอนครอวล์
- พื้นที่เก็บข้อมูลโอเพ่นซอร์ส GitHub
- วิกิพีเดีย (20 ภาษา)
- หนังสือที่เป็นสาธารณสมบัติของโครงการกูเทินแบร์ค
- รหัสต้นทาง LaTeX ของเอกสารทางวิทยาศาสตร์ที่อัปโหลดไปยัง ArXiv
- คำถามและคำตอบบนเว็บไซต์ Stack Exchange
การเผยแพร่และการรั่วไหล
[แก้]LLaMA ได้รับการประกาศเมื่อวันที่ 23 กุมภาพันธ์ 2023 ผ่านทางบล็อกโพสต์และหนังสือพิมพ์
รหัสที่ใช้ในการฝึกตัวแบบจำลองได้รับการเผยแพร่ภายใต้ใบอนุญาตโอเพนซอร์ส GPLv3[4]
ก่อนหน้านั้น แบบจำลองภาษาขนาดใหญ่ที่มีประสิทธิภาพส่วนใหญ่สามารถเข้าถึงได้ผ่าน API ที่จำกัดเท่านั้น ทางเมตาได้จัดการค่าพารามิเตอร์น้ำหนักที่เรียนรู้จากแบบจำลองของ LLaMA ภายในและเผยแพร่เป็นกรณี ๆ ไปสำหรับนักวิจัยเชิงวิชาการ หน่วยงานภาครัฐ ภาคประชาสังคม และสถาบันการศึกษา และห้องปฏิบัติการอุตสาหกรรมทั่วโลก ด้วยเหตุนี้ เราจึงตัดสินใจอนุญาตให้ใช้เท่านั้น สู่ชุมชนการวิจัยภายใต้ใบอนุญาตที่ไม่ใช่เชิงพาณิชย์
อย่างไรก็ตาม ในวันที่ 2 มีนาคม 2023 หนึ่งสัปดาห์หลังจากปล่อย LLaMA ค่าพารามิเตอร์น้ำหนักก็ได้รั่วไหลและแพร่กระจายผ่าน 4chan[5]
การประยุกต์ใช้
[แก้]Alpaca
[แก้]ศูนย์วิจัยแบบจำลองพื้นฐาน (CRFM) แห่ง มหาวิทยาลัยสแตนฟอร์ด ได้เปิดตัว Alpaca ซึ่ง เป็น LLaMA-7B ที่ผ่านการปรับละเอียด[6] Alpaca มีประสิทธิภาพเทียบเท่ากับรุ่น text-davinci-003 ของซีรีส์ OpenAI GPT-3.5[7]
Llama-3-ELYZA-JP
[แก้]ELYZA (สำนักงานใหญ่: เขตบุงเกียว โตเกียว) ได้พัฒนา LLM "Llama-3-ELYZA-JP" (8B และ 70B) พร้อมประสิทธิภาพภาษาญี่ปุ่นที่ได้รับการปรับปรุงโดยอิงจากซีรีส์ "Llama 3" ของเมตา[8]
อ้างอิง
[แก้]- ↑ "llama-models/models/llama3_2/LICENSE at main · meta-llama/llama-models · GitHub". GitHub (ภาษาอังกฤษ). เก็บจากแหล่งเดิมเมื่อ 2024-09-29. สืบค้นเมื่อ 2024-10-20.
- ↑ Touvron, Hugo; Lavril, Thibaut. "LLaMA: Open and Efficient Foundation Language Models". arXiv:2302.13971 [cs.CL3].
- ↑ "Introducing LLaMA: A foundational, 65-billion-parameter large language model". Meta AI. 24 February 2023. สืบค้นเมื่อ 2023-04-01.
- ↑ llama on GitHub
- ↑ Vincent, James (8 March 2023). "Meta's powerful AI language model has leaked online — what happens now?". The Verge. สืบค้นเมื่อ 2023-04-01.
- ↑ stanford alpaca on GitHub
- ↑ Yizhong Wang; Yeganeh Kordi; Swaroop Mishra; Alisa Liu; Noah A. Smith; Daniel Khashabi; Hannaneh Hajishirzi (20 ธันวาคม 2022), "Self-Instruct: Aligning Language Model with Self Generated Instructions", ArXiv, arXiv:2212.10560, Wikidata Q117202254
- ↑ "「GPT-4」を上回る日本語性能のLLM「Llama-3-ELYZA-JP」を開発しました". ELYZA. 2024-06-26. สืบค้นเมื่อ 2024-06-29.