ข้ามไปเนื้อหา

LLaMA

จากวิกิพีเดีย สารานุกรมเสรี
LLaMA
นักพัฒนาMeta AI
วันที่เปิดตัว24 กุมภาพันธ์ 2023; 21 เดือนก่อน (2023-02-24)
รุ่นเสถียร
3.2 / 25 กันยายน 2024; 3 เดือนก่อน (2024-09-25)
ที่เก็บข้อมูลgithub.com/meta-llama/llama-models
ภาษาที่เขียนภาษาไพธอน
ประเภท
สัญญาอนุญาตMeta Llama 3.2 Community License[1]
เว็บไซต์llama.com

LLaMA (ย่อมาจาก Large Language Model Meta AI) เป็นแบบจำลองภาษาขนาดใหญ่ที่เผยแพร่โดย Meta AI ในเดือนกุมภาพันธ์ 2023[2]

ตามรายงานของนักพัฒนา LLaMA[3] มีการสร้างแบบจำลองไว้หลายขนาด โดยจำนวนพารามิเตอร์มีตั้งแต่ 7 พันล้านพารามิเตอร์ (ตามแบบแผนอุตสาหกรรม บางครั้งเขียนเป็น "7B" โดยใช้ B ใน Billion) ถึง 65 พันล้านพารามิเตอร์ (65B) LLaMA-13B มีประสิทธิภาพเหนือกว่า GPT-3-175B ในการวัดประสิทธิภาพการประมวลภาษาธรรมชาติส่วนใหญ่ และประสิทธิภาพของ LLaMA-65B ก็เทียบได้กับรุ่นล้ำสมัย เช่น PaLM-540B ของกูเกิล และ Chinchilla ของดีปไมด์

สถาปัตยกรรมและการเรียนรู้

[แก้]

LLaMA ใช้สถาปัตยกรรมทรานส์ฟอร์เมอร์ ซึ่งเป็นสถาปัตยกรรมมาตรฐานสำหรับการสร้างแบบจำลองภาษามาตั้งแต่ปี 2018

นักพัฒนาของ LLaMA มุ่งเน้นไปที่การเพิ่มประสิทธิภาพของตัวแบบจำลองโดยการเพิ่มจำนวนข้อมูลการฝึกมากกว่าจำนวนพารามิเตอร์ เนื่องจากต้นทุนของการอนุมานโดยใช้แบบจำลองที่ได้รับการฝึกมีความสำคัญมากกว่าต้นทุนการคำนวณของกระบวนการฝึกแบบจำลอง

LLaMA ได้รับการฝึกแบบจำลองโดยใช้โทเค็น 1.4 ล้านล้านที่ดึงมาจากแหล่งข้อมูลสาธารณะจำนวนมาก ได้แก่:

การเผยแพร่และการรั่วไหล

[แก้]

LLaMA ได้รับการประกาศเมื่อวันที่ 23 กุมภาพันธ์ 2023 ผ่านทางบล็อกโพสต์และหนังสือพิมพ์

รหัสที่ใช้ในการฝึกตัวแบบจำลองได้รับการเผยแพร่ภายใต้ใบอนุญาตโอเพนซอร์ส GPLv3[4]

ก่อนหน้านั้น แบบจำลองภาษาขนาดใหญ่ที่มีประสิทธิภาพส่วนใหญ่สามารถเข้าถึงได้ผ่าน API ที่จำกัดเท่านั้น ทางเมตาได้จัดการค่าพารามิเตอร์น้ำหนักที่เรียนรู้จากแบบจำลองของ LLaMA ภายในและเผยแพร่เป็นกรณี ๆ ไปสำหรับนักวิจัยเชิงวิชาการ หน่วยงานภาครัฐ ภาคประชาสังคม และสถาบันการศึกษา และห้องปฏิบัติการอุตสาหกรรมทั่วโลก ด้วยเหตุนี้ เราจึงตัดสินใจอนุญาตให้ใช้เท่านั้น สู่ชุมชนการวิจัยภายใต้ใบอนุญาตที่ไม่ใช่เชิงพาณิชย์

อย่างไรก็ตาม ในวันที่ 2 มีนาคม 2023 หนึ่งสัปดาห์หลังจากปล่อย LLaMA ค่าพารามิเตอร์น้ำหนักก็ได้รั่วไหลและแพร่กระจายผ่าน 4chan[5]

การประยุกต์ใช้

[แก้]

Alpaca

[แก้]

ศูนย์วิจัยแบบจำลองพื้นฐาน (CRFM) แห่ง มหาวิทยาลัยสแตนฟอร์ด ได้เปิดตัว Alpaca ซึ่ง เป็น LLaMA-7B ที่ผ่านการปรับละเอียด[6] Alpaca มีประสิทธิภาพเทียบเท่ากับรุ่น text-davinci-003 ของซีรีส์ OpenAI GPT-3.5[7]

Llama-3-ELYZA-JP

[แก้]

ELYZA (สำนักงานใหญ่: เขตบุงเกียว โตเกียว) ได้พัฒนา LLM "Llama-3-ELYZA-JP" (8B และ 70B) พร้อมประสิทธิภาพภาษาญี่ปุ่นที่ได้รับการปรับปรุงโดยอิงจากซีรีส์ "Llama 3" ของเมตา[8]

อ้างอิง

[แก้]
  1. "llama-models/models/llama3_2/LICENSE at main · meta-llama/llama-models · GitHub". GitHub (ภาษาอังกฤษ). เก็บจากแหล่งเดิมเมื่อ 2024-09-29. สืบค้นเมื่อ 2024-10-20.
  2. Touvron, Hugo; Lavril, Thibaut. "LLaMA: Open and Efficient Foundation Language Models". arXiv:2302.13971 [cs.CL3].
  3. "Introducing LLaMA: A foundational, 65-billion-parameter large language model". Meta AI. 24 February 2023. สืบค้นเมื่อ 2023-04-01.
  4. llama on GitHub
  5. Vincent, James (8 March 2023). "Meta's powerful AI language model has leaked online — what happens now?". The Verge. สืบค้นเมื่อ 2023-04-01.
  6. stanford alpaca on GitHub
  7. Yizhong Wang; Yeganeh Kordi; Swaroop Mishra; Alisa Liu; Noah A. Smith; Daniel Khashabi; Hannaneh Hajishirzi (20 ธันวาคม 2022), "Self-Instruct: Aligning Language Model with Self Generated Instructions", ArXiv, arXiv:2212.10560Wikidata Q117202254
  8. "「GPT-4」を上回る日本語性能のLLM「Llama-3-ELYZA-JP」を開発しました". ELYZA. 2024-06-26. สืบค้นเมื่อ 2024-06-29.