Meta AI 的 LLaMA 簡介

Building a Data-Driven World at Japan Data Forum
Post Reply
urrifat77
Posts: 34
Joined: Tue Dec 03, 2024 9:21 am

Meta AI 的 LLaMA 簡介

Post by urrifat77 »

我們生活在一個非凡的時代,由專門社區推動的開源專案可以與大公司昂貴的專有解決方案的能力相媲美。在這些顯著的進步中,我們發現了更小但更有效率的語言模型,例如 Vicuna、Koala、Alpaca 和 StableLM,它們需要最少的計算資源,同時提供與 ChatGPT 相當的結果。將它們聯繫在一起的是它們的基礎是 Meta AI 的 LLaMA 模型。

閱讀12 個 GPT-4 開源替代方案,以了解語言技術中 波斯尼亞和黑塞哥維那電話號碼列表 其他流行的開源開發。

在這篇文章中,我們將了解 Meta AI 的 LLaMA 模型,探索其功能,透過 Transformer 庫存取它們,比較它們的性能,並討論挑戰和限制。自從本文最初撰寫以來,我們已經看到了LLaMA 2和LLaMA 3 的發布,您可以在我們單獨的文章中找到有關每個版本的更多詳細資訊。

什麼是 LLaMA?
LLaMA(大型語言模型元 AI)是最先進的基礎語言模型的集合,參數範圍從 7B 到 65B。這些模型尺寸更小,同時提供卓越的效能,顯著降低了實驗新方法、驗證其他人的工作以及探索創新用例所需的運算能力和資源。

基礎模型是在大型未標記資料集上進行訓練的,這使得它們非常適合對各種任務進行微調。該模型是根據以下來源進行訓練的:

67.0% 普通爬行
15.0% C4
4.5% GitHub
4.5% 維基百科
4.5% 書籍
2.5% ArXiv
2.0% 堆疊交換
各種各樣的資料集使模型能夠實現與頂級模型(即 Chinchilla-70B 和 PaLM-540B)相媲美的最先進的性能。

透過閱讀:什麼是 GPT-4 以及它為何重要?

Meta 的 LLaMA 如何運作?
LLaMA 是一種自回歸語言模型,建立在 Transformer 架構之上。與其他著名的語言模型一樣,LLaMA 的功能是將一系列單字作為輸入並預測下一個單詞,從而遞歸地生成文字。

LLaMA 的與眾不同之處在於它對公開的廣泛文字資料進行訓練,這些資料涵蓋多種語言,例如保加利亞語、加泰隆尼亞語、捷克語、丹麥語、德語、英語、西班牙語、法語、克羅埃西亞語、匈牙利語、義大利語、荷蘭語、波蘭語、葡萄牙語、羅馬尼亞語、俄語、斯洛維尼亞語、塞爾維亞語、瑞典語和烏克蘭語。截至 2024 年,LLaMA 2 已推出,其特點是改進了架構和訓練方法,進一步增強了其多語言能力和效率。

LLaMA 模型有多種尺寸可供選擇:7B、13B、33B 和 65B 參數,您可以在Hugging Face(已轉換為與 Transformers 配合使用的 LLaMA 模型)或官方儲存庫facebookresearch/llama上存取它們。

LLaMA 模型入門
官方推理程式碼可在facebookresearch/llama儲存庫中找到,但為了簡單起見,我們將使用 Hugging Face `transformers` 庫模組LLaMA來載入模型並產生文字。

1. 安裝運行該模組所需的所有 Python 程式庫。

注意:我們使用 Google Colab 來運行 LLaMA 推理。

Image

%%capture
%pip install transformers SentencePiece accelerate
供電
2. 載入LLaMA代幣和模型權重。

注意: “decapoda-research/llama-7b-hf”不是官方模型重量。 Decapoda Research 已將原始模型權重轉換為可與 Transformer 搭配使用。


import transformers, torch
from transformers import LlamaTokenizer, LlamaForCausalLM, GenerationConfig

tokenizer = LlamaTokenizer.from_pretrained("decapoda-research/llama-7b-hf")
Post Reply