Pour bien démarrer avec les LLM
Pour bien comprendre de quoi on parle quand il est question d'Intelligence Artificielle Générative
et pour appréhender au mieux les LLM (Large Modèle de Langage), nous allons procéder en 3 étapes
que vous pouvez suivre sur
sur google colab, les commandes "système" sont précédées par un point d'exclamation.
- 1 Téléchargement d'un modèle de langage (dolphin)
- 2 Installation d'un moteur d'inférence (llama-cpp-python)
- 3 Interrogation du modèle de langage via le moteur d'inférence (Nomme les planètes du système solaire)
1 Téléchargement d'un modèle de langage (dolphin)
Commençons par créer un dossier "models"
mkdir ./models
Nous pouvons maintenant télécharger un modèle de langage.
Commençons avec un "petit" modèle de langage, Dolphin, basé sur Mistral dont on peut trouver la description sur HuggingFace https://huggingface.co/TheBloke/dolphin-2.2.1-mistral-7B-GGUF
Sur la page de téléchargement https://huggingface.co/TheBloke/dolphin-2.2.1-mistral-7B-GGUF/tree/main, il existe plusieurs versions Q2, Q3... qui correspondent à la "compression" ou quantization du modèle
On peut télécharger ce modèle dolphin-2.2.1-mistral-7B-GGUF avec wget
!wget -O ./models/dolphin-2.2.1-mistral-7b.Q2_K.gguf https://huggingface.co/TheBloke/dolphin-2.2.1-mistral-7B-GGUF/resolve/main/dolphin-2.2.1-mistral-7b.Q2_K.gguf?download=true
C'est la première cellule dans le Google colab et vous pouvez l'executer en cliquant
Si tout ce passe bien, vous devriez maintenant voir dans les fichiers locaux de votre colab votre modèle.
2 Installation d'un moteur d'inférence (llama-cpp-python)
Pour le moteur d'inférence, on va utiliser llama-cpp-python simplement avec la commande :
pip install llama-cpp-python[server] --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cpu
Comme précédemment vous pouvez la lancer dans Colab en cliquant sur le triangle correspondant à la cellule.