L'essentiel en 20 secondes

Librairie Python qui enveloppe les appels LLM pour garantir des sorties structurées validées par Pydantic
Retry automatique si la sortie du LLM ne correspond pas au schéma attendu
Compatible OpenAI, Anthropic, Google, et tout LLM compatible OpenAI
Prix : gratuit, open source MIT

Verdict : Instructor est la façon la plus simple et la plus fiable d'extraire des données structurées depuis un LLM. Si tu utilises Pydantic (et tu devrais), l'intégration est naturelle. Indispensable.

Instructor, c'est quoi

Instructor est une librairie Python créée par Jason Liu qui simplifie radicalement l'extraction de données structurées depuis des LLM. Tu définis un modèle Pydantic, tu appelles le LLM, et tu récupères un objet Python validé.

Si le LLM retourne quelque chose qui ne correspond pas au schéma, Instructor relance automatiquement l'appel avec le message d'erreur en contexte.

from instructor import patch
from openai import OpenAI
from pydantic import BaseModel

client = patch(OpenAI())

class Person(BaseModel):
    name: str
    age: int

person = client.chat.completions.create(
    model="gpt-4",
    response_model=Person,
    messages=[{"role": "user", "content": "Jason Liu, 30 ans"}]
)
# person.name == "Jason Liu", person.age == 30

Points forts

Validation Pydantic native

Tes modèles Pydantic existants fonctionnent directement. Pas besoin d'apprendre un nouveau format de schéma.

Retry intelligent

Quand le LLM produit une sortie invalide, Instructor réinjecte l'erreur de validation dans le prompt pour que le LLM se corrige. Le taux de succès monte significativement.

Support multi-LLM

OpenAI, Anthropic (Claude), Google (Gemini), Mistral, et tout endpoint compatible OpenAI.

Limites

Python uniquement

Pas de version JavaScript/TypeScript native (BAML couvre ce besoin côté TypeScript).

Dépendance forte à Pydantic

Si ton projet n'utilise pas Pydantic, il faut l'adopter. Ce n'est pas une limitation en pratique car Pydantic est devenu un standard.

Prix

Gratuit, open source MIT

Alternatives

BAML pour l'extraction structurée TypeScript-first
DSPy pour une approche plus complète de programmation de pipelines LLM
Outlines pour la structured generation avec des modèles locaux

Verdict

Instructor est une des librairies les plus utiles de l'ecosystème Python LLM. Si tu construis des pipelines qui extraient des données depuis des textes ou des documents, installe Instructor immédiatement.

FAQ

Instructor fonctionne-t-il avec les modèles locaux via Ollama ?

Oui. Instructor supporte n'importe quel endpoint compatible OpenAI, incluant Ollama.

Peut-on extraire des listes d'objets ?

Oui. List[Person] dans ton modèle Pydantic fonctionne parfaitement.

Combien de retries Instructor fait-il ?

Par défaut, 3 tentatives. Configurable via le paramètre max_retries.

Instructor est open source et gratuit. Joute ne perçoit pas de commission sur cet outil. En savoir plus sur notre politique d'affiliation.

Instructor, l'avis de Joute