Chunking
Comprenez comment Orka JS découpe les documents en chunks de taille optimale pour l'embedding et larécupération.
Comment Fonctionne le Chunking
Orka JS utilise un découpeur de texte récursif qui coupe intelligemment le texte aux frontières naturelles :
\n\nSauts de Paragraphe
Préserve la structure naturelle en priorité.
Step 1
\nSauts de Ligne
Découpe par ligne si le paragraphe est trop grand.
Step 2
. Phrases
Cible les frontières de pensée logique.
Step 3
Mots
Dernier recours pour éviter de couper un mot.
Step 4
charCaractères
Respect strict de la limite (Urgence).
Step 5
Configuration
await orka.knowledge.create({ name: 'docs', source: myContent, chunkSize: 1000, // Nombre maximum de caractères par chunk chunkOverlap: 200, // Chevauchement entre chunks consécutifs});Tailles Recommandées
| Profil de Contenu | Dimensions (Taille / Overlap) | Objectif Stratégique |
|---|---|---|
FAQ / Q&A | Size: 300Ovp: 50 | Précision atomique |
Docs Techniques | Size: 1000Ovp: 200 | Intégrité des blocs |
Articles longs | Size: 1200Ovp: 250 | Flux narratif |
Juridique / Contrats | Size: 600Ovp: 200 | Contexte des clauses |
💡 Pourquoi le Chevauchement ?
Le chevauchement garantit que l'information aux frontières des chunks n'est pas perdue. Quand un chunk se termine en milieu de phrase, le chunk suivant commence quelques centaines de caractères plus tôt, capturant le contexte complet.