Chunking
Comprenez comment Orka AI découpe les documents en chunks de taille optimale pour l'embedding et la récupération.
Comment Fonctionne le Chunking
Orka AI utilise un découpeur de texte récursif qui coupe intelligemment le texte aux frontières naturelles :
1
Essaie les sauts de paragraphe (\n\n) d'abord2
Se rabat sur les sauts de ligne (\n)3
Puis les frontières de phrases (. )4
Puis les frontières de mots ( )5
Enfin, caractère par caractèreConfiguration
await orka.knowledge.create({ name: 'docs', source: myContent, chunkSize: 1000, // Max characters per chunk chunkOverlap: 200, // Overlap between consecutive chunks});Tailles Recommandées
| Type de Contenu | Taille | Chevauchement | Pourquoi |
|---|---|---|---|
| FAQ / Q&A | 300–500 | 50–100 | Chaque Q&R est autonome |
| Docs techniques | 800–1200 | 150–250 | Préserve les blocs de code |
| Articles longs | 1000–1500 | 200–300 | Équilibre contexte & spécificité |
| Juridique / contrats | 500–800 | 200 | Récupération précise des clauses |
💡 Pourquoi le Chevauchement ?
Le chevauchement garantit que l'information aux frontières des chunks n'est pas perdue. Quand un chunk se termine en milieu de phrase, le chunk suivant commence quelques centaines de caractères plus tôt, capturant le contexte complet.