OrkaJS
Orka.JS

Chunking

Comprenez comment Orka AI découpe les documents en chunks de taille optimale pour l'embedding et la récupération.

Comment Fonctionne le Chunking

Orka AI utilise un découpeur de texte récursif qui coupe intelligemment le texte aux frontières naturelles :

1
Essaie les sauts de paragraphe (\n\n) d'abord
2
Se rabat sur les sauts de ligne (\n)
3
Puis les frontières de phrases (. )
4
Puis les frontières de mots ( )
5
Enfin, caractère par caractère

Configuration

await orka.knowledge.create({
name: 'docs',
source: myContent,
chunkSize: 1000, // Max characters per chunk
chunkOverlap: 200, // Overlap between consecutive chunks
});

Tailles Recommandées

Type de ContenuTailleChevauchementPourquoi
FAQ / Q&A300–50050–100Chaque Q&R est autonome
Docs techniques800–1200150–250Préserve les blocs de code
Articles longs1000–1500200–300Équilibre contexte & spécificité
Juridique / contrats500–800200Récupération précise des clauses

💡 Pourquoi le Chevauchement ?

Le chevauchement garantit que l'information aux frontières des chunks n'est pas perdue. Quand un chunk se termine en milieu de phrase, le chunk suivant commence quelques centaines de caractères plus tôt, capturant le contexte complet.