OrkaJS
Orka.JS

Chunking

Comprenez comment Orka JS découpe les documents en chunks de taille optimale pour l'embedding et larécupération.

Comment Fonctionne le Chunking

Orka JS utilise un découpeur de texte récursif qui coupe intelligemment le texte aux frontières naturelles :

\n\n

Sauts de Paragraphe

Préserve la structure naturelle en priorité.

Step 1
\n

Sauts de Ligne

Découpe par ligne si le paragraphe est trop grand.

Step 2
.

Phrases

Cible les frontières de pensée logique.

Step 3

Mots

Dernier recours pour éviter de couper un mot.

Step 4
char

Caractères

Respect strict de la limite (Urgence).

Step 5

Configuration

await orka.knowledge.create({
name: 'docs',
source: myContent,
chunkSize: 1000, // Nombre maximum de caractères par chunk
chunkOverlap: 200, // Chevauchement entre chunks consécutifs
});

Tailles Recommandées

Profil de ContenuDimensions (Taille / Overlap)Objectif Stratégique
FAQ / Q&A
Size: 300Ovp: 50
Précision atomique
Docs Techniques
Size: 1000Ovp: 200
Intégrité des blocs
Articles longs
Size: 1200Ovp: 250
Flux narratif
Juridique / Contrats
Size: 600Ovp: 200
Contexte des clauses

💡 Pourquoi le Chevauchement ?

Le chevauchement garantit que l'information aux frontières des chunks n'est pas perdue. Quand un chunk se termine en milieu de phrase, le chunk suivant commence quelques centaines de caractères plus tôt, capturant le contexte complet.