From d8e04e89a0cd31b2469f18386e583da25b7d5223 Mon Sep 17 00:00:00 2001
From: glemaitre <glemaitre@users.noreply.github.com>
Date: Fri, 19 Apr 2024 14:44:42 +0000
Subject: [PATCH] [ci skip] iter 323fea613ca74e081ec1db6bbda0a77af7cff9ca

---
 .../user_guide/information_retrieval.rst.txt  |   6 +--
 .../user_guide/large_language_model.rst.txt   |  35 ++++++++----
 objects.inv                                   | Bin 1444 -> 1453 bytes
 references/index.html                         |   4 +-
 searchindex.js                                |   2 +-
 user_guide/index.html                         |  11 ++--
 user_guide/information_retrieval.html         |  16 +++---
 user_guide/large_language_model.html          |  51 +++++++++---------
 user_guide/text_scraping.html                 |   2 +-
 9 files changed, 72 insertions(+), 55 deletions(-)

diff --git a/_sources/user_guide/information_retrieval.rst.txt b/_sources/user_guide/information_retrieval.rst.txt
index ff9c173..a9adeb6 100644
--- a/_sources/user_guide/information_retrieval.rst.txt
+++ b/_sources/user_guide/information_retrieval.rst.txt
@@ -44,15 +44,15 @@ approximate nearest neighbor algorithm, namely `FAISS
 As embedding, we provide a :class:`~ragger_duck.embedding.SentenceTransformer` that
 download any pre-trained sentence transformers from HuggingFace.
 
-Reranker: merging lexical and semantic retrievers
-=================================================
+Reranker: merging lexical and semantic retrievers results
+=========================================================
 
 If we use both lexical and semantic retrievers, we need to merge the results of both
 retrievers. :class:`~ragger_duck.retrieval.RetrieverReranker` makes such reranking by
 using a cross-encoder model. In our case, cross-encoder model is trained on Microsoft
 Bing query-document pairs and is available on HuggingFace.
 
-API of retrivers and Reranker
+API of retrivers and reranker
 =============================
 
 All retrievers and reranker adhere to the same API with a `fit` and `query` method.
diff --git a/_sources/user_guide/large_language_model.rst.txt b/_sources/user_guide/large_language_model.rst.txt
index 93ac911..42f8ee5 100644
--- a/_sources/user_guide/large_language_model.rst.txt
+++ b/_sources/user_guide/large_language_model.rst.txt
@@ -1,13 +1,30 @@
 .. _large_language_model:
 
-=========
-Prompting
-=========
+====================
+Large Language Model
+====================
 
-Prompting for API documentation
-===============================
+In the RAG framework, the Large Language Model (LLM) is the cherry on top. It is in
+charge of generating the answer to the query based on the context retrieved.
 
-:class:`~ragger_duck.prompt.BasicPromptingStrategy` implements a prompting
-strategy to answer documentation questions. We get context by reranking the
-search from a lexical and semantic retrievers. Once the context is retrieved,
-we request a Large Language Model (LLM) to answer the question.
+A rather important part of the LLM is related to the prompt to trigger the generation.
+In this POC, we did not intend to optimize the prompt because we did not have the data
+at hand to make a proper evaluation.
+
+:class:`~ragger_duck.prompt.BasicPromptingStrategy` allows to interface the LLM with
+the context found by the retriever. For prototyping purposes, we also allow the
+retrievers to be bypassed. The prompt provided to the LLM is the following::
+
+    prompt = (
+        "[INST] You are a scikit-learn expert that should be able to answer"
+        " machine-learning question.\n\nAnswer to the query below using the"
+        " additional provided content. The additional content is composed of"
+        " the HTML link to the source and the extracted contextual"
+        " information.\n\nBe succinct.\n\n"
+        "Make sure to use backticks whenever you refer to class, function, "
+        "method, or name that contains underscores.\n\n"
+        f"query: {query}\n\n{context_query} [/INST]."
+    )
+
+When bypassing the retrievers, we do not provide any context and the sentence related
+to this part.
diff --git a/objects.inv b/objects.inv
index c8866c6058cea3a290a295f5f72a29a7d42acfa1..d03a069b4a3ce0747a3e194d6f090508ed074975 100644
GIT binary patch
delta 1347
zcmV-J1-$yC3#|)~dw*MR<0uq<=T{)jyppyn?aREZI-07gv|UBb?Cv9?Hg&A=B@1{a
z`S%OPHxh7cLz}#`fphyfoO3wFW+X`{!*Lb;Ske5I#&KFCaCi8UmvNO*cncYQql^|2
z<u@I}YAf>WlV(AmAp*>%X0@S(P?FynDfnB-a>|tIC?lN1yMLkPgcg($LF1drnly%4
z##e8tsMkitwu~=@0E>2fVJrz1Sehp>5d^cc67AMs7SfI|lJg4#;Sz}S$gUDs0OTq>
za*3$Lypid1MhcCV6%+>3^nzw$-?1{^30DEt)Y0nMuzV#vjn?&VX?P>lB9g<b>N%>(
z?)h<%+0`>R0)PLC^)8T><Y#ao{KJ9ZS0!^cR8bfZ)04ym%cx)}{Yf%cQg#fZdD(M)
zeg5tD7d@KU&p340o$O+sorOWH`e$A+7)ydYi1Gg_$_^K>%RhF}9pj7CS^QWW<0pD%
z8}^Cy0M<jsd>}Y}VGsa>R}KWQ&p+M?8=8|sq>*pUKY!6P+pteQ1h5`59|FPg3xxn6
zyz(J{eg5%Iz!}}Ak-HH>zDLuPw#x~Q)mg0`)<(`T6ry5GJw2UJdE@!93WGxI<<z=n
zBIOYyyOG<#mOk1xcTD%|r@yLvefU;J4}00EN1~ipNJll<V|H9*b}@Yq1WPXigJbb8
z?(YI=Nq=n%4rJ+N;JX013XfbMY9C3K$+PxhPx4(xJ!^<V*)j+ol_WS0?|KpzQNXGa
z9++1qg@xl?VZy_?BJW%#rvK)YJyvN<{aY5RswL(<N=;A<-eo2nnt&xHEGVx83J1lz
zw1kCnC0@Bi{9^eJ$7OWpSqOz`q^3WGx!_V=FMn~O%jfwH3<WF7vpPT*{z~o<PShry
ztK}%r*3URc5FoEIEg={27a0=@LOoF{g7-D8;y|jXSu*lUvm=~o5z~Deb8=^U8fYR7
zchB&Kj@~ghg6;)2pXB9FBxO-2t5nO0DyM}YA}tG8lPCkE5@j1E4IX1br)0gnW(zrp
zwtu8ZD95+>&V=}DO9aOS{dM#6c6FzLHO%N%(*L21D<qN#y7%)~I>70zqmP%mAyPsQ
z?Fi`2&pOzqKG%vqHDag}>y{`fy<<8>?X334llmz+g*v=27lg^^GX>H@PG?zbt>#26
z=c69OjUI!Oofz19sbds=lQC-Us+3X%v48%J`?sd9$gy&3cmopZ6?OMapjnFvuwR~K
zIf9i~X`O_t+mu=kDY*fRryd;aW*ZYSf2ZqJ%>T+Tg(+{>Ce`0piSlT@DRmi<cK!ev
zVF|^VjNgjLA9)#5_X=#x+Hg%lEd^;cf2v9OS5LxcH3=li5_P)+Y6;rY&-z|Z$A6!G
zt3H}U!w*>W?>c?-J9scqf5z_mAWz)FG;hn*VTd?$d62z+pZ++kE&YfHS_r`JQ;1mz
z&wo?_?KH6T{(cs`v3CH_m;yeR^$RiCFa6=kH1N5eUx>|q%@0qefnOgv3*GsS6xt}j
zyJ1|0a;*D=4kGaE5tku#x0}#P0)NLHqQmT<8k@c2Nx63@7@P&|0bu*8${}sG4E+HL
zEN_?`DvY)jZdzusrALiTXKVCqJ8ELOVSU2&_*$!@y3CHc9o3pfaB@mmv^ACLxi-OT
z`dS|Iz-Zj(wD)SN@9n?KQ3nb1l2h6sHH$R2ibPn4A~@z9Zk|<-Q`psw+B}rGdeK4G
zd8Wg1sCG7E_P)#Idx!SZ{W;o^?m1|vpqp%$m{Gzh+@@US{{fiKPFBJGsmgeg`XAGR
F%|sjUlj{Hg

delta 1338
zcmV-A1;zTU3#1E>dw)xh<0ufm^DB^Muk>T3z076RqiMDJFsrCDyL&{mO*_{3kp(=H
z{QCtHW0Qbm8@iKI4E6dbs){l(BUwfnPMhS%4J}`3n&wpoxBJg!oi+u9caYIH%4n5P
zerp(RHli#(X%_SwM1Z-}+^lIOl;n3tD*jfpk}{<_DG2BAet)PrqZMUD(DZh)CXHd1
z@te0?v}>bcQ>T|gfJHaHFqVu8EX|XY2!dJNh;HjI3u#LjDfxwga0x_uWZQ@<0CE)`
zxkS`revs*NMhcCV6%+^4^nzw%-?F;g3SR-$)Y0mBVEICLo~+tuX?QKvBC`Fg>N%>(
z?fG$$+0`>Tf`9Oe^)8T><Y#ms{KJ9ZS0!^cR8brd)04yo%cx*E{YeU6QW}QQyzIHY
zeEa>67d@KU&v<mWo$O<torO`XhG$+h7)ydYit+y%%Jvtq%RhF}hVez}tbQzx@e@6>
z4Tr>f1nV(lJ`$X;Fo*ymC<h|g=O6EcH7!Xc@+7q8pMU6?Z8#(!B3O@^50T)6g+c@n
zLHQ8DKL2<p;DYY*#NP;^(4%Qe+vNqv+N@SDYa{0vicvA9o}ON){NVYq3WH+o<<z=n
zBjpJr+mYMAjy~Ep8>WZV^IuK5+JCK+$DQod6H(7Aq@$YLF*`0YyO_QQf~A*%(XoUV
z_jiG`q<^+W2eR}s@Lhmhg-0$BwNIod<XQW;BjvWBfi=XVY#D@rN)jDMa6O5OC}LHK
z4=gB?;=&28F!AABk#{Z=(|>cyo|-(R;Vp|()e`dor6wwd;4%{rO~eut7gSIJ#e))D
zTH->v60ck$ezE+)X`P&T7ea9wsp)TFKDboZOMjf{@_D`kL(z)ztPaqJzma={Gqp+Q
zYB`Fu^)t>91jwsQOUOm~S;mBd&`z|9;6qDmIFKq@mV&&};s|G6rF7TDoZQ)-1`d&i
z%{#oMqj$`$pgV!>H+lJpq%1PBO0}G5N?Hjb^16a8i84SMQFmc-z+)}wl&qI`*g_7H
z4S%UJ%JCh(w;}%85W#Upf8GAPySdlE4$SCI(*L21D<qN#%>VOPI>76#qmP%&5GkR@
zZUpq^7Y4Si&$psa2Qg&C%n~J~cZ^Zg&1!!<t4GNx)ZvA>AWTM|Es$4ox+pqpEhp+Y
zpY#~6^%$J&#K6`|8>8^6j8S`6rIad&?SC`w|26eRj+0x%8<0@1$lNo5!&+>B{qh{k
z5v;~a>m*!eQ(8Hs<OVRFdvMUq9!$vmovv3g|0}~3=Db^*RR7Rq%A@V3v}Huv`4bd`
zWfT`Oej6em$~vX~6}XtS;g*6r3esxKAK*Za9ig_}qmH26`%Pcw>7dhprH^LL@PDfn
z{oLk^whIR8&)8k<<uO~?=3NOoj0<l94^lSldmoRrrC$y~2LXhA|1b;T`7bG;n+BF%
z+RuVFcJU9bDG+i)zYvrArXQY6gOEG<h1lG8`|xBMgf)+|(4B8Xp^E~7yToNE$68M4
zA%eiha2Zm6j|rV5aNHJp%nqut-G4BilzWeY!CBB90IpA|JkoZb(4U&X@wbvkh1ILV
zb;m3=^r)LLwnopkqt3+)+Y_$G*I6CaWw+7YsMR!rlT*TyjjdGAbqU_mSMtCIR<}N<
zr&m*bL;qcl3?$G?PU(HrEYjR65@8#P;Fx!~c}_iEVP6aCQs!$w2d(Crwlm73+S`E*
wnk}EhJt|K(<!Bqs8_!UIne5h8P{JwP<Xk5G9@uY5PQm{D$$Dq{A2k-nL=q6Ch5!Hn

diff --git a/references/index.html b/references/index.html
index 0aca6d8..42528df 100644
--- a/references/index.html
+++ b/references/index.html
@@ -46,7 +46,7 @@
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
     <link rel="next" title="Scraping the documentation" href="scraping.html" />
-    <link rel="prev" title="Prompting" href="../user_guide/large_language_model.html" />
+    <link rel="prev" title="Large Language Model" href="../user_guide/large_language_model.html" />
   <meta name="viewport" content="width=device-width, initial-scale=1"/>
   <meta name="docsearch:language" content="en"/>
   </head>
@@ -501,7 +501,7 @@
       <i class="fa-solid fa-angle-left"></i>
       <div class="prev-next-info">
         <p class="prev-next-subtitle">previous</p>
-        <p class="prev-next-title">Prompting</p>
+        <p class="prev-next-title">Large Language Model</p>
       </div>
     </a>
     <a class="right-next"
diff --git a/searchindex.js b/searchindex.js
index babb356..9c54b3d 100644
--- a/searchindex.js
+++ b/searchindex.js
@@ -1 +1 @@
-Search.setIndex({"docnames": ["about", "auto_examples/index", "index", "install", "references/embedding", "references/generated/ragger_duck.embedding.SentenceTransformer", "references/generated/ragger_duck.prompt.BasicPromptingStrategy", "references/generated/ragger_duck.retrieval.BM25Retriever", "references/generated/ragger_duck.retrieval.RetrieverReranker", "references/generated/ragger_duck.retrieval.SemanticRetriever", "references/generated/ragger_duck.scraping.APINumPyDocExtractor", "references/generated/ragger_duck.scraping.GalleryExampleExtractor", "references/generated/ragger_duck.scraping.UserGuideDocExtractor", "references/index", "references/prompt", "references/retrieval", "references/scraping", "user_guide/index", "user_guide/information_retrieval", "user_guide/large_language_model", "user_guide/text_scraping", "whats_new", "whats_new/v0.1"], "filenames": ["about.rst", "auto_examples/index.rst", "index.rst", "install.rst", "references/embedding.rst", "references/generated/ragger_duck.embedding.SentenceTransformer.rst", "references/generated/ragger_duck.prompt.BasicPromptingStrategy.rst", "references/generated/ragger_duck.retrieval.BM25Retriever.rst", "references/generated/ragger_duck.retrieval.RetrieverReranker.rst", "references/generated/ragger_duck.retrieval.SemanticRetriever.rst", "references/generated/ragger_duck.scraping.APINumPyDocExtractor.rst", "references/generated/ragger_duck.scraping.GalleryExampleExtractor.rst", "references/generated/ragger_duck.scraping.UserGuideDocExtractor.rst", "references/index.rst", "references/prompt.rst", "references/retrieval.rst", "references/scraping.rst", "user_guide/index.rst", "user_guide/information_retrieval.rst", "user_guide/large_language_model.rst", "user_guide/text_scraping.rst", "whats_new.rst", "whats_new/v0.1.rst"], "titles": ["About us", "Examples", "Ragger Duck documentation", "Getting Started", "Embedding", "SentenceTransformer", "BasicPromptingStrategy", "BM25Retriever", "RetrieverReranker", "SemanticRetriever", "APINumPyDocExtractor", "GalleryExampleExtractor", "UserGuideDocExtractor", "API reference", "Prompt", "Retrieval", "Scraping the documentation", "User guide", "Retriever", "Prompting", "Text Scraping", "Release history", "Version 0.1"], "terms": {"thi": [0, 2, 3, 5, 6, 7, 8, 9, 10, 11, 12, 13, 17, 18, 20], "i": [0, 1, 2, 3, 5, 6, 7, 8, 9, 10, 11, 12, 13, 18, 19, 20], "sundai": 0, "afternoon": 0, "project": [0, 2, 17, 18], "One": 1, "dai": 1, "write": 1, "some": [1, 2, 3, 17, 20], "right": [1, 8], "now": [1, 3, 17, 20], "someth": 1, "locat": 1, "script": 1, "folder": [1, 10, 11, 12, 20], "date": 2, "apr": 2, "19": 2, "2024": 2, "version": [2, 3, 5, 10, 11, 12, 20], "us": [2, 5, 6, 7, 8, 9, 10, 11, 12, 17, 18, 20], "link": [2, 3, 20], "sourc": [2, 3, 10, 11, 12, 17, 20], "repositori": [2, 3, 5], "issu": 2, "idea": [2, 17, 18, 20], "sklearn": [2, 3, 7, 20], "The": [2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 16, 17, 18, 20], "provid": [2, 3, 10, 17, 18, 20], "set": [2, 3, 5, 6, 7, 8, 9, 10, 11, 12, 17, 20], "tool": 2, "build": [2, 9, 17, 18, 20], "rag": [2, 3, 17, 20], "answer": [2, 6, 17, 19, 20], "question": [2, 17, 19, 20], "about": [2, 17, 20], "scikit": [2, 5, 9, 10, 16, 20], "learn": [2, 5, 9, 10, 16, 20], "librari": [2, 9, 20], "get": [2, 5, 6, 7, 8, 9, 10, 11, 12, 19, 20], "start": [2, 20], "check": [2, 5, 6, 7, 8, 9, 10, 11, 12], "out": [2, 20], "guid": [2, 3, 5, 6, 7, 8, 9, 10, 11, 12], "instal": [2, 3], "extra": 2, "inform": [2, 5, 6, 7, 8, 9, 10, 11, 12, 20], "new": [2, 5, 10, 11, 12, 17], "contribut": 2, "also": [2, 3, 17, 18, 20], "To": [2, 3, 10, 18], "guidelin": 2, "user": [2, 3, 5, 6, 7, 8, 9, 10, 11, 12], "depth": [2, 17], "kei": [2, 5], "concept": [2, 20], "background": 2, "explan": [2, 20], "api": [2, 3, 5, 9, 10, 11, 12, 17], "refer": [2, 3, 18, 20], "contain": [2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 16, 17, 20], "detail": [2, 3, 18, 20], "descript": [2, 20], "avail": [2, 10, 18, 20], "exampl": [2, 3, 5, 10, 11, 12, 17], "galleri": [2, 3, 11, 17], "good": 2, "place": 2, "see": [2, 5, 10, 11, 12, 20], "action": 2, "select": [2, 3, 20], "an": [2, 3, 5, 6, 9, 10, 11, 12, 17, 18, 20], "dive": [2, 20], "eas": 3, "deploy": 3, "we": [3, 6, 8, 9, 10, 17, 18, 19, 20], "reli": [3, 20], "pixi": 3, "follow": [3, 5, 8, 9, 17, 20], "short": [3, 20], "current": 3, "support": 3, "platform": 3, "should": [3, 5, 6, 10, 17, 20], "enough": 3, "curl": 3, "fssl": 3, "http": [3, 17, 20], "sh": 3, "bash": 3, "In": [3, 17, 18, 20, 21, 22], "latest": 3, "stage": [3, 17], "charg": 3, "creat": [3, 5, 9, 10, 17, 18, 20], "python": [3, 20], "environ": 3, "alreadi": 3, "setup": 3, "sever": [3, 8, 17], "you": [3, 8, 17, 18, 20], "depend": 3, "hardwar": 3, "your": 3, "dispos": 3, "cpu": [3, 5, 11, 12], "cross": [3, 8, 18], "e": [3, 5, 20], "linux": 3, "maco": 3, "x86_64": 3, "arm64": 3, "mp": [3, 5], "m1": 3, "m2": 3, "m3": 3, "chip": 3, "cuda": [3, 5], "12": 3, "1": [3, 5, 7, 9, 10, 11, 12, 17, 20], "machin": [3, 20], "gpu": [3, 5], "make": [3, 17, 18, 20], "experi": 3, "scalewai": 3, "instanc": [3, 5, 6, 7, 8, 9, 10, 11, 12, 18, 20], "l4": 3, "11": 3, "7": 3, "similar": [3, 9, 17, 18, 20], "instead": [3, 20], "note": [3, 8, 17, 20], "can": [3, 5, 8, 12, 17, 18, 20], "modifi": 3, "toml": 3, "own": 3, "sinc": [3, 18], "might": [3, 20], "suit": 3, "need": [3, 18, 20], "github": 3, "self": [3, 5, 6, 7, 8, 9, 10, 11, 12], "all": [3, 8, 18, 20], "necessari": 3, "file": [3, 20], "recurs": [3, 20], "wai": [3, 17, 20], "submodul": 3, "git": 3, "com": 3, "glemaitr": 3, "first": [3, 5, 17, 20], "html": [3, 10, 12, 20], "gener": [3, 10, 20], "page": [3, 10, 12, 18, 20], "run": [3, 11, 12, 17], "command": 3, "frozen": 3, "doc": 3, "have": [3, 5, 6, 7, 8, 9, 10, 11, 12, 17, 18, 20], "differ": [3, 17, 20], "each": [3, 5, 6, 7, 8, 9, 10, 11, 12, 18, 20], "type": [3, 17, 18, 20], "more": [3, 10, 17, 18, 20], "strategi": [3, 6, 19, 20], "propos": [3, 17], "specif": [3, 20], "specifi": [3, 20], "llm": [3, 6, 17, 19, 20], "For": [3, 10, 18, 20], "test": 3, "purpos": 3, "mistral": [3, 17, 20], "7b": [3, 20], "fetch": 3, "ar": [3, 5, 6, 7, 8, 9, 10, 11, 12, 17, 18, 20], "Then": [3, 17, 18, 20], "requir": 3, "which": [3, 17, 20], "want": [3, 8, 17, 20], "offload": 3, "access": 3, "address": 3, "127": 3, "0": [3, 7, 20], "8123": 3, "when": [3, 17, 20], "discuss": [3, 20], "earlier": 3, "edit": 3, "mode": 3, "howev": [3, 17, 18, 20], "via": 3, "pip": 3, "don": [3, 20], "t": [3, 20], "ani": [3, 18], "better": [3, 17, 20], "handl": 3, "modul": [4, 5, 10, 16, 20], "ragger_duck": [4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 16], "function": [4, 10, 12, 16, 20], "emb": [4, 5, 9], "transform": [4, 5, 7, 9, 10, 11, 12, 17, 18, 20], "allow": [4, 6, 20], "text": [4, 5, 7, 10, 11, 12, 17], "class": [5, 6, 7, 8, 9, 10, 11, 12, 20], "embed": [5, 9, 13, 18, 20], "model_name_or_path": 5, "none": [5, 6, 7, 8, 9, 10, 11, 12, 20], "devic": 5, "cache_fold": 5, "use_auth_token": 5, "batch_siz": 5, "32": 5, "show_progress_bar": 5, "true": [5, 6, 7, 8, 9, 10, 11, 12], "sentenc": [5, 9, 18], "thin": 5, "wrapper": 5, "around": 5, "sentence_transform": [5, 8], "thu": [5, 20], "insid": 5, "pipelin": [5, 6, 7, 8, 9, 10, 11, 12, 20], "paramet": [5, 6, 7, 8, 9, 10, 11, 12, 20], "str": [5, 7, 8, 9, 12, 20], "default": [5, 6, 7, 8, 9, 10, 11, 12, 20], "If": [5, 6, 7, 8, 9, 10, 11, 12, 18, 20], "filepath": 5, "disc": 5, "load": 5, "model": [5, 6, 17, 18, 19, 20], "from": [5, 7, 8, 9, 10, 11, 12, 17, 18, 19, 20], "path": [5, 10, 11, 12], "tri": 5, "download": [5, 18], "pre": [5, 18], "train": [5, 7, 8, 9, 17, 18, 20], "fail": 5, "construct": 5, "huggingfac": [5, 18], "name": [5, 6, 7, 8, 9, 10, 11, 12, 18], "iter": 5, "nn": 5, "custom": 5, "scratch": 5, "g": 5, "comput": [5, 7, 8, 9], "store": 5, "bool": [5, 6, 7, 8, 9, 10, 11, 12], "authent": 5, "token": [5, 20], "privat": 5, "int": [5, 7, 8, 9, 11, 12, 20], "batch": 5, "size": [5, 11, 12, 20], "dure": [5, 17, 18, 20], "whether": [5, 6, 8], "show": [5, 17, 20], "progress": [5, 21, 22], "bar": 5, "method": [5, 6, 7, 8, 9, 10, 11, 12, 18, 20], "fit": [5, 6, 7, 8, 9, 10, 11, 12, 18, 20], "x": [5, 6, 7, 8, 9, 10, 11, 12, 17], "y": [5, 6, 7, 8, 9, 10, 11, 12, 17, 20], "No": [5, 6, 10, 11, 12], "op": [5, 6, 10, 11, 12], "oper": [5, 6, 10, 11, 12], "onli": [5, 6, 10, 11, 12, 20], "valid": [5, 6, 10, 11, 12, 20], "ignor": [5, 6, 7, 8, 9, 10, 11, 12], "return": [5, 6, 7, 8, 9, 10, 11, 12, 17, 20], "estim": [5, 6, 7, 8, 9, 10, 11, 12, 20], "fit_transform": [5, 10, 11, 12, 20], "fit_param": [5, 10, 11, 12], "data": [5, 7, 8, 9, 10, 11, 12, 20], "option": [5, 10, 11, 12], "arrai": [5, 10, 11, 12, 20], "like": [5, 10, 11, 12, 18, 20], "shape": [5, 7, 9, 10, 11, 12, 20], "n_sampl": [5, 10, 11, 12], "n_featur": [5, 7, 9, 10, 11, 12], "input": [5, 7, 8, 9, 10, 11, 12, 20], "sampl": [5, 10, 11, 12, 20], "n_output": [5, 10, 11, 12], "target": [5, 10, 11, 12], "valu": [5, 6, 7, 8, 9, 10, 11, 12, 20], "unsupervis": [5, 10, 11, 12], "dict": [5, 6, 7, 8, 9, 10, 11, 12], "addit": [5, 10, 11, 12, 17], "x_new": [5, 10, 11, 12], "ndarrai": [5, 7, 9, 10, 11, 12, 20], "n_features_new": [5, 10, 11, 12], "get_metadata_rout": [5, 6, 7, 8, 9, 10, 11, 12], "metadata": [5, 6, 7, 8, 9, 10, 11, 12], "rout": [5, 6, 7, 8, 9, 10, 11, 12], "object": [5, 6, 7, 8, 9, 10, 11, 12], "pleas": [5, 6, 7, 8, 9, 10, 11, 12], "how": [5, 6, 7, 8, 9, 10, 11, 12, 17, 20], "mechan": [5, 6, 7, 8, 9, 10, 11, 12, 20], "work": [5, 6, 7, 8, 9, 10, 11, 12], "metadatarequest": [5, 6, 7, 8, 9, 10, 11, 12], "A": [5, 6, 7, 8, 9, 10, 11, 12, 17, 20], "encapsul": [5, 6, 7, 8, 9, 10, 11, 12], "get_param": [5, 6, 7, 8, 9, 10, 11, 12], "deep": [5, 6, 7, 8, 9, 10, 11, 12], "subobject": [5, 6, 7, 8, 9, 10, 11, 12], "param": [5, 6, 7, 8, 9, 10, 11, 12], "map": [5, 6, 7, 8, 9, 10, 11, 12], "set_output": [5, 10, 11, 12], "output": [5, 10, 11, 12], "sphx_glr_auto_examples_miscellaneous_plot_set_output": [5, 10, 11, 12], "py": [5, 10, 11, 12], "panda": [5, 10, 11, 12], "configur": [5, 10, 11, 12], "format": [5, 10, 11, 12], "datafram": [5, 10, 11, 12], "polar": [5, 10, 11, 12], "unchang": [5, 10, 11, 12], "4": [5, 10, 11, 12, 17], "wa": [5, 10, 11, 12], "ad": [5, 10, 11, 12], "set_param": [5, 6, 7, 8, 9, 10, 11, 12], "simpl": [5, 6, 7, 8, 9, 10, 11, 12, 17], "well": [5, 6, 7, 8, 9, 10, 11, 12], "nest": [5, 6, 7, 8, 9, 10, 11, 12], "latter": [5, 6, 7, 8, 9, 10, 11, 12], "form": [5, 6, 7, 8, 9, 10, 11, 12], "compon": [5, 6, 7, 8, 9, 10, 11, 12, 17], "__": [5, 6, 7, 8, 9, 10, 11, 12], "so": [5, 6, 7, 8, 9, 10, 11, 12, 20], "": [5, 6, 7, 8, 9, 10, 11, 12, 17, 20], "possibl": [5, 6, 7, 8, 9, 10, 11, 12], "updat": [5, 6, 7, 8, 9, 10, 11, 12], "vector": [5, 7, 17, 18, 20], "length": 5, "n_sentenc": [5, 7, 9], "singl": [5, 20], "list": [5, 7, 8, 9, 10, 11, 12, 20], "dictionari": [5, 10, 11, 12], "embedding_s": 5, "prompt": [6, 13, 17], "retriev": [6, 7, 8, 9, 13, 19, 20], "use_retrieved_context": 6, "queri": [6, 7, 8, 9, 17, 18, 20], "onc": [6, 19], "context": [6, 8, 17, 18, 19, 20], "request": [6, 19], "languag": [6, 17, 19, 20], "expect": [6, 8, 9, 17, 20], "implement": [6, 8, 18, 19, 20], "__call__": 6, "take": [6, 18], "respons": 6, "It": [6, 17, 20], "instruct": 6, "base": [6, 7, 8, 17, 18], "befor": [6, 17, 20], "count_vector": 7, "top_k": [7, 9], "b": 7, "75": 7, "k1": 7, "6": 7, "k": [7, 9, 18], "nearest": [7, 9, 17, 18], "neighbor": [7, 9, 17, 18], "lexic": [7, 8, 17, 19], "search": [7, 17, 19], "bm25": [7, 18], "count": [7, 17, 18], "term": [7, 18, 20], "document": [7, 8, 9, 10, 11, 12, 13, 17, 18], "feature_extract": [7, 20], "countvector": [7, 18], "number": [7, 8, 9, 11, 12, 20], "attribut": [7, 9, 11, 12, 20], "x_fit_": [7, 9], "x_counts_": 7, "spars": [7, 17], "matrix": 7, "n_document": 7, "count_vectorizer_": 7, "n_terms_by_document_": 7, "averaged_document_length_": 7, "float": [7, 8, 20], "averag": 7, "idf_": 7, "invers": 7, "frequenc": [7, 18], "vocabulari": [7, 8, 18], "idf": [7, 8, 18], "most": [7, 8, 9, 17, 20], "relev": [7, 8, 9, 17, 20], "cross_encod": 8, "min_top_k": 8, "max_top_k": 8, "threshold": 8, "drop_dupl": 8, "hybrid": 8, "semant": [8, 9, 17, 19], "encod": [8, 18, 20], "rerank": [8, 17, 19], "accept": 8, "case": [8, 17, 18, 20], "result": [8, 17, 18, 20], "crossencod": 8, "minimum": 8, "less": 8, "than": [8, 20], "maximum": [8, 20], "filter": 8, "score": [8, 18], "drop": 8, "duplic": 8, "step": [8, 17], "done": [8, 17, 20], "after": 8, "index": [9, 17, 18, 20], "faiss": [9, 18], "x_embedded_": 9, "index_": 9, "inner": [9, 17], "product": 9, "cosin": 9, "mean": [9, 17, 18, 20], "normal": 9, "scrape": [10, 11, 12, 13, 17], "extract": [10, 11, 12, 20], "numpydoc": 10, "discov": 10, "one": [10, 20], "autogener": 10, "usual": [10, 20], "public": 10, "present": [10, 17, 20], "leverag": [10, 17], "structur": [10, 20], "meaning": [10, 17, 20], "chunk": [10, 11, 12, 18], "notabl": 10, "everi": 10, "associ": [10, 20], "import": [10, 17, 20], "read": [10, 20], "pathlib": [10, 11, 12], "chunk_siz": [11, 12, 20], "300": [11, 12], "chunk_overlap": [11, 12, 20], "50": [11, 12], "n_job": [11, 12], "split": [11, 12], "overlap": [11, 12, 20], "between": [11, 12, 17, 18, 20], "two": [11, 12, 17, 18, 20], "consecut": [11, 12], "job": [11, 12], "parallel": [11, 12], "core": [11, 12], "text_splitter_": [11, 12], "langchain": [11, 12], "text_splitt": [11, 12], "recursivecharactertextsplitt": [11, 12], "splitter": [11, 12], "folders_to_exclud": [12, 20], "process": [12, 20], "string": [12, 20], "correspond": [12, 17, 20], "exclud": [12, 20], "full": 13, "packag": 13, "apinumpydocextractor": [13, 20], "galleryexampleextractor": [13, 20], "userguidedocextractor": [13, 20], "sentencetransform": [13, 18], "bm25retriev": [13, 18], "semanticretriev": [13, 18], "retrieverrerank": [13, 18], "basicpromptingstrategi": [13, 19], "websit": 16, "go": [17, 20], "our": [17, 18, 20], "framework": [17, 20], "high": [17, 20], "level": [17, 20], "overview": 17, "main": [17, 20], "let": [17, 20], "defin": 17, "larg": [17, 19, 20], "graphic": 17, "below": [17, 20], "repres": 17, "interact": 17, "proof": 17, "poc": 17, "interest": [17, 20], "zero": 17, "shot": 17, "formul": 17, "natur": [17, 20], "through": 17, "gpt": 17, "openai": 17, "ii": 17, "local": 17, "open": 17, "weight": [17, 18], "llama": 17, "introduc": 17, "major": [17, 20], "previou": [17, 20], "consist": 17, "given": [17, 18, 20], "therefor": [17, 20], "condit": 17, "ha": [17, 20], "been": [17, 20], "extens": 17, "studi": 17, "past": 17, "relat": [17, 20], "applic": 17, "engin": 17, "next": 17, "section": [17, 20], "explain": 17, "algorithm": [17, 18], "mathemat": 17, "represent": 17, "databas": [17, 18], "capabl": 17, "find": 17, "phase": 17, "These": [17, 20], "popul": 17, "pass": [17, 20], "found": 17, "coupl": 17, "reader": 17, "comprehens": 17, "review": 17, "without": 17, "distinguish": 17, "bag": [17, 18], "word": [17, 18], "bow": 17, "neural": 17, "network": 17, "thei": [17, 20], "lack": 17, "abil": 17, "captur": 17, "approach": [17, 18, 20], "improv": [17, 20], "perform": [17, 20], "expand": 17, "topic": 17, "invert": 17, "continu": 17, "space": [17, 18], "while": [17, 18, 20], "complex": 17, "due": 17, "dens": 17, "approxim": [17, 18], "guo": 17, "j": 17, "cai": 17, "fan": 17, "sun": 17, "f": 17, "zhang": 17, "r": 17, "cheng": 17, "2022": 17, "acm": 17, "transact": 17, "system": 17, "toi": 17, "40": 17, "42": 17, "arxiv": 17, "org": [17, 20], "ab": 17, "2103": 17, "04831": 17, "behind": [17, 20], "devil": 17, "obtain": 17, "scraper": 17, "merg": 17, "retriv": 17, "differenti": 18, "rank": 18, "could": [18, 20], "think": [18, 20], "distribut": [18, 20], "infer": 18, "limit": [18, 20], "doe": [18, 20], "account": 18, "robust": 18, "synonym": 18, "here": [18, 20], "tf": 18, "scheme": 18, "seen": 18, "regard": [18, 20], "wikipedia": 18, "flexibl": 18, "match": [18, 20], "closest": 18, "sens": 18, "posit": 18, "As": [18, 20], "both": [18, 20], "microsoft": 18, "bing": 18, "pair": 18, "adher": 18, "same": [18, 20], "top": 18, "augment": 20, "aspect": 20, "awar": 20, "rel": 20, "focus": 20, "reach": 20, "common": 20, "variou": 20, "tutori": 20, "fast": 20, "best": 20, "subsequ": 20, "design": 20, "certain": 20, "portion": 20, "entri": 20, "point": 20, "stabl": 20, "automat": 20, "docstr": 20, "help": 20, "inde": 20, "intend": 20, "usag": 20, "snippet": 20, "code": 20, "narrat": 20, "further": 20, "would": 20, "what": 20, "logisticregress": 20, "dummi": 20, "classifi": 20, "frame": 20, "forward": 20, "naiv": 20, "describ": 20, "abov": 20, "fall": 20, "illustr": 20, "consid": 20, "second": 20, "abl": 20, "dummyclassifi": 20, "relationship": 20, "where": 20, "mention": 20, "belong": 20, "three": 20, "most_frequ": 20, "prior": 20, "stratifi": 20, "uniform": 20, "constant": 20, "predict": 20, "alwai": 20, "frequent": 20, "label": 20, "observ": 20, "argument": 20, "predict_proba": 20, "hot": 20, "empir": 20, "known": 20, "randomli": 20, "multinomi": 20, "parametr": 20, "probabl": 20, "got": 20, "row": 20, "independ": 20, "ident": 20, "uniformli": 20, "random": 20, "uniqu": 20, "equal": 20, "metric": 20, "evalu": 20, "non": 20, "2": 20, "median": 20, "quantil": 20, "3": 20, "imput": 20, "replac": 20, "miss": 20, "along": 20, "column": 20, "numer": 20, "smallest": 20, "fill_valu": 20, "dummyregressor": 20, "simpleimput": 20, "human": 20, "who": 20, "familiar": 20, "determin": 20, "expert": 20, "knowledg": 20, "come": 20, "otherwis": 20, "summar": 20, "unhelp": 20, "straightforward": 20, "solut": 20, "problem": 20, "beyond": 20, "u": 20, "disambigu": 20, "previous": 20, "state": 20, "formal": 20, "parser": 20, "know": 20, "etc": 20, "control": 20, "becaus": 20, "never": 20, "too": 20, "content": 20, "versionchang": 20, "24": 20, "chang": 20, "By": 20, "maintain": 20, "its": 20, "enabl": 20, "individu": 20, "signatur": 20, "extend": 20, "summari": 20, "imag": 20, "extract_patches_2d": 20, "patch_siz": 20, "max_patch": 20, "random_st": 20, "reshap": 20, "2d": 20, "collect": 20, "patch": 20, "alloc": 20, "dedic": 20, "ref": 20, "image_feature_extract": 20, "origin": 20, "color": 20, "last": 20, "dimens": 20, "channel": 20, "rgb": 20, "n_channel": 20, "image_height": 20, "image_width": 20, "tupl": 20, "patch_height": 20, "patch_width": 20, "taken": 20, "proport": 20, "total": 20, "determinist": 20, "glossari": 20, "randomst": 20, "n_patch": 20, "either": 20, "dataset": 20, "load_sample_imag": 20, "one_imag": 20, "china": 20, "jpg": 20, "print": 20, "427": 20, "640": 20, "272214": 20, "just": 20, "174": 20, "201": 20, "231": 20, "173": 20, "200": 20, "230": 20, "800": 20, "187": 20, "214": 20, "243": 20, "188": 20, "215": 20, "244": 20, "narr": 20, "handwritten": 20, "those": 20, "translat": 20, "user_guid": 20, "look": 20, "appropri": 20, "manner": 20, "beautifulsoup4": 20, "pars": 20, "quit": 20, "exce": 20, "truncat": 20, "seem": 20, "small": 20, "benefici": 20, "multipl": 20, "time": 20, "forse": 20, "within": 20, "futur": 20, "incorpor": 20, "written": 20, "sphinx": 20, "auto_exampl": 20, "mainli": 20, "shown": 20, "titl": 20, "block": 20, "interlac": 20, "separ": 20, "introduct": 20, "scrapper": 20, "stateless": 20, "happen": 20, "call": 20}, "objects": {"ragger_duck": [[4, 0, 0, "-", "embedding"], [14, 0, 0, "-", "prompt"], [15, 0, 0, "-", "retrieval"], [16, 0, 0, "-", "scraping"]], "ragger_duck.embedding": [[5, 1, 1, "", "SentenceTransformer"]], "ragger_duck.embedding.SentenceTransformer": [[5, 2, 1, "", "fit"], [5, 2, 1, "", "fit_transform"], [5, 2, 1, "", "get_metadata_routing"], [5, 2, 1, "", "get_params"], [5, 2, 1, "", "set_output"], [5, 2, 1, "", "set_params"], [5, 2, 1, "", "transform"]], "ragger_duck.prompt": [[6, 1, 1, "", "BasicPromptingStrategy"]], "ragger_duck.prompt.BasicPromptingStrategy": [[6, 2, 1, "", "fit"], [6, 2, 1, "", "get_metadata_routing"], [6, 2, 1, "", "get_params"], [6, 2, 1, "", "set_params"]], "ragger_duck.retrieval": [[7, 1, 1, "", "BM25Retriever"], [8, 1, 1, "", "RetrieverReranker"], [9, 1, 1, "", "SemanticRetriever"]], "ragger_duck.retrieval.BM25Retriever": [[7, 2, 1, "", "fit"], [7, 2, 1, "", "get_metadata_routing"], [7, 2, 1, "", "get_params"], [7, 2, 1, "", "query"], [7, 2, 1, "", "set_params"]], "ragger_duck.retrieval.RetrieverReranker": [[8, 2, 1, "", "fit"], [8, 2, 1, "", "get_metadata_routing"], [8, 2, 1, "", "get_params"], [8, 2, 1, "", "query"], [8, 2, 1, "", "set_params"]], "ragger_duck.retrieval.SemanticRetriever": [[9, 2, 1, "", "fit"], [9, 2, 1, "", "get_metadata_routing"], [9, 2, 1, "", "get_params"], [9, 2, 1, "", "query"], [9, 2, 1, "", "set_params"]], "ragger_duck.scraping": [[10, 1, 1, "", "APINumPyDocExtractor"], [11, 1, 1, "", "GalleryExampleExtractor"], [12, 1, 1, "", "UserGuideDocExtractor"]], "ragger_duck.scraping.APINumPyDocExtractor": [[10, 2, 1, "", "fit"], [10, 2, 1, "", "fit_transform"], [10, 2, 1, "", "get_metadata_routing"], [10, 2, 1, "", "get_params"], [10, 2, 1, "", "set_output"], [10, 2, 1, "", "set_params"], [10, 2, 1, "", "transform"]], "ragger_duck.scraping.GalleryExampleExtractor": [[11, 2, 1, "", "fit"], [11, 2, 1, "", "fit_transform"], [11, 2, 1, "", "get_metadata_routing"], [11, 2, 1, "", "get_params"], [11, 2, 1, "", "set_output"], [11, 2, 1, "", "set_params"], [11, 2, 1, "", "transform"]], "ragger_duck.scraping.UserGuideDocExtractor": [[12, 2, 1, "", "fit"], [12, 2, 1, "", "fit_transform"], [12, 2, 1, "", "get_metadata_routing"], [12, 2, 1, "", "get_params"], [12, 2, 1, "", "set_output"], [12, 2, 1, "", "set_params"], [12, 2, 1, "", "transform"]]}, "objtypes": {"0": "py:module", "1": "py:class", "2": "py:method"}, "objnames": {"0": ["py", "module", "Python module"], "1": ["py", "class", "Python class"], "2": ["py", "method", "Python method"]}, "titleterms": {"about": 0, "u": 0, "exampl": [1, 20], "ragger": [2, 3], "duck": [2, 3], "document": [2, 3, 16, 19, 20], "get": 3, "start": 3, "deploi": 3, "clone": 3, "project": 3, "build": 3, "scikit": 3, "learn": 3, "train": 3, "semant": [3, 18], "lexic": [3, 18], "retriev": [3, 15, 17, 18], "download": 3, "larg": 3, "languag": 3, "model": 3, "launch": 3, "web": 3, "consol": 3, "us": 3, "librari": 3, "embed": 4, "sentencetransform": 5, "basicpromptingstrategi": 6, "bm25retriev": 7, "retrieverrerank": 8, "semanticretriev": 9, "apinumpydocextractor": 10, "galleryexampleextractor": 11, "userguidedocextractor": 12, "api": [13, 18, 19, 20], "refer": [13, 17], "prompt": [14, 19], "scrape": [16, 20], "user": [17, 20], "guid": [17, 20], "what": 17, "i": 17, "augment": 17, "gener": 17, "inform": 17, "concept": 17, "detail": 17, "regard": 17, "implement": 17, "rerank": 18, "merg": 18, "retriv": 18, "text": 20, "scraper": 20, "chunk": 20, "format": 20, "leverag": 20, "numpydoc": 20, "galleri": 20, "releas": 21, "histori": 21, "version": [21, 22], "0": [21, 22], "1": [21, 22], "changelog": [21, 22]}, "envversion": {"sphinx.domains.c": 3, "sphinx.domains.changeset": 1, "sphinx.domains.citation": 1, "sphinx.domains.cpp": 9, "sphinx.domains.index": 1, "sphinx.domains.javascript": 3, "sphinx.domains.math": 2, "sphinx.domains.python": 4, "sphinx.domains.rst": 2, "sphinx.domains.std": 2, "sphinx": 60}, "alltitles": {"About us": [[0, "about-us"]], "Examples": [[1, "examples"]], "Ragger Duck documentation": [[2, "ragger-duck-documentation"]], "Getting Started": [[3, "getting-started"]], "Deploy Ragger Duck": [[3, "deploy-ragger-duck"]], "Cloning the project": [[3, "cloning-the-project"]], "Build the scikit-learn documentation": [[3, "build-the-scikit-learn-documentation"]], "Train the semantic and lexical retrievers": [[3, "train-the-semantic-and-lexical-retrievers"]], "Download the Large Language Model": [[3, "download-the-large-language-model"]], "Launch the Web Console": [[3, "launch-the-web-console"]], "Use the Ragger Duck library": [[3, "use-the-ragger-duck-library"]], "Embedding": [[4, "module-ragger_duck.embedding"]], "SentenceTransformer": [[5, "sentencetransformer"]], "BasicPromptingStrategy": [[6, "basicpromptingstrategy"]], "BM25Retriever": [[7, "bm25retriever"]], "RetrieverReranker": [[8, "retrieverreranker"]], "SemanticRetriever": [[9, "semanticretriever"]], "APINumPyDocExtractor": [[10, "apinumpydocextractor"]], "GalleryExampleExtractor": [[11, "galleryexampleextractor"]], "UserGuideDocExtractor": [[12, "userguidedocextractor"]], "API reference": [[13, "api-reference"]], "Prompt": [[14, "module-ragger_duck.prompt"]], "Retrieval": [[15, "module-ragger_duck.retrieval"]], "Scraping the documentation": [[16, "module-ragger_duck.scraping"]], "User Guide": [[17, "user-guide"]], "What is Retrieval Augmented Generation?": [[17, "what-is-retrieval-augmented-generation"]], "Information retrieval": [[17, "information-retrieval"]], "Concepts": [[17, "concepts"]], "Details regarding the retrievers": [[17, "details-regarding-the-retrievers"]], "References": [[17, "references"]], "Implementation details": [[17, "implementation-details"]], "Retriever": [[18, "retriever"]], "Lexical retrievers": [[18, "lexical-retrievers"]], "Semantic retrievers": [[18, "semantic-retrievers"]], "Reranker: merging lexical and semantic retrievers": [[18, "reranker-merging-lexical-and-semantic-retrievers"]], "API of retrivers and Reranker": [[18, "api-of-retrivers-and-reranker"]], "Prompting": [[19, "prompting"]], "Prompting for API documentation": [[19, "prompting-for-api-documentation"]], "Text Scraping": [[20, "text-scraping"]], "API documentation scraper": [[20, "api-documentation-scraper"]], "Chunk formatting leveraging numpydoc": [[20, "chunk-formatting-leveraging-numpydoc"]], "User Guide documentation scraper": [[20, "user-guide-documentation-scraper"]], "Example gallery scraper": [[20, "example-gallery-scraper"]], "Scraper API": [[20, "scraper-api"]], "Release history": [[21, "release-history"]], "Version 0.1": [[21, "version-0-1"], [22, "version-0-1"]], "Changelog": [[21, "changelog"], [22, "changelog"]]}, "indexentries": {"module": [[4, "module-ragger_duck.embedding"], [14, "module-ragger_duck.prompt"], [15, "module-ragger_duck.retrieval"], [16, "module-ragger_duck.scraping"]], "ragger_duck.embedding": [[4, "module-ragger_duck.embedding"]], "sentencetransformer (class in ragger_duck.embedding)": [[5, "ragger_duck.embedding.SentenceTransformer"]], "fit() (ragger_duck.embedding.sentencetransformer method)": [[5, "ragger_duck.embedding.SentenceTransformer.fit"]], "fit_transform() (ragger_duck.embedding.sentencetransformer method)": [[5, "ragger_duck.embedding.SentenceTransformer.fit_transform"]], "get_metadata_routing() (ragger_duck.embedding.sentencetransformer method)": [[5, "ragger_duck.embedding.SentenceTransformer.get_metadata_routing"]], "get_params() (ragger_duck.embedding.sentencetransformer method)": [[5, "ragger_duck.embedding.SentenceTransformer.get_params"]], "set_output() (ragger_duck.embedding.sentencetransformer method)": [[5, "ragger_duck.embedding.SentenceTransformer.set_output"]], "set_params() (ragger_duck.embedding.sentencetransformer method)": [[5, "ragger_duck.embedding.SentenceTransformer.set_params"]], "transform() (ragger_duck.embedding.sentencetransformer method)": [[5, "ragger_duck.embedding.SentenceTransformer.transform"]], "basicpromptingstrategy (class in ragger_duck.prompt)": [[6, "ragger_duck.prompt.BasicPromptingStrategy"]], "fit() (ragger_duck.prompt.basicpromptingstrategy method)": [[6, "ragger_duck.prompt.BasicPromptingStrategy.fit"]], "get_metadata_routing() (ragger_duck.prompt.basicpromptingstrategy method)": [[6, "ragger_duck.prompt.BasicPromptingStrategy.get_metadata_routing"]], "get_params() (ragger_duck.prompt.basicpromptingstrategy method)": [[6, "ragger_duck.prompt.BasicPromptingStrategy.get_params"]], "set_params() (ragger_duck.prompt.basicpromptingstrategy method)": [[6, "ragger_duck.prompt.BasicPromptingStrategy.set_params"]], "bm25retriever (class in ragger_duck.retrieval)": [[7, "ragger_duck.retrieval.BM25Retriever"]], "fit() (ragger_duck.retrieval.bm25retriever method)": [[7, "ragger_duck.retrieval.BM25Retriever.fit"]], "get_metadata_routing() (ragger_duck.retrieval.bm25retriever method)": [[7, "ragger_duck.retrieval.BM25Retriever.get_metadata_routing"]], "get_params() (ragger_duck.retrieval.bm25retriever method)": [[7, "ragger_duck.retrieval.BM25Retriever.get_params"]], "query() (ragger_duck.retrieval.bm25retriever method)": [[7, "ragger_duck.retrieval.BM25Retriever.query"]], "set_params() (ragger_duck.retrieval.bm25retriever method)": [[7, "ragger_duck.retrieval.BM25Retriever.set_params"]], "retrieverreranker (class in ragger_duck.retrieval)": [[8, "ragger_duck.retrieval.RetrieverReranker"]], "fit() (ragger_duck.retrieval.retrieverreranker method)": [[8, "ragger_duck.retrieval.RetrieverReranker.fit"]], "get_metadata_routing() (ragger_duck.retrieval.retrieverreranker method)": [[8, "ragger_duck.retrieval.RetrieverReranker.get_metadata_routing"]], "get_params() (ragger_duck.retrieval.retrieverreranker method)": [[8, "ragger_duck.retrieval.RetrieverReranker.get_params"]], "query() (ragger_duck.retrieval.retrieverreranker method)": [[8, "ragger_duck.retrieval.RetrieverReranker.query"]], "set_params() (ragger_duck.retrieval.retrieverreranker method)": [[8, "ragger_duck.retrieval.RetrieverReranker.set_params"]], "semanticretriever (class in ragger_duck.retrieval)": [[9, "ragger_duck.retrieval.SemanticRetriever"]], "fit() (ragger_duck.retrieval.semanticretriever method)": [[9, "ragger_duck.retrieval.SemanticRetriever.fit"]], "get_metadata_routing() (ragger_duck.retrieval.semanticretriever method)": [[9, "ragger_duck.retrieval.SemanticRetriever.get_metadata_routing"]], "get_params() (ragger_duck.retrieval.semanticretriever method)": [[9, "ragger_duck.retrieval.SemanticRetriever.get_params"]], "query() (ragger_duck.retrieval.semanticretriever method)": [[9, "ragger_duck.retrieval.SemanticRetriever.query"]], "set_params() (ragger_duck.retrieval.semanticretriever method)": [[9, "ragger_duck.retrieval.SemanticRetriever.set_params"]], "apinumpydocextractor (class in ragger_duck.scraping)": [[10, "ragger_duck.scraping.APINumPyDocExtractor"]], "fit() (ragger_duck.scraping.apinumpydocextractor method)": [[10, "ragger_duck.scraping.APINumPyDocExtractor.fit"]], "fit_transform() (ragger_duck.scraping.apinumpydocextractor method)": [[10, "ragger_duck.scraping.APINumPyDocExtractor.fit_transform"]], "get_metadata_routing() (ragger_duck.scraping.apinumpydocextractor method)": [[10, "ragger_duck.scraping.APINumPyDocExtractor.get_metadata_routing"]], "get_params() (ragger_duck.scraping.apinumpydocextractor method)": [[10, "ragger_duck.scraping.APINumPyDocExtractor.get_params"]], "set_output() (ragger_duck.scraping.apinumpydocextractor method)": [[10, "ragger_duck.scraping.APINumPyDocExtractor.set_output"]], "set_params() (ragger_duck.scraping.apinumpydocextractor method)": [[10, "ragger_duck.scraping.APINumPyDocExtractor.set_params"]], "transform() (ragger_duck.scraping.apinumpydocextractor method)": [[10, "ragger_duck.scraping.APINumPyDocExtractor.transform"]], "galleryexampleextractor (class in ragger_duck.scraping)": [[11, "ragger_duck.scraping.GalleryExampleExtractor"]], "fit() (ragger_duck.scraping.galleryexampleextractor method)": [[11, "ragger_duck.scraping.GalleryExampleExtractor.fit"]], "fit_transform() (ragger_duck.scraping.galleryexampleextractor method)": [[11, "ragger_duck.scraping.GalleryExampleExtractor.fit_transform"]], "get_metadata_routing() (ragger_duck.scraping.galleryexampleextractor method)": [[11, "ragger_duck.scraping.GalleryExampleExtractor.get_metadata_routing"]], "get_params() (ragger_duck.scraping.galleryexampleextractor method)": [[11, "ragger_duck.scraping.GalleryExampleExtractor.get_params"]], "set_output() (ragger_duck.scraping.galleryexampleextractor method)": [[11, "ragger_duck.scraping.GalleryExampleExtractor.set_output"]], "set_params() (ragger_duck.scraping.galleryexampleextractor method)": [[11, "ragger_duck.scraping.GalleryExampleExtractor.set_params"]], "transform() (ragger_duck.scraping.galleryexampleextractor method)": [[11, "ragger_duck.scraping.GalleryExampleExtractor.transform"]], "userguidedocextractor (class in ragger_duck.scraping)": [[12, "ragger_duck.scraping.UserGuideDocExtractor"]], "fit() (ragger_duck.scraping.userguidedocextractor method)": [[12, "ragger_duck.scraping.UserGuideDocExtractor.fit"]], "fit_transform() (ragger_duck.scraping.userguidedocextractor method)": [[12, "ragger_duck.scraping.UserGuideDocExtractor.fit_transform"]], "get_metadata_routing() (ragger_duck.scraping.userguidedocextractor method)": [[12, "ragger_duck.scraping.UserGuideDocExtractor.get_metadata_routing"]], "get_params() (ragger_duck.scraping.userguidedocextractor method)": [[12, "ragger_duck.scraping.UserGuideDocExtractor.get_params"]], "set_output() (ragger_duck.scraping.userguidedocextractor method)": [[12, "ragger_duck.scraping.UserGuideDocExtractor.set_output"]], "set_params() (ragger_duck.scraping.userguidedocextractor method)": [[12, "ragger_duck.scraping.UserGuideDocExtractor.set_params"]], "transform() (ragger_duck.scraping.userguidedocextractor method)": [[12, "ragger_duck.scraping.UserGuideDocExtractor.transform"]], "ragger_duck.prompt": [[14, "module-ragger_duck.prompt"]], "ragger_duck.retrieval": [[15, "module-ragger_duck.retrieval"]], "ragger_duck.scraping": [[16, "module-ragger_duck.scraping"]]}})
\ No newline at end of file
+Search.setIndex({"docnames": ["about", "auto_examples/index", "index", "install", "references/embedding", "references/generated/ragger_duck.embedding.SentenceTransformer", "references/generated/ragger_duck.prompt.BasicPromptingStrategy", "references/generated/ragger_duck.retrieval.BM25Retriever", "references/generated/ragger_duck.retrieval.RetrieverReranker", "references/generated/ragger_duck.retrieval.SemanticRetriever", "references/generated/ragger_duck.scraping.APINumPyDocExtractor", "references/generated/ragger_duck.scraping.GalleryExampleExtractor", "references/generated/ragger_duck.scraping.UserGuideDocExtractor", "references/index", "references/prompt", "references/retrieval", "references/scraping", "user_guide/index", "user_guide/information_retrieval", "user_guide/large_language_model", "user_guide/text_scraping", "whats_new", "whats_new/v0.1"], "filenames": ["about.rst", "auto_examples/index.rst", "index.rst", "install.rst", "references/embedding.rst", "references/generated/ragger_duck.embedding.SentenceTransformer.rst", "references/generated/ragger_duck.prompt.BasicPromptingStrategy.rst", "references/generated/ragger_duck.retrieval.BM25Retriever.rst", "references/generated/ragger_duck.retrieval.RetrieverReranker.rst", "references/generated/ragger_duck.retrieval.SemanticRetriever.rst", "references/generated/ragger_duck.scraping.APINumPyDocExtractor.rst", "references/generated/ragger_duck.scraping.GalleryExampleExtractor.rst", "references/generated/ragger_duck.scraping.UserGuideDocExtractor.rst", "references/index.rst", "references/prompt.rst", "references/retrieval.rst", "references/scraping.rst", "user_guide/index.rst", "user_guide/information_retrieval.rst", "user_guide/large_language_model.rst", "user_guide/text_scraping.rst", "whats_new.rst", "whats_new/v0.1.rst"], "titles": ["About us", "Examples", "Ragger Duck documentation", "Getting Started", "Embedding", "SentenceTransformer", "BasicPromptingStrategy", "BM25Retriever", "RetrieverReranker", "SemanticRetriever", "APINumPyDocExtractor", "GalleryExampleExtractor", "UserGuideDocExtractor", "API reference", "Prompt", "Retrieval", "Scraping the documentation", "User guide", "Retriever", "Large Language Model", "Text Scraping", "Release history", "Version 0.1"], "terms": {"thi": [0, 2, 3, 5, 6, 7, 8, 9, 10, 11, 12, 13, 17, 18, 19, 20], "i": [0, 1, 2, 3, 5, 6, 7, 8, 9, 10, 11, 12, 13, 18, 19, 20], "sundai": 0, "afternoon": 0, "project": [0, 2, 17, 18], "One": 1, "dai": 1, "write": 1, "some": [1, 2, 3, 17, 20], "right": [1, 8], "now": [1, 3, 17, 20], "someth": 1, "locat": 1, "script": 1, "folder": [1, 10, 11, 12, 20], "date": 2, "apr": 2, "19": 2, "2024": 2, "version": [2, 3, 5, 10, 11, 12, 20], "us": [2, 5, 6, 7, 8, 9, 10, 11, 12, 17, 18, 19, 20], "link": [2, 3, 19, 20], "sourc": [2, 3, 10, 11, 12, 17, 19, 20], "repositori": [2, 3, 5], "issu": 2, "idea": [2, 17, 18, 20], "sklearn": [2, 3, 7, 20], "The": [2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 16, 17, 18, 19, 20], "provid": [2, 3, 10, 17, 18, 19, 20], "set": [2, 3, 5, 6, 7, 8, 9, 10, 11, 12, 17, 20], "tool": 2, "build": [2, 9, 17, 18, 20], "rag": [2, 3, 17, 19, 20], "answer": [2, 6, 17, 19, 20], "question": [2, 17, 19, 20], "about": [2, 17, 20], "scikit": [2, 5, 9, 10, 16, 19, 20], "learn": [2, 5, 9, 10, 16, 19, 20], "librari": [2, 9, 20], "get": [2, 5, 6, 7, 8, 9, 10, 11, 12, 20], "start": [2, 20], "check": [2, 5, 6, 7, 8, 9, 10, 11, 12], "out": [2, 20], "guid": [2, 3, 5, 6, 7, 8, 9, 10, 11, 12], "instal": [2, 3], "extra": 2, "inform": [2, 5, 6, 7, 8, 9, 10, 11, 12, 19, 20], "new": [2, 5, 10, 11, 12, 17], "contribut": 2, "also": [2, 3, 17, 18, 19, 20], "To": [2, 3, 10, 18], "guidelin": 2, "user": [2, 3, 5, 6, 7, 8, 9, 10, 11, 12], "depth": [2, 17], "kei": [2, 5], "concept": [2, 20], "background": 2, "explan": [2, 20], "api": [2, 3, 5, 9, 10, 11, 12, 17], "refer": [2, 3, 18, 19, 20], "contain": [2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 16, 17, 19, 20], "detail": [2, 3, 18, 20], "descript": [2, 20], "avail": [2, 10, 18, 20], "exampl": [2, 3, 5, 10, 11, 12, 17], "galleri": [2, 3, 11, 17], "good": 2, "place": 2, "see": [2, 5, 10, 11, 12, 20], "action": 2, "select": [2, 3, 20], "an": [2, 3, 5, 6, 9, 10, 11, 12, 17, 18, 20], "dive": [2, 20], "eas": 3, "deploy": 3, "we": [3, 6, 8, 9, 10, 17, 18, 19, 20], "reli": [3, 20], "pixi": 3, "follow": [3, 5, 8, 9, 17, 19, 20], "short": [3, 20], "current": 3, "support": 3, "platform": 3, "should": [3, 5, 6, 10, 17, 19, 20], "enough": 3, "curl": 3, "fssl": 3, "http": [3, 17, 20], "sh": 3, "bash": 3, "In": [3, 17, 18, 19, 20, 21, 22], "latest": 3, "stage": [3, 17], "charg": [3, 19], "creat": [3, 5, 9, 10, 17, 18, 20], "python": [3, 20], "environ": 3, "alreadi": 3, "setup": 3, "sever": [3, 8, 17], "you": [3, 8, 17, 18, 19, 20], "depend": 3, "hardwar": 3, "your": 3, "dispos": 3, "cpu": [3, 5, 11, 12], "cross": [3, 8, 18], "e": [3, 5, 20], "linux": 3, "maco": 3, "x86_64": 3, "arm64": 3, "mp": [3, 5], "m1": 3, "m2": 3, "m3": 3, "chip": 3, "cuda": [3, 5], "12": 3, "1": [3, 5, 7, 9, 10, 11, 12, 17, 20], "machin": [3, 19, 20], "gpu": [3, 5], "make": [3, 17, 18, 19, 20], "experi": 3, "scalewai": 3, "instanc": [3, 5, 6, 7, 8, 9, 10, 11, 12, 18, 20], "l4": 3, "11": 3, "7": 3, "similar": [3, 9, 17, 18, 20], "instead": [3, 20], "note": [3, 8, 17, 20], "can": [3, 5, 8, 12, 17, 18, 20], "modifi": 3, "toml": 3, "own": 3, "sinc": [3, 18], "might": [3, 20], "suit": 3, "need": [3, 18, 20], "github": 3, "self": [3, 5, 6, 7, 8, 9, 10, 11, 12], "all": [3, 8, 18, 20], "necessari": 3, "file": [3, 20], "recurs": [3, 20], "wai": [3, 17, 20], "submodul": 3, "git": 3, "com": 3, "glemaitr": 3, "first": [3, 5, 17, 20], "html": [3, 10, 12, 19, 20], "gener": [3, 10, 19, 20], "page": [3, 10, 12, 18, 20], "run": [3, 11, 12, 17], "command": 3, "frozen": 3, "doc": 3, "have": [3, 5, 6, 7, 8, 9, 10, 11, 12, 17, 18, 19, 20], "differ": [3, 17, 20], "each": [3, 5, 6, 7, 8, 9, 10, 11, 12, 18, 20], "type": [3, 17, 18, 20], "more": [3, 10, 17, 18, 20], "strategi": [3, 6, 20], "propos": [3, 17], "specif": [3, 20], "specifi": [3, 20], "llm": [3, 6, 17, 19, 20], "For": [3, 10, 18, 19, 20], "test": 3, "purpos": [3, 19], "mistral": [3, 17, 20], "7b": [3, 20], "fetch": 3, "ar": [3, 5, 6, 7, 8, 9, 10, 11, 12, 17, 18, 19, 20], "Then": [3, 17, 18, 20], "requir": 3, "which": [3, 17, 20], "want": [3, 8, 17, 20], "offload": 3, "access": 3, "address": 3, "127": 3, "0": [3, 7, 20], "8123": 3, "when": [3, 17, 19, 20], "discuss": [3, 20], "earlier": 3, "edit": 3, "mode": 3, "howev": [3, 17, 18, 20], "via": 3, "pip": 3, "don": [3, 20], "t": [3, 20], "ani": [3, 18, 19], "better": [3, 17, 20], "handl": 3, "modul": [4, 5, 10, 16, 20], "ragger_duck": [4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 16], "function": [4, 10, 12, 16, 19, 20], "emb": [4, 5, 9], "transform": [4, 5, 7, 9, 10, 11, 12, 17, 18, 20], "allow": [4, 6, 19, 20], "text": [4, 5, 7, 10, 11, 12, 17], "class": [5, 6, 7, 8, 9, 10, 11, 12, 19, 20], "embed": [5, 9, 13, 18, 20], "model_name_or_path": 5, "none": [5, 6, 7, 8, 9, 10, 11, 12, 20], "devic": 5, "cache_fold": 5, "use_auth_token": 5, "batch_siz": 5, "32": 5, "show_progress_bar": 5, "true": [5, 6, 7, 8, 9, 10, 11, 12], "sentenc": [5, 9, 18, 19], "thin": 5, "wrapper": 5, "around": 5, "sentence_transform": [5, 8], "thu": [5, 20], "insid": 5, "pipelin": [5, 6, 7, 8, 9, 10, 11, 12, 20], "paramet": [5, 6, 7, 8, 9, 10, 11, 12, 20], "str": [5, 7, 8, 9, 12, 20], "default": [5, 6, 7, 8, 9, 10, 11, 12, 20], "If": [5, 6, 7, 8, 9, 10, 11, 12, 18, 20], "filepath": 5, "disc": 5, "load": 5, "model": [5, 6, 17, 18, 20], "from": [5, 7, 8, 9, 10, 11, 12, 17, 18, 20], "path": [5, 10, 11, 12], "tri": 5, "download": [5, 18], "pre": [5, 18], "train": [5, 7, 8, 9, 17, 18, 20], "fail": 5, "construct": 5, "huggingfac": [5, 18], "name": [5, 6, 7, 8, 9, 10, 11, 12, 18, 19], "iter": 5, "nn": 5, "custom": 5, "scratch": 5, "g": 5, "comput": [5, 7, 8, 9], "store": 5, "bool": [5, 6, 7, 8, 9, 10, 11, 12], "authent": 5, "token": [5, 20], "privat": 5, "int": [5, 7, 8, 9, 11, 12, 20], "batch": 5, "size": [5, 11, 12, 20], "dure": [5, 17, 18, 20], "whether": [5, 6, 8], "show": [5, 17, 20], "progress": [5, 21, 22], "bar": 5, "method": [5, 6, 7, 8, 9, 10, 11, 12, 18, 19, 20], "fit": [5, 6, 7, 8, 9, 10, 11, 12, 18, 20], "x": [5, 6, 7, 8, 9, 10, 11, 12, 17], "y": [5, 6, 7, 8, 9, 10, 11, 12, 17, 20], "No": [5, 6, 10, 11, 12], "op": [5, 6, 10, 11, 12], "oper": [5, 6, 10, 11, 12], "onli": [5, 6, 10, 11, 12, 20], "valid": [5, 6, 10, 11, 12, 20], "ignor": [5, 6, 7, 8, 9, 10, 11, 12], "return": [5, 6, 7, 8, 9, 10, 11, 12, 17, 20], "estim": [5, 6, 7, 8, 9, 10, 11, 12, 20], "fit_transform": [5, 10, 11, 12, 20], "fit_param": [5, 10, 11, 12], "data": [5, 7, 8, 9, 10, 11, 12, 19, 20], "option": [5, 10, 11, 12], "arrai": [5, 10, 11, 12, 20], "like": [5, 10, 11, 12, 18, 20], "shape": [5, 7, 9, 10, 11, 12, 20], "n_sampl": [5, 10, 11, 12], "n_featur": [5, 7, 9, 10, 11, 12], "input": [5, 7, 8, 9, 10, 11, 12, 20], "sampl": [5, 10, 11, 12, 20], "n_output": [5, 10, 11, 12], "target": [5, 10, 11, 12], "valu": [5, 6, 7, 8, 9, 10, 11, 12, 20], "unsupervis": [5, 10, 11, 12], "dict": [5, 6, 7, 8, 9, 10, 11, 12], "addit": [5, 10, 11, 12, 17, 19], "x_new": [5, 10, 11, 12], "ndarrai": [5, 7, 9, 10, 11, 12, 20], "n_features_new": [5, 10, 11, 12], "get_metadata_rout": [5, 6, 7, 8, 9, 10, 11, 12], "metadata": [5, 6, 7, 8, 9, 10, 11, 12], "rout": [5, 6, 7, 8, 9, 10, 11, 12], "object": [5, 6, 7, 8, 9, 10, 11, 12], "pleas": [5, 6, 7, 8, 9, 10, 11, 12], "how": [5, 6, 7, 8, 9, 10, 11, 12, 17, 20], "mechan": [5, 6, 7, 8, 9, 10, 11, 12, 20], "work": [5, 6, 7, 8, 9, 10, 11, 12], "metadatarequest": [5, 6, 7, 8, 9, 10, 11, 12], "A": [5, 6, 7, 8, 9, 10, 11, 12, 17, 19, 20], "encapsul": [5, 6, 7, 8, 9, 10, 11, 12], "get_param": [5, 6, 7, 8, 9, 10, 11, 12], "deep": [5, 6, 7, 8, 9, 10, 11, 12], "subobject": [5, 6, 7, 8, 9, 10, 11, 12], "param": [5, 6, 7, 8, 9, 10, 11, 12], "map": [5, 6, 7, 8, 9, 10, 11, 12], "set_output": [5, 10, 11, 12], "output": [5, 10, 11, 12], "sphx_glr_auto_examples_miscellaneous_plot_set_output": [5, 10, 11, 12], "py": [5, 10, 11, 12], "panda": [5, 10, 11, 12], "configur": [5, 10, 11, 12], "format": [5, 10, 11, 12], "datafram": [5, 10, 11, 12], "polar": [5, 10, 11, 12], "unchang": [5, 10, 11, 12], "4": [5, 10, 11, 12, 17], "wa": [5, 10, 11, 12], "ad": [5, 10, 11, 12], "set_param": [5, 6, 7, 8, 9, 10, 11, 12], "simpl": [5, 6, 7, 8, 9, 10, 11, 12, 17], "well": [5, 6, 7, 8, 9, 10, 11, 12], "nest": [5, 6, 7, 8, 9, 10, 11, 12], "latter": [5, 6, 7, 8, 9, 10, 11, 12], "form": [5, 6, 7, 8, 9, 10, 11, 12], "compon": [5, 6, 7, 8, 9, 10, 11, 12, 17], "__": [5, 6, 7, 8, 9, 10, 11, 12], "so": [5, 6, 7, 8, 9, 10, 11, 12, 20], "": [5, 6, 7, 8, 9, 10, 11, 12, 17, 20], "possibl": [5, 6, 7, 8, 9, 10, 11, 12], "updat": [5, 6, 7, 8, 9, 10, 11, 12], "vector": [5, 7, 17, 18, 20], "length": 5, "n_sentenc": [5, 7, 9], "singl": [5, 20], "list": [5, 7, 8, 9, 10, 11, 12, 20], "dictionari": [5, 10, 11, 12], "embedding_s": 5, "prompt": [6, 13, 17, 19], "retriev": [6, 7, 8, 9, 13, 19, 20], "use_retrieved_context": 6, "queri": [6, 7, 8, 9, 17, 18, 19, 20], "onc": 6, "context": [6, 8, 17, 18, 19, 20], "request": 6, "languag": [6, 17, 20], "expect": [6, 8, 9, 17, 20], "implement": [6, 8, 18, 20], "__call__": 6, "take": [6, 18], "respons": 6, "It": [6, 17, 19, 20], "instruct": 6, "base": [6, 7, 8, 17, 18, 19], "befor": [6, 17, 20], "count_vector": 7, "top_k": [7, 9], "b": 7, "75": 7, "k1": 7, "6": 7, "k": [7, 9, 18], "nearest": [7, 9, 17, 18], "neighbor": [7, 9, 17, 18], "lexic": [7, 8, 17], "search": [7, 17], "bm25": [7, 18], "count": [7, 17, 18], "term": [7, 18, 20], "document": [7, 8, 9, 10, 11, 12, 13, 17, 18], "feature_extract": [7, 20], "countvector": [7, 18], "number": [7, 8, 9, 11, 12, 20], "attribut": [7, 9, 11, 12, 20], "x_fit_": [7, 9], "x_counts_": 7, "spars": [7, 17], "matrix": 7, "n_document": 7, "count_vectorizer_": 7, "n_terms_by_document_": 7, "averaged_document_length_": 7, "float": [7, 8, 20], "averag": 7, "idf_": 7, "invers": 7, "frequenc": [7, 18], "vocabulari": [7, 8, 18], "idf": [7, 8, 18], "most": [7, 8, 9, 17, 20], "relev": [7, 8, 9, 17, 20], "cross_encod": 8, "min_top_k": 8, "max_top_k": 8, "threshold": 8, "drop_dupl": 8, "hybrid": 8, "semant": [8, 9, 17], "encod": [8, 18, 20], "rerank": [8, 17], "accept": 8, "case": [8, 17, 18, 20], "result": [8, 17, 20], "crossencod": 8, "minimum": 8, "less": 8, "than": [8, 20], "maximum": [8, 20], "filter": 8, "score": [8, 18], "drop": 8, "duplic": 8, "step": [8, 17], "done": [8, 17, 20], "after": 8, "index": [9, 17, 18, 20], "faiss": [9, 18], "x_embedded_": 9, "index_": 9, "inner": [9, 17], "product": 9, "cosin": 9, "mean": [9, 17, 18, 20], "normal": 9, "scrape": [10, 11, 12, 13, 17], "extract": [10, 11, 12, 19, 20], "numpydoc": 10, "discov": 10, "one": [10, 20], "autogener": 10, "usual": [10, 20], "public": 10, "present": [10, 17, 20], "leverag": [10, 17], "structur": [10, 20], "meaning": [10, 17, 20], "chunk": [10, 11, 12, 18], "notabl": 10, "everi": 10, "associ": [10, 20], "import": [10, 17, 19, 20], "read": [10, 20], "pathlib": [10, 11, 12], "chunk_siz": [11, 12, 20], "300": [11, 12], "chunk_overlap": [11, 12, 20], "50": [11, 12], "n_job": [11, 12], "split": [11, 12], "overlap": [11, 12, 20], "between": [11, 12, 17, 18, 20], "two": [11, 12, 17, 18, 20], "consecut": [11, 12], "job": [11, 12], "parallel": [11, 12], "core": [11, 12], "text_splitter_": [11, 12], "langchain": [11, 12], "text_splitt": [11, 12], "recursivecharactertextsplitt": [11, 12], "splitter": [11, 12], "folders_to_exclud": [12, 20], "process": [12, 20], "string": [12, 20], "correspond": [12, 17, 20], "exclud": [12, 20], "full": 13, "packag": 13, "apinumpydocextractor": [13, 20], "galleryexampleextractor": [13, 20], "userguidedocextractor": [13, 20], "sentencetransform": [13, 18], "bm25retriev": [13, 18], "semanticretriev": [13, 18], "retrieverrerank": [13, 18], "basicpromptingstrategi": [13, 19], "websit": 16, "go": [17, 20], "our": [17, 18, 20], "framework": [17, 19, 20], "high": [17, 20], "level": [17, 20], "overview": 17, "main": [17, 20], "let": [17, 20], "defin": 17, "larg": [17, 20], "graphic": 17, "below": [17, 19, 20], "repres": 17, "interact": 17, "proof": 17, "poc": [17, 19], "interest": [17, 20], "zero": 17, "shot": 17, "formul": 17, "natur": [17, 20], "through": 17, "gpt": 17, "openai": 17, "ii": 17, "local": 17, "open": 17, "weight": [17, 18], "llama": 17, "introduc": 17, "major": [17, 20], "previou": [17, 20], "consist": 17, "given": [17, 18, 20], "therefor": [17, 20], "condit": 17, "ha": [17, 20], "been": [17, 20], "extens": 17, "studi": 17, "past": 17, "relat": [17, 19, 20], "applic": 17, "engin": 17, "next": 17, "section": [17, 20], "explain": 17, "algorithm": [17, 18], "mathemat": 17, "represent": 17, "databas": [17, 18], "capabl": 17, "find": 17, "phase": 17, "These": [17, 20], "popul": 17, "pass": [17, 20], "found": [17, 19], "coupl": 17, "reader": 17, "comprehens": 17, "review": 17, "without": 17, "distinguish": 17, "bag": [17, 18], "word": [17, 18], "bow": 17, "neural": 17, "network": 17, "thei": [17, 20], "lack": 17, "abil": 17, "captur": 17, "approach": [17, 18, 20], "improv": [17, 20], "perform": [17, 20], "expand": 17, "topic": 17, "invert": 17, "continu": 17, "space": [17, 18], "while": [17, 18, 20], "complex": 17, "due": 17, "dens": 17, "approxim": [17, 18], "guo": 17, "j": 17, "cai": 17, "fan": 17, "sun": 17, "f": [17, 19], "zhang": 17, "r": 17, "cheng": 17, "2022": 17, "acm": 17, "transact": 17, "system": 17, "toi": 17, "40": 17, "42": 17, "arxiv": 17, "org": [17, 20], "ab": 17, "2103": 17, "04831": 17, "behind": [17, 20], "devil": 17, "obtain": 17, "scraper": 17, "merg": 17, "retriv": 17, "differenti": 18, "rank": 18, "could": [18, 20], "think": [18, 20], "distribut": [18, 20], "infer": 18, "limit": [18, 20], "doe": [18, 20], "account": 18, "robust": 18, "synonym": 18, "here": [18, 20], "tf": 18, "scheme": 18, "seen": 18, "regard": [18, 20], "wikipedia": 18, "flexibl": 18, "match": [18, 20], "closest": 18, "sens": 18, "posit": 18, "As": [18, 20], "both": [18, 20], "microsoft": 18, "bing": 18, "pair": 18, "adher": 18, "same": [18, 20], "top": [18, 19], "cherri": 19, "rather": 19, "part": 19, "trigger": 19, "did": 19, "intend": [19, 20], "optim": 19, "becaus": [19, 20], "hand": 19, "proper": 19, "evalu": [19, 20], "interfac": 19, "prototyp": 19, "bypass": 19, "inst": 19, "expert": [19, 20], "abl": [19, 20], "n": 19, "nanswer": 19, "content": [19, 20], "compos": 19, "contextu": 19, "nbe": 19, "succinct": 19, "sure": 19, "backtick": 19, "whenev": 19, "underscor": 19, "context_queri": 19, "do": 19, "augment": 20, "aspect": 20, "awar": 20, "rel": 20, "focus": 20, "reach": 20, "common": 20, "variou": 20, "tutori": 20, "fast": 20, "best": 20, "subsequ": 20, "design": 20, "certain": 20, "portion": 20, "entri": 20, "point": 20, "stabl": 20, "automat": 20, "docstr": 20, "help": 20, "inde": 20, "usag": 20, "snippet": 20, "code": 20, "narrat": 20, "further": 20, "would": 20, "what": 20, "logisticregress": 20, "dummi": 20, "classifi": 20, "frame": 20, "forward": 20, "naiv": 20, "describ": 20, "abov": 20, "fall": 20, "illustr": 20, "consid": 20, "second": 20, "dummyclassifi": 20, "relationship": 20, "where": 20, "mention": 20, "belong": 20, "three": 20, "most_frequ": 20, "prior": 20, "stratifi": 20, "uniform": 20, "constant": 20, "predict": 20, "alwai": 20, "frequent": 20, "label": 20, "observ": 20, "argument": 20, "predict_proba": 20, "hot": 20, "empir": 20, "known": 20, "randomli": 20, "multinomi": 20, "parametr": 20, "probabl": 20, "got": 20, "row": 20, "independ": 20, "ident": 20, "uniformli": 20, "random": 20, "uniqu": 20, "equal": 20, "metric": 20, "non": 20, "2": 20, "median": 20, "quantil": 20, "3": 20, "imput": 20, "replac": 20, "miss": 20, "along": 20, "column": 20, "numer": 20, "smallest": 20, "fill_valu": 20, "dummyregressor": 20, "simpleimput": 20, "human": 20, "who": 20, "familiar": 20, "determin": 20, "knowledg": 20, "come": 20, "otherwis": 20, "summar": 20, "unhelp": 20, "straightforward": 20, "solut": 20, "problem": 20, "beyond": 20, "u": 20, "disambigu": 20, "previous": 20, "state": 20, "formal": 20, "parser": 20, "know": 20, "etc": 20, "control": 20, "never": 20, "too": 20, "versionchang": 20, "24": 20, "chang": 20, "By": 20, "maintain": 20, "its": 20, "enabl": 20, "individu": 20, "signatur": 20, "extend": 20, "summari": 20, "imag": 20, "extract_patches_2d": 20, "patch_siz": 20, "max_patch": 20, "random_st": 20, "reshap": 20, "2d": 20, "collect": 20, "patch": 20, "alloc": 20, "dedic": 20, "ref": 20, "image_feature_extract": 20, "origin": 20, "color": 20, "last": 20, "dimens": 20, "channel": 20, "rgb": 20, "n_channel": 20, "image_height": 20, "image_width": 20, "tupl": 20, "patch_height": 20, "patch_width": 20, "taken": 20, "proport": 20, "total": 20, "determinist": 20, "glossari": 20, "randomst": 20, "n_patch": 20, "either": 20, "dataset": 20, "load_sample_imag": 20, "one_imag": 20, "china": 20, "jpg": 20, "print": 20, "427": 20, "640": 20, "272214": 20, "just": 20, "174": 20, "201": 20, "231": 20, "173": 20, "200": 20, "230": 20, "800": 20, "187": 20, "214": 20, "243": 20, "188": 20, "215": 20, "244": 20, "narr": 20, "handwritten": 20, "those": 20, "translat": 20, "user_guid": 20, "look": 20, "appropri": 20, "manner": 20, "beautifulsoup4": 20, "pars": 20, "quit": 20, "exce": 20, "truncat": 20, "seem": 20, "small": 20, "benefici": 20, "multipl": 20, "time": 20, "forse": 20, "within": 20, "futur": 20, "incorpor": 20, "written": 20, "sphinx": 20, "auto_exampl": 20, "mainli": 20, "shown": 20, "titl": 20, "block": 20, "interlac": 20, "separ": 20, "introduct": 20, "scrapper": 20, "stateless": 20, "happen": 20, "call": 20}, "objects": {"ragger_duck": [[4, 0, 0, "-", "embedding"], [14, 0, 0, "-", "prompt"], [15, 0, 0, "-", "retrieval"], [16, 0, 0, "-", "scraping"]], "ragger_duck.embedding": [[5, 1, 1, "", "SentenceTransformer"]], "ragger_duck.embedding.SentenceTransformer": [[5, 2, 1, "", "fit"], [5, 2, 1, "", "fit_transform"], [5, 2, 1, "", "get_metadata_routing"], [5, 2, 1, "", "get_params"], [5, 2, 1, "", "set_output"], [5, 2, 1, "", "set_params"], [5, 2, 1, "", "transform"]], "ragger_duck.prompt": [[6, 1, 1, "", "BasicPromptingStrategy"]], "ragger_duck.prompt.BasicPromptingStrategy": [[6, 2, 1, "", "fit"], [6, 2, 1, "", "get_metadata_routing"], [6, 2, 1, "", "get_params"], [6, 2, 1, "", "set_params"]], "ragger_duck.retrieval": [[7, 1, 1, "", "BM25Retriever"], [8, 1, 1, "", "RetrieverReranker"], [9, 1, 1, "", "SemanticRetriever"]], "ragger_duck.retrieval.BM25Retriever": [[7, 2, 1, "", "fit"], [7, 2, 1, "", "get_metadata_routing"], [7, 2, 1, "", "get_params"], [7, 2, 1, "", "query"], [7, 2, 1, "", "set_params"]], "ragger_duck.retrieval.RetrieverReranker": [[8, 2, 1, "", "fit"], [8, 2, 1, "", "get_metadata_routing"], [8, 2, 1, "", "get_params"], [8, 2, 1, "", "query"], [8, 2, 1, "", "set_params"]], "ragger_duck.retrieval.SemanticRetriever": [[9, 2, 1, "", "fit"], [9, 2, 1, "", "get_metadata_routing"], [9, 2, 1, "", "get_params"], [9, 2, 1, "", "query"], [9, 2, 1, "", "set_params"]], "ragger_duck.scraping": [[10, 1, 1, "", "APINumPyDocExtractor"], [11, 1, 1, "", "GalleryExampleExtractor"], [12, 1, 1, "", "UserGuideDocExtractor"]], "ragger_duck.scraping.APINumPyDocExtractor": [[10, 2, 1, "", "fit"], [10, 2, 1, "", "fit_transform"], [10, 2, 1, "", "get_metadata_routing"], [10, 2, 1, "", "get_params"], [10, 2, 1, "", "set_output"], [10, 2, 1, "", "set_params"], [10, 2, 1, "", "transform"]], "ragger_duck.scraping.GalleryExampleExtractor": [[11, 2, 1, "", "fit"], [11, 2, 1, "", "fit_transform"], [11, 2, 1, "", "get_metadata_routing"], [11, 2, 1, "", "get_params"], [11, 2, 1, "", "set_output"], [11, 2, 1, "", "set_params"], [11, 2, 1, "", "transform"]], "ragger_duck.scraping.UserGuideDocExtractor": [[12, 2, 1, "", "fit"], [12, 2, 1, "", "fit_transform"], [12, 2, 1, "", "get_metadata_routing"], [12, 2, 1, "", "get_params"], [12, 2, 1, "", "set_output"], [12, 2, 1, "", "set_params"], [12, 2, 1, "", "transform"]]}, "objtypes": {"0": "py:module", "1": "py:class", "2": "py:method"}, "objnames": {"0": ["py", "module", "Python module"], "1": ["py", "class", "Python class"], "2": ["py", "method", "Python method"]}, "titleterms": {"about": 0, "u": 0, "exampl": [1, 20], "ragger": [2, 3], "duck": [2, 3], "document": [2, 3, 16, 20], "get": 3, "start": 3, "deploi": 3, "clone": 3, "project": 3, "build": 3, "scikit": 3, "learn": 3, "train": 3, "semant": [3, 18], "lexic": [3, 18], "retriev": [3, 15, 17, 18], "download": 3, "larg": [3, 19], "languag": [3, 19], "model": [3, 19], "launch": 3, "web": 3, "consol": 3, "us": 3, "librari": 3, "embed": 4, "sentencetransform": 5, "basicpromptingstrategi": 6, "bm25retriev": 7, "retrieverrerank": 8, "semanticretriev": 9, "apinumpydocextractor": 10, "galleryexampleextractor": 11, "userguidedocextractor": 12, "api": [13, 18, 20], "refer": [13, 17], "prompt": 14, "scrape": [16, 20], "user": [17, 20], "guid": [17, 20], "what": 17, "i": 17, "augment": 17, "gener": 17, "inform": 17, "concept": 17, "detail": 17, "regard": 17, "implement": 17, "rerank": 18, "merg": 18, "result": 18, "retriv": 18, "text": 20, "scraper": 20, "chunk": 20, "format": 20, "leverag": 20, "numpydoc": 20, "galleri": 20, "releas": 21, "histori": 21, "version": [21, 22], "0": [21, 22], "1": [21, 22], "changelog": [21, 22]}, "envversion": {"sphinx.domains.c": 3, "sphinx.domains.changeset": 1, "sphinx.domains.citation": 1, "sphinx.domains.cpp": 9, "sphinx.domains.index": 1, "sphinx.domains.javascript": 3, "sphinx.domains.math": 2, "sphinx.domains.python": 4, "sphinx.domains.rst": 2, "sphinx.domains.std": 2, "sphinx": 60}, "alltitles": {"About us": [[0, "about-us"]], "Examples": [[1, "examples"]], "Ragger Duck documentation": [[2, "ragger-duck-documentation"]], "Getting Started": [[3, "getting-started"]], "Deploy Ragger Duck": [[3, "deploy-ragger-duck"]], "Cloning the project": [[3, "cloning-the-project"]], "Build the scikit-learn documentation": [[3, "build-the-scikit-learn-documentation"]], "Train the semantic and lexical retrievers": [[3, "train-the-semantic-and-lexical-retrievers"]], "Download the Large Language Model": [[3, "download-the-large-language-model"]], "Launch the Web Console": [[3, "launch-the-web-console"]], "Use the Ragger Duck library": [[3, "use-the-ragger-duck-library"]], "Embedding": [[4, "module-ragger_duck.embedding"]], "SentenceTransformer": [[5, "sentencetransformer"]], "BasicPromptingStrategy": [[6, "basicpromptingstrategy"]], "BM25Retriever": [[7, "bm25retriever"]], "RetrieverReranker": [[8, "retrieverreranker"]], "SemanticRetriever": [[9, "semanticretriever"]], "APINumPyDocExtractor": [[10, "apinumpydocextractor"]], "GalleryExampleExtractor": [[11, "galleryexampleextractor"]], "UserGuideDocExtractor": [[12, "userguidedocextractor"]], "API reference": [[13, "api-reference"]], "Prompt": [[14, "module-ragger_duck.prompt"]], "Retrieval": [[15, "module-ragger_duck.retrieval"]], "Scraping the documentation": [[16, "module-ragger_duck.scraping"]], "User Guide": [[17, "user-guide"]], "What is Retrieval Augmented Generation?": [[17, "what-is-retrieval-augmented-generation"]], "Information retrieval": [[17, "information-retrieval"]], "Concepts": [[17, "concepts"]], "Details regarding the retrievers": [[17, "details-regarding-the-retrievers"]], "References": [[17, "references"]], "Implementation details": [[17, "implementation-details"]], "Retriever": [[18, "retriever"]], "Lexical retrievers": [[18, "lexical-retrievers"]], "Semantic retrievers": [[18, "semantic-retrievers"]], "Reranker: merging lexical and semantic retrievers results": [[18, "reranker-merging-lexical-and-semantic-retrievers-results"]], "API of retrivers and reranker": [[18, "api-of-retrivers-and-reranker"]], "Large Language Model": [[19, "large-language-model"]], "Text Scraping": [[20, "text-scraping"]], "API documentation scraper": [[20, "api-documentation-scraper"]], "Chunk formatting leveraging numpydoc": [[20, "chunk-formatting-leveraging-numpydoc"]], "User Guide documentation scraper": [[20, "user-guide-documentation-scraper"]], "Example gallery scraper": [[20, "example-gallery-scraper"]], "Scraper API": [[20, "scraper-api"]], "Release history": [[21, "release-history"]], "Version 0.1": [[21, "version-0-1"], [22, "version-0-1"]], "Changelog": [[21, "changelog"], [22, "changelog"]]}, "indexentries": {"module": [[4, "module-ragger_duck.embedding"], [14, "module-ragger_duck.prompt"], [15, "module-ragger_duck.retrieval"], [16, "module-ragger_duck.scraping"]], "ragger_duck.embedding": [[4, "module-ragger_duck.embedding"]], "sentencetransformer (class in ragger_duck.embedding)": [[5, "ragger_duck.embedding.SentenceTransformer"]], "fit() (ragger_duck.embedding.sentencetransformer method)": [[5, "ragger_duck.embedding.SentenceTransformer.fit"]], "fit_transform() (ragger_duck.embedding.sentencetransformer method)": [[5, "ragger_duck.embedding.SentenceTransformer.fit_transform"]], "get_metadata_routing() (ragger_duck.embedding.sentencetransformer method)": [[5, "ragger_duck.embedding.SentenceTransformer.get_metadata_routing"]], "get_params() (ragger_duck.embedding.sentencetransformer method)": [[5, "ragger_duck.embedding.SentenceTransformer.get_params"]], "set_output() (ragger_duck.embedding.sentencetransformer method)": [[5, "ragger_duck.embedding.SentenceTransformer.set_output"]], "set_params() (ragger_duck.embedding.sentencetransformer method)": [[5, "ragger_duck.embedding.SentenceTransformer.set_params"]], "transform() (ragger_duck.embedding.sentencetransformer method)": [[5, "ragger_duck.embedding.SentenceTransformer.transform"]], "basicpromptingstrategy (class in ragger_duck.prompt)": [[6, "ragger_duck.prompt.BasicPromptingStrategy"]], "fit() (ragger_duck.prompt.basicpromptingstrategy method)": [[6, "ragger_duck.prompt.BasicPromptingStrategy.fit"]], "get_metadata_routing() (ragger_duck.prompt.basicpromptingstrategy method)": [[6, "ragger_duck.prompt.BasicPromptingStrategy.get_metadata_routing"]], "get_params() (ragger_duck.prompt.basicpromptingstrategy method)": [[6, "ragger_duck.prompt.BasicPromptingStrategy.get_params"]], "set_params() (ragger_duck.prompt.basicpromptingstrategy method)": [[6, "ragger_duck.prompt.BasicPromptingStrategy.set_params"]], "bm25retriever (class in ragger_duck.retrieval)": [[7, "ragger_duck.retrieval.BM25Retriever"]], "fit() (ragger_duck.retrieval.bm25retriever method)": [[7, "ragger_duck.retrieval.BM25Retriever.fit"]], "get_metadata_routing() (ragger_duck.retrieval.bm25retriever method)": [[7, "ragger_duck.retrieval.BM25Retriever.get_metadata_routing"]], "get_params() (ragger_duck.retrieval.bm25retriever method)": [[7, "ragger_duck.retrieval.BM25Retriever.get_params"]], "query() (ragger_duck.retrieval.bm25retriever method)": [[7, "ragger_duck.retrieval.BM25Retriever.query"]], "set_params() (ragger_duck.retrieval.bm25retriever method)": [[7, "ragger_duck.retrieval.BM25Retriever.set_params"]], "retrieverreranker (class in ragger_duck.retrieval)": [[8, "ragger_duck.retrieval.RetrieverReranker"]], "fit() (ragger_duck.retrieval.retrieverreranker method)": [[8, "ragger_duck.retrieval.RetrieverReranker.fit"]], "get_metadata_routing() (ragger_duck.retrieval.retrieverreranker method)": [[8, "ragger_duck.retrieval.RetrieverReranker.get_metadata_routing"]], "get_params() (ragger_duck.retrieval.retrieverreranker method)": [[8, "ragger_duck.retrieval.RetrieverReranker.get_params"]], "query() (ragger_duck.retrieval.retrieverreranker method)": [[8, "ragger_duck.retrieval.RetrieverReranker.query"]], "set_params() (ragger_duck.retrieval.retrieverreranker method)": [[8, "ragger_duck.retrieval.RetrieverReranker.set_params"]], "semanticretriever (class in ragger_duck.retrieval)": [[9, "ragger_duck.retrieval.SemanticRetriever"]], "fit() (ragger_duck.retrieval.semanticretriever method)": [[9, "ragger_duck.retrieval.SemanticRetriever.fit"]], "get_metadata_routing() (ragger_duck.retrieval.semanticretriever method)": [[9, "ragger_duck.retrieval.SemanticRetriever.get_metadata_routing"]], "get_params() (ragger_duck.retrieval.semanticretriever method)": [[9, "ragger_duck.retrieval.SemanticRetriever.get_params"]], "query() (ragger_duck.retrieval.semanticretriever method)": [[9, "ragger_duck.retrieval.SemanticRetriever.query"]], "set_params() (ragger_duck.retrieval.semanticretriever method)": [[9, "ragger_duck.retrieval.SemanticRetriever.set_params"]], "apinumpydocextractor (class in ragger_duck.scraping)": [[10, "ragger_duck.scraping.APINumPyDocExtractor"]], "fit() (ragger_duck.scraping.apinumpydocextractor method)": [[10, "ragger_duck.scraping.APINumPyDocExtractor.fit"]], "fit_transform() (ragger_duck.scraping.apinumpydocextractor method)": [[10, "ragger_duck.scraping.APINumPyDocExtractor.fit_transform"]], "get_metadata_routing() (ragger_duck.scraping.apinumpydocextractor method)": [[10, "ragger_duck.scraping.APINumPyDocExtractor.get_metadata_routing"]], "get_params() (ragger_duck.scraping.apinumpydocextractor method)": [[10, "ragger_duck.scraping.APINumPyDocExtractor.get_params"]], "set_output() (ragger_duck.scraping.apinumpydocextractor method)": [[10, "ragger_duck.scraping.APINumPyDocExtractor.set_output"]], "set_params() (ragger_duck.scraping.apinumpydocextractor method)": [[10, "ragger_duck.scraping.APINumPyDocExtractor.set_params"]], "transform() (ragger_duck.scraping.apinumpydocextractor method)": [[10, "ragger_duck.scraping.APINumPyDocExtractor.transform"]], "galleryexampleextractor (class in ragger_duck.scraping)": [[11, "ragger_duck.scraping.GalleryExampleExtractor"]], "fit() (ragger_duck.scraping.galleryexampleextractor method)": [[11, "ragger_duck.scraping.GalleryExampleExtractor.fit"]], "fit_transform() (ragger_duck.scraping.galleryexampleextractor method)": [[11, "ragger_duck.scraping.GalleryExampleExtractor.fit_transform"]], "get_metadata_routing() (ragger_duck.scraping.galleryexampleextractor method)": [[11, "ragger_duck.scraping.GalleryExampleExtractor.get_metadata_routing"]], "get_params() (ragger_duck.scraping.galleryexampleextractor method)": [[11, "ragger_duck.scraping.GalleryExampleExtractor.get_params"]], "set_output() (ragger_duck.scraping.galleryexampleextractor method)": [[11, "ragger_duck.scraping.GalleryExampleExtractor.set_output"]], "set_params() (ragger_duck.scraping.galleryexampleextractor method)": [[11, "ragger_duck.scraping.GalleryExampleExtractor.set_params"]], "transform() (ragger_duck.scraping.galleryexampleextractor method)": [[11, "ragger_duck.scraping.GalleryExampleExtractor.transform"]], "userguidedocextractor (class in ragger_duck.scraping)": [[12, "ragger_duck.scraping.UserGuideDocExtractor"]], "fit() (ragger_duck.scraping.userguidedocextractor method)": [[12, "ragger_duck.scraping.UserGuideDocExtractor.fit"]], "fit_transform() (ragger_duck.scraping.userguidedocextractor method)": [[12, "ragger_duck.scraping.UserGuideDocExtractor.fit_transform"]], "get_metadata_routing() (ragger_duck.scraping.userguidedocextractor method)": [[12, "ragger_duck.scraping.UserGuideDocExtractor.get_metadata_routing"]], "get_params() (ragger_duck.scraping.userguidedocextractor method)": [[12, "ragger_duck.scraping.UserGuideDocExtractor.get_params"]], "set_output() (ragger_duck.scraping.userguidedocextractor method)": [[12, "ragger_duck.scraping.UserGuideDocExtractor.set_output"]], "set_params() (ragger_duck.scraping.userguidedocextractor method)": [[12, "ragger_duck.scraping.UserGuideDocExtractor.set_params"]], "transform() (ragger_duck.scraping.userguidedocextractor method)": [[12, "ragger_duck.scraping.UserGuideDocExtractor.transform"]], "ragger_duck.prompt": [[14, "module-ragger_duck.prompt"]], "ragger_duck.retrieval": [[15, "module-ragger_duck.retrieval"]], "ragger_duck.scraping": [[16, "module-ragger_duck.scraping"]]}})
\ No newline at end of file
diff --git a/user_guide/index.html b/user_guide/index.html
index a0c2496..a21ee3a 100644
--- a/user_guide/index.html
+++ b/user_guide/index.html
@@ -384,7 +384,7 @@
   <div class="bd-toc-item navbar-nav"><ul class="nav bd-sidenav">
 <li class="toctree-l1"><a class="reference internal" href="text_scraping.html">Text Scraping</a></li>
 <li class="toctree-l1"><a class="reference internal" href="information_retrieval.html">Retriever</a></li>
-<li class="toctree-l1"><a class="reference internal" href="large_language_model.html">Prompting</a></li>
+<li class="toctree-l1"><a class="reference internal" href="large_language_model.html">Large Language Model</a></li>
 </ul>
 </div>
 </nav></div>
@@ -533,14 +533,11 @@ <h2>Implementation details<a class="headerlink" href="#implementation-details" t
 <li class="toctree-l1"><a class="reference internal" href="information_retrieval.html">Retriever</a><ul>
 <li class="toctree-l2"><a class="reference internal" href="information_retrieval.html#lexical-retrievers">Lexical retrievers</a></li>
 <li class="toctree-l2"><a class="reference internal" href="information_retrieval.html#semantic-retrievers">Semantic retrievers</a></li>
-<li class="toctree-l2"><a class="reference internal" href="information_retrieval.html#reranker-merging-lexical-and-semantic-retrievers">Reranker: merging lexical and semantic retrievers</a></li>
-<li class="toctree-l2"><a class="reference internal" href="information_retrieval.html#api-of-retrivers-and-reranker">API of retrivers and Reranker</a></li>
-</ul>
-</li>
-<li class="toctree-l1"><a class="reference internal" href="large_language_model.html">Prompting</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="large_language_model.html#prompting-for-api-documentation">Prompting for API documentation</a></li>
+<li class="toctree-l2"><a class="reference internal" href="information_retrieval.html#reranker-merging-lexical-and-semantic-retrievers-results">Reranker: merging lexical and semantic retrievers results</a></li>
+<li class="toctree-l2"><a class="reference internal" href="information_retrieval.html#api-of-retrivers-and-reranker">API of retrivers and reranker</a></li>
 </ul>
 </li>
+<li class="toctree-l1"><a class="reference internal" href="large_language_model.html">Large Language Model</a></li>
 </ul>
 </div>
 </section>
diff --git a/user_guide/information_retrieval.html b/user_guide/information_retrieval.html
index ea7e669..6aa6f8b 100644
--- a/user_guide/information_retrieval.html
+++ b/user_guide/information_retrieval.html
@@ -45,7 +45,7 @@
     <link rel="author" title="About these documents" href="../about.html" />
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
-    <link rel="next" title="Prompting" href="large_language_model.html" />
+    <link rel="next" title="Large Language Model" href="large_language_model.html" />
     <link rel="prev" title="Text Scraping" href="text_scraping.html" />
   <meta name="viewport" content="width=device-width, initial-scale=1"/>
   <meta name="docsearch:language" content="en"/>
@@ -384,7 +384,7 @@
   <div class="bd-toc-item navbar-nav"><ul class="current nav bd-sidenav">
 <li class="toctree-l1"><a class="reference internal" href="text_scraping.html">Text Scraping</a></li>
 <li class="toctree-l1 current active"><a class="current reference internal" href="#">Retriever</a></li>
-<li class="toctree-l1"><a class="reference internal" href="large_language_model.html">Prompting</a></li>
+<li class="toctree-l1"><a class="reference internal" href="large_language_model.html">Large Language Model</a></li>
 </ul>
 </div>
 </nav></div>
@@ -475,15 +475,15 @@ <h2>Semantic retrievers<a class="headerlink" href="#semantic-retrievers" title="
 <p>As embedding, we provide a <a class="reference internal" href="../references/generated/ragger_duck.embedding.SentenceTransformer.html#ragger_duck.embedding.SentenceTransformer" title="ragger_duck.embedding.SentenceTransformer"><code class="xref py py-class docutils literal notranslate"><span class="pre">SentenceTransformer</span></code></a> that
 download any pre-trained sentence transformers from HuggingFace.</p>
 </section>
-<section id="reranker-merging-lexical-and-semantic-retrievers">
-<h2>Reranker: merging lexical and semantic retrievers<a class="headerlink" href="#reranker-merging-lexical-and-semantic-retrievers" title="Link to this heading">#</a></h2>
+<section id="reranker-merging-lexical-and-semantic-retrievers-results">
+<h2>Reranker: merging lexical and semantic retrievers results<a class="headerlink" href="#reranker-merging-lexical-and-semantic-retrievers-results" title="Link to this heading">#</a></h2>
 <p>If we use both lexical and semantic retrievers, we need to merge the results of both
 retrievers. <a class="reference internal" href="../references/generated/ragger_duck.retrieval.RetrieverReranker.html#ragger_duck.retrieval.RetrieverReranker" title="ragger_duck.retrieval.RetrieverReranker"><code class="xref py py-class docutils literal notranslate"><span class="pre">RetrieverReranker</span></code></a> makes such reranking by
 using a cross-encoder model. In our case, cross-encoder model is trained on Microsoft
 Bing query-document pairs and is available on HuggingFace.</p>
 </section>
 <section id="api-of-retrivers-and-reranker">
-<h2>API of retrivers and Reranker<a class="headerlink" href="#api-of-retrivers-and-reranker" title="Link to this heading">#</a></h2>
+<h2>API of retrivers and reranker<a class="headerlink" href="#api-of-retrivers-and-reranker" title="Link to this heading">#</a></h2>
 <p>All retrievers and reranker adhere to the same API with a <code class="docutils literal notranslate"><span class="pre">fit</span></code> and <code class="docutils literal notranslate"><span class="pre">query</span></code> method.
 For the retrievers, the <code class="docutils literal notranslate"><span class="pre">fit</span></code> method is used to create the index while the <code class="docutils literal notranslate"><span class="pre">query</span></code>
 method is used to retrieve the top-k documents given a query.</p>
@@ -514,7 +514,7 @@ <h2>API of retrivers and Reranker<a class="headerlink" href="#api-of-retrivers-a
        title="next page">
       <div class="prev-next-info">
         <p class="prev-next-subtitle">next</p>
-        <p class="prev-next-title">Prompting</p>
+        <p class="prev-next-title">Large Language Model</p>
       </div>
       <i class="fa-solid fa-angle-right"></i>
     </a>
@@ -538,8 +538,8 @@ <h2>API of retrivers and Reranker<a class="headerlink" href="#api-of-retrivers-a
     <ul class="visible nav section-nav flex-column">
 <li class="toc-h2 nav-item toc-entry"><a class="reference internal nav-link" href="#lexical-retrievers">Lexical retrievers</a></li>
 <li class="toc-h2 nav-item toc-entry"><a class="reference internal nav-link" href="#semantic-retrievers">Semantic retrievers</a></li>
-<li class="toc-h2 nav-item toc-entry"><a class="reference internal nav-link" href="#reranker-merging-lexical-and-semantic-retrievers">Reranker: merging lexical and semantic retrievers</a></li>
-<li class="toc-h2 nav-item toc-entry"><a class="reference internal nav-link" href="#api-of-retrivers-and-reranker">API of retrivers and Reranker</a></li>
+<li class="toc-h2 nav-item toc-entry"><a class="reference internal nav-link" href="#reranker-merging-lexical-and-semantic-retrievers-results">Reranker: merging lexical and semantic retrievers results</a></li>
+<li class="toc-h2 nav-item toc-entry"><a class="reference internal nav-link" href="#api-of-retrivers-and-reranker">API of retrivers and reranker</a></li>
 </ul>
   </nav></div>
 
diff --git a/user_guide/large_language_model.html b/user_guide/large_language_model.html
index 0a749e3..fb70506 100644
--- a/user_guide/large_language_model.html
+++ b/user_guide/large_language_model.html
@@ -8,7 +8,7 @@
     <meta charset="utf-8" />
     <meta name="viewport" content="width=device-width, initial-scale=1.0" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
-    <title>Prompting &#8212; Ragger Duck 0.0.1.dev0 documentation</title>
+    <title>Large Language Model &#8212; Ragger Duck 0.0.1.dev0 documentation</title>
   
   
   
@@ -384,7 +384,7 @@
   <div class="bd-toc-item navbar-nav"><ul class="current nav bd-sidenav">
 <li class="toctree-l1"><a class="reference internal" href="text_scraping.html">Text Scraping</a></li>
 <li class="toctree-l1"><a class="reference internal" href="information_retrieval.html">Retriever</a></li>
-<li class="toctree-l1 current active"><a class="current reference internal" href="#">Prompting</a></li>
+<li class="toctree-l1 current active"><a class="current reference internal" href="#">Large Language Model</a></li>
 </ul>
 </div>
 </nav></div>
@@ -425,7 +425,7 @@
     
     <li class="breadcrumb-item"><a href="index.html" class="nav-link">User Guide</a></li>
     
-    <li class="breadcrumb-item active" aria-current="page">Prompting</li>
+    <li class="breadcrumb-item active" aria-current="page">Large Language Model</li>
   </ul>
 </nav>
 </div>
@@ -442,15 +442,30 @@
 <div id="searchbox"></div>
                 <article class="bd-article">
                   
-  <section id="prompting">
-<span id="large-language-model"></span><h1>Prompting<a class="headerlink" href="#prompting" title="Link to this heading">#</a></h1>
-<section id="prompting-for-api-documentation">
-<h2>Prompting for API documentation<a class="headerlink" href="#prompting-for-api-documentation" title="Link to this heading">#</a></h2>
-<p><a class="reference internal" href="../references/generated/ragger_duck.prompt.BasicPromptingStrategy.html#ragger_duck.prompt.BasicPromptingStrategy" title="ragger_duck.prompt.BasicPromptingStrategy"><code class="xref py py-class docutils literal notranslate"><span class="pre">BasicPromptingStrategy</span></code></a> implements a prompting
-strategy to answer documentation questions. We get context by reranking the
-search from a lexical and semantic retrievers. Once the context is retrieved,
-we request a Large Language Model (LLM) to answer the question.</p>
-</section>
+  <section id="large-language-model">
+<span id="id1"></span><h1>Large Language Model<a class="headerlink" href="#large-language-model" title="Link to this heading">#</a></h1>
+<p>In the RAG framework, the Large Language Model (LLM) is the cherry on top. It is in
+charge of generating the answer to the query based on the context retrieved.</p>
+<p>A rather important part of the LLM is related to the prompt to trigger the generation.
+In this POC, we did not intend to optimize the prompt because we did not have the data
+at hand to make a proper evaluation.</p>
+<p><a class="reference internal" href="../references/generated/ragger_duck.prompt.BasicPromptingStrategy.html#ragger_duck.prompt.BasicPromptingStrategy" title="ragger_duck.prompt.BasicPromptingStrategy"><code class="xref py py-class docutils literal notranslate"><span class="pre">BasicPromptingStrategy</span></code></a> allows to interface the LLM with
+the context found by the retriever. For prototyping purposes, we also allow the
+retrievers to be bypassed. The prompt provided to the LLM is the following:</p>
+<div class="highlight-default notranslate"><div class="highlight"><pre><span></span><span class="n">prompt</span> <span class="o">=</span> <span class="p">(</span>
+    <span class="s2">&quot;[INST] You are a scikit-learn expert that should be able to answer&quot;</span>
+    <span class="s2">&quot; machine-learning question.</span><span class="se">\n\n</span><span class="s2">Answer to the query below using the&quot;</span>
+    <span class="s2">&quot; additional provided content. The additional content is composed of&quot;</span>
+    <span class="s2">&quot; the HTML link to the source and the extracted contextual&quot;</span>
+    <span class="s2">&quot; information.</span><span class="se">\n\n</span><span class="s2">Be succinct.</span><span class="se">\n\n</span><span class="s2">&quot;</span>
+    <span class="s2">&quot;Make sure to use backticks whenever you refer to class, function, &quot;</span>
+    <span class="s2">&quot;method, or name that contains underscores.</span><span class="se">\n\n</span><span class="s2">&quot;</span>
+    <span class="sa">f</span><span class="s2">&quot;query: </span><span class="si">{</span><span class="n">query</span><span class="si">}</span><span class="se">\n\n</span><span class="si">{</span><span class="n">context_query</span><span class="si">}</span><span class="s2"> [/INST].&quot;</span>
+<span class="p">)</span>
+</pre></div>
+</div>
+<p>When bypassing the retrievers, we do not provide any context and the sentence related
+to this part.</p>
 </section>
 
 
@@ -492,18 +507,6 @@ <h2>Prompting for API documentation<a class="headerlink" href="#prompting-for-ap
 
 
   <div class="sidebar-secondary-item">
-<div
-    id="pst-page-navigation-heading-2"
-    class="page-toc tocsection onthispage">
-    <i class="fa-solid fa-list"></i> On this page
-  </div>
-  <nav class="bd-toc-nav page-toc" aria-labelledby="pst-page-navigation-heading-2">
-    <ul class="visible nav section-nav flex-column">
-<li class="toc-h2 nav-item toc-entry"><a class="reference internal nav-link" href="#prompting-for-api-documentation">Prompting for API documentation</a></li>
-</ul>
-  </nav></div>
-
-  <div class="sidebar-secondary-item">
 
   
   <div class="tocsection editthispage">
diff --git a/user_guide/text_scraping.html b/user_guide/text_scraping.html
index 5324889..f7d819d 100644
--- a/user_guide/text_scraping.html
+++ b/user_guide/text_scraping.html
@@ -384,7 +384,7 @@
   <div class="bd-toc-item navbar-nav"><ul class="current nav bd-sidenav">
 <li class="toctree-l1 current active"><a class="current reference internal" href="#">Text Scraping</a></li>
 <li class="toctree-l1"><a class="reference internal" href="information_retrieval.html">Retriever</a></li>
-<li class="toctree-l1"><a class="reference internal" href="large_language_model.html">Prompting</a></li>
+<li class="toctree-l1"><a class="reference internal" href="large_language_model.html">Large Language Model</a></li>
 </ul>
 </div>
 </nav></div>