ダウンロードした論文やPDFでプライベートRAGを構築する
使うタイミング: ~/Documents/papers に大量のPDFを溜め込んでいて、実際に活用したいとき — 「あの論文でattention decayについて何て書いてあったっけ?」
前提条件
- ディスク上のPDFまたはドキュメント — 任意のフォルダ — 再帰的な取り込みに対応
フロー
-
フォルダを取り込むIngest everything under ~/Documents/papers into local-rag. Skip files larger than 50MB.✓ コピーしました→ ファイルごとの取り込みログ + 「N件のファイルをインデックス済み」のサマリー
-
質問するAcross my papers, what do they say about positional encoding in long-context transformers? Cite the source file and page if possible.✓ コピーしました→ ソースファイルの引用付きで合成された回答
-
検索を絞り込むJust give me the top 5 passages most relevant to 'ring attention', raw — don't summarize.✓ コピーしました→ ランク付けされたパッセージのリスト
結果: これまでダウンロードしたすべての論文がトピック別に検索可能に — 読書体験が恒久的にアップグレードされます。
注意点
- スキャンされたPDFにはテキストが抽出できない — 取り込み前にOCR処理を実行する(ocrmypdf)
- 1000件以上のファイルの初回インデックスは遅い(CPUエンベディング) — 一晩かけて実行すれば完了する。増分の再取り込みは高速