中小企業のRAG構築完全ガイド|社内ドキュメントを学習させて「自社専用ChatGPT」を作る【2026年版】

// RAG Build // 2026

中小企業のRAG構築完全ガイド|社内ドキュメントを学習させて
「自社専用ChatGPT」を作る【2026年版】

📅 2026.05.08 ⏱ 読了 約22分 🏷 RAG / 社内データ活用

ChatGPTやClaudeをいくら使っても、「うちの就業規則ではどうなっていますか?」「過去の議事録から○○の決定事項を教えて」と聞いても答えてくれません。なぜなら、汎用AIはあなたの会社の社内文書を一切知らないからです。この壁を突破する技術がRAG(Retrieval Augmented Generation:検索拡張生成)。社内マニュアル・規定・過去メール・議事録などをAIに参照させ、「自社専用ChatGPT」を作る仕組みです。本記事では、従業員10〜100名規模の中小企業が、ノーコードからコード型までの3アプローチでRAGを構築する方法を、ツール選定・業務活用12事例・落とし穴・セキュリティ設計まで一気通貫で解説します。

なぜRAGが必要か(汎用ChatGPTの限界)

2026年現在、ChatGPTやClaude、Geminiといった汎用AIは、一般常識やニュース、プログラミングの一般的な質問にはほぼ完璧に答えます。が、実際に中小企業の現場で使い始めると、必ず突き当たる壁があります。それは、「うちの会社のことは何ひとつ知らない」という当たり前の事実です。

具体例で考えてみましょう。社員が「うちの会社の慶弔休暇は何日?」と聞いたとします。ChatGPTは「一般的に3〜5日です」とそれらしく答えますが、これはあなたの会社の規定ではありません。「先月の経営会議で決まった新規事業の進捗を教えて」と聞いても、議事録を読ませていなければ答えようがない。「3年前のあのクレーム、どう対応したっけ?」と聞いても、過去メールを参照していないAIに分かるはずがありません。

これが、汎用AIだけでは中小企業の業務が回らない最大の理由です。業務の8割は「自社固有の文脈」に紐づいているという現実があり、その文脈をAIに与えなければ、AIは万年「外注のフリーランスが初日に答えるレベル」のままです。1ヶ月使い込んだベテラン社員の代わりにはなりません。

この問題を解決する技術が、RAG(Retrieval Augmented Generation、日本語では「検索拡張生成」)です。RAGは、AIが回答する直前に、社内ドキュメントから関連箇所を検索して読み込み、その情報をベースに回答を生成する仕組みです。就業規則を読ませれば「うちの慶弔休暇は5日です」と正確に答え、議事録を読ませれば「先月の会議では○○が決定しました」と社内文脈で答えるAIが出来上がります。これが俗に言う「自社専用ChatGPT」の正体です。

ChatGPT単体では絶対に実現できないこの社内情報応答こそが、RAG最大の価値です。そして2026年現在、RAGを作るために必要な技術スタックは、1年前と比べて10分の1の労力で実現できるようになりました。エンジニアがいない中小企業でも、本気で取り組めば1ヶ月で動くものが作れる時代です。

RAGの仕組みを5分で理解する

RAGは難しい技術に見えますが、本質は驚くほどシンプルです。エンジニア出身でない社長や担当者が、外注先や社員と会話するために最低限知っておくべき仕組みを、できるだけ平易に整理します。

RAGの動作は、大きく「事前準備フェーズ」「質問応答フェーズ」の2つに分かれます。事前準備では、社内のPDF・Word・Excel・テキストファイルなどを集め、それを「チャンク」と呼ばれる小さな単位に分割し、それぞれを「ベクトル」という数値表現に変換して、ベクトルデータベースに保存します。これがいわゆる「AIに学習させる」段階です(厳密にはモデルそのものを再学習させるわけではなく、検索可能な形に整形しています)。

質問応答フェーズでは、ユーザーが「うちの慶弔休暇は何日?」と質問すると、その質問文もベクトルに変換され、ベクトルデータベース内で「意味が近い」チャンクを検索します。検索でヒットした関連チャンク(就業規則の該当箇所など)を、質問文と一緒にChatGPTやClaudeに投げ込み、「この情報を参考にして答えてください」と指示する。すると、AIは社内情報を踏まえた正確な回答を返してくれる、という流れです。

💡 RAGの動作フロー(5ステップ):
① 社内ドキュメントを収集(PDF/Word/Excel/メール/Notionなど)
② チャンク分割(500〜1000文字単位など)+ベクトル化(意味の数値化)
③ ベクトルデータベースに保存(検索可能な状態に)
④ ユーザーの質問が来たら、関連チャンクを検索して取得
⑤ 取得したチャンクを文脈として、ChatGPT/Claudeが回答を生成
この一連の流れを、ノーコードツールなら裏側で自動的にやってくれます。

ここで重要なポイントが3つあります。第一に、RAGはモデルそのものを訓練するわけではないこと。ChatGPTのモデル本体は変わらず、参考資料を渡しているだけ、というイメージです。第二に、データを更新したらすぐ反映できること。新しい就業規則ができたら、PDFを差し替えるだけで翌日から正しく答えてくれます。第三に、引用元を明示できること。「就業規則第15条によれば、慶弔休暇は5日です」のように出典を示せるため、社員が回答の根拠を確認できます。

この3つの特性が、業務利用において決定的な意味を持ちます。モデルの再訓練は数百万円の費用と数週間の時間がかかりますが、RAGなら社内文書をフォルダにアップロードするだけ。引用元が出るからこそ、AIの回答を社員が安心して業務に使える。これが「自社専用ChatGPT」がここ1〜2年で爆発的に広がっている理由です。

構築の3アプローチ(ノーコード/ローコード/コード型)

RAGの構築方法は、技術スキルと自由度のトレードオフで、大きく3つに分かれます。中小企業がどのアプローチから入るべきか、それぞれ具体的なツール名と使い方を含めて整理しました。

APPROACH 01ノーコード型(ChatGPTカスタムGPT/Claude Projects/Gemini Gems)

難易度: 易 所要時間: 1日〜1週間 推奨: 従業員5〜30名

「ChatGPT/Claude/Geminiの中で完結する」最速ルート

BEFORE
「RAGに興味はあるけど、プログラミングは無理」「とりあえず社内マニュアルだけでも答えられるBotが欲しい」という、最も多い状況。エンジニアが社内におらず、外注予算も限られている。
DO
ChatGPT Plus(月20ドル)を契約し、「カスタムGPT」機能で新規GPTを作成。社内マニュアル・規定集のPDFを「Knowledge」欄にドラッグ&ドロップでアップロード。指示文(Instructions)に「あなたは○○社の社内アシスタントです。アップロードされた資料を参照して回答してください」と書く。これだけで完成。Claude ProのProjectsやGemini Gemsも同等の機能。
AFTER
数十ページのマニュアルや就業規則を読み込ませた「自社専用GPT」が、その日のうちに完成。社員はChatGPTの画面から自然に質問でき、引用元のファイル名も表示される。月額数千円〜2万円で全社展開可能。
1日構築期間 0行コード記述 2万円/月初期コスト

カスタムGPTやClaude Projectsの強みは、なんといっても「何の知識もなくても、その日のうちに動かせる」こと。デメリットは、アップロードできるファイル数に上限があり(カスタムGPTは20ファイル、Claude Projectsは200KB相当のテキスト、Notebook LMは300ファイル)、大量の社内文書を一括投入するのには向きません。が、就業規則・各種マニュアル・営業資料テンプレートなど、数十〜百ファイル程度の特定領域なら、これで十分すぎるほど機能します。

APPROACH 02ローコード型(Dify/LangFlow/Notion AI/Notebook LM)

難易度: 中 所要時間: 1週間〜1ヶ月 推奨: 従業員30〜100名

GUIで「複雑なRAGワークフロー」を組める中間ゾーン

BEFORE
カスタムGPTでは「ファイル数の上限が足りない」「複数のデータソースを組み合わせたい」「APIで他システムと連携したい」など、ノーコードの限界を感じ始める段階。情シス担当者は社内にいるが、AI専任のエンジニアはいない。
DO
Dify(オープンソース、自社サーバ or クラウド版)を導入し、ブラウザ上のGUIで「ナレッジベース」を作成。社内ドキュメントを大量にアップロードし、チャンク分割・検索アルゴリズム・LLM選択(GPT/Claude/Gemini)をマウス操作で設定。完成したRAGはWeb画面・APIの両方で公開可能。SlackやTeamsとも連携。
AFTER
数千〜数万ファイル規模の社内ドキュメントを横断検索できる本格的なRAGシステムが、コードを1行も書かずに構築完了。情シス担当者が日常的にメンテナンスでき、Slack/Teamsからも質問できるBotが社内に立ち上がる。
2週間構築期間 10行コード記述 5万円/月運用費目安

ローコード型の代表格がDifyです。中国発のオープンソースプロジェクトながら、UIは英語/日本語対応で、機能は商用製品レベル。社内サーバに自社運用すれば外部APIへのデータ送信を最小化でき、機密性の高い文書も扱いやすい。Notebook LM(Google製)はもっと簡単で、Gmail/Drive上の文書を自動連携でRAG化でき、無料枠も大きいため最初の試行に最適です。Notion AIは既にNotionで社内Wikiを運用している会社なら、追加コストほぼゼロでNotion全体をRAG化できます。

APPROACH 03コード型(LangChain/LlamaIndex/Pinecone/Chroma DB)

難易度: 高 所要時間: 1〜3ヶ月 推奨: 自社にエンジニア在籍

Python/JavaScriptで「自社プロダクト級」のRAGを構築する

BEFORE
社内に2〜3名のエンジニアがおり、独自の業務ロジックや既存システムとの深い連携が必要。ノーコード/ローコードでは表現しきれない、複雑な検索ロジックや権限制御を実装したい。
DO
LangChain(Python/JavaScript)もしくはLlamaIndexで開発を開始。ベクトルDBはPinecone(マネージド、月70ドル〜)もしくはChroma DB(オープンソース、自前運用)を採用。社内基幹システムと連携し、ユーザーごとの権限制御、社内SSO連携、複雑なメタデータ検索などをコードで実装。
AFTER
他社が真似できない自社専用のRAGシステムが完成。基幹システムからリアルタイムで業務データを取り込み、AIが正社員レベルで業務支援する状態。月数十万のクラウド費用がかかるが、それを上回るROIが出る規模感。
3ヶ月構築期間 数千行コード規模 30万円/月運用費目安

コード型の最大の強みは「何でもできる」こと。社内SSO連携、部署ごとのアクセス制御、業務システムからの自動データ取り込み、複数LLMの使い分け、コスト最適化、エラーハンドリング — すべて自社の要件通りに作り込めます。逆に最大のデメリットは、エンジニアの工数と継続メンテナンスコスト。最初に作って終わりではなく、ライブラリのアップデート対応、LLMの切り替え対応、バグ修正など、月間20〜50時間のエンジニア稼働が継続的に必要になります。

主要ツール比較表(5製品)

2026年5月時点で、中小企業のRAG構築候補として現実的な5つのツールを横並び比較しました。「とりあえずどれを使えばいいか分からない」という社長は、この表を社内会議の資料にそのまま使ってください。

ツール名 タイプ 難易度 月額費用目安 得意なこと 苦手なこと
ChatGPT カスタムGPT ノーコード ★☆☆☆☆ 2,400円〜/人 マニュアル20ファイル前後の特定業務Bot、即日構築 大量データ、SSO連携、API化
Claude Projects ノーコード ★☆☆☆☆ 3,000円〜/人 長文ドキュメント解析、引用精度の高さ ファイル数上限、外部連携
Notebook LM ノーコード ★★☆☆☆ 無料〜2,900円/人 Drive/Gmail連携、論文や議事録の要約・検索 業務システム連携、権限制御
Dify ローコード ★★★☆☆ 5万〜15万円 本格RAG、Slack/Teams連携、自社サーバ運用 初期構築の技術ハードル
Microsoft Copilot Studio ローコード ★★★☆☆ 3万〜30万円 Microsoft 365との完全統合、エンタープライズ Google系/オンプレ環境との相性

選び方の指針はシンプルです。従業員30名以下、まずは社内マニュアルBotだけ作りたいならカスタムGPTMicrosoft 365をフル活用しているならCopilot StudioGoogleワークスペース中心ならNotebook LM本格的に全社RAGを作るならDify長文の契約書や論文を読ませるならClaude Projects。この5択でほぼ全社の要件は満たせます。複数を併用しても構いません(カスタムGPTで全社窓口、Difyで部門特化のように)。

業務での活用12事例

RAGは「自社専用ChatGPT」と一言で言っても、実際の業務での使われ方は驚くほど多岐にわたります。中小企業で実際にROIが出ている代表的な12事例を、業務シーン・効果・必要なデータと併せて整理しました。自社の業務でどれが刺さるか、当てはめてみてください。

CASE 01社内FAQ Bot

就業規則・経費精算ルール・各種申請手続きなど、総務系の問い合わせをBotが24時間対応。総務担当の問い合わせ対応工数が月40時間→10時間に削減した中小製造業の事例があります。必要データは就業規則・社内規定・各種マニュアルのPDF20〜50ファイル程度。最も簡単で、最も効果が見えやすい王道事例です。最初の1本目はこれから始めるべき。

CASE 02営業マンの提案書下書き生成

過去の提案書・成功事例集・自社サービス資料をRAGに入れ、商談相手の業界・課題を入力すると、提案書のたたき台が3分で生成される。提案書1本あたりの作成時間が4時間→30分に短縮。営業マンが翌日商談に向けて深夜まで作業する文化が消えた、という会社が増えています。データは過去5年分の提案書PDFが理想。

CASE 03新入社員研修Bot

新人が「これってどういう意味?」と先輩に聞きづらいことを、24時間Botに質問できる環境を作る。社内用語集・業務マニュアル・各部署の説明資料をRAGに投入。新人の立ち上がり期間が3ヶ月→1.5ヶ月に半減した事例も。副次効果として、先輩社員の指導工数も大幅減少します。

CASE 04過去議事録検索

「半年前の経営会議で○○について話した覚えがあるけど、どんな結論だった?」という質問にAIが即答。Zoom録画の文字起こし、Notion・Confluenceの議事録、メモアプリの記録などを全部RAG化。「決まったはずの方針が現場に伝わっていない」問題が劇的に減るのが大きな価値です。

CASE 05顧客クレーム履歴照合

新規クレームが入った瞬間に、過去の類似クレームと対応履歴を瞬時に提示。「3年前に似たケースがあり、最終的には○○で解決した」という対応知見が、ベテランの頭の中から組織知に変わります。クレーム初動対応の精度が上がり、二次クレーム発生率が半減するケースも。

CASE 06製造マニュアル要約と作業手順照会

製造業の現場で、分厚い作業マニュアルから「この機械の異音時の対処手順」だけをすぐ引き出す。タブレット片手にBotに質問すれば、該当ページと手順が音声で返ってくる。ベテラン作業員の暗黙知を、若手が即座に参照できる仕組みが出来上がります。

CASE 07法令・社内規定の照合

「この契約条件、自社の取引基準に違反しないか?」「労基法的にこの就業条件は問題ないか?」など、法令と社内規定を横断検索。法務部や顧問弁護士に確認する前の「セルフチェック」がBotで完結。法務関連の問い合わせ件数が大幅減少します。社労士・行政書士事務所では業務そのものに使われ始めています。

CASE 08メール返信草案生成(過去ログ参照)

取引先からのメールに対し、過去の同取引先とのやり取り履歴を参照して、文脈を踏まえた返信草案を自動生成。営業事務の返信作成時間が1通10分→2分に短縮。Outlookやメールサーバ連携が必要なため、ローコード型以上の構成が現実的です。

CASE 09営業数字レポートの自然言語分析

毎月の営業データ・予実管理表・顧客リストなどをRAG化し、「先月の九州エリアで伸びた商品トップ5を、要因分析と一緒に教えて」のような自然言語の問いに答える。経営会議の準備時間が半日→1時間に。エクセル分析できる人材が社内に少ない会社ほど効きます。

CASE 10採用候補者プロフィール照合

応募者の履歴書・職務経歴書をRAGに入れ、社内の評価基準・過去の採用成功事例と照合し、ファーストスクリーニングを支援。書類選考の工数が応募1名あたり30分→5分に短縮。中途採用が多い中堅企業で重宝されています。最終判断は必ず人間が行うこと。

CASE 11競合資料リサーチ

競合他社の決算資料・プレスリリース・Web情報を継続的にRAGに蓄積し、「A社の今期戦略の特徴は?」「B社とC社の比較ポイントは?」など即答できる体制を構築。競合分析レポート作成が1社あたり1日→2時間に短縮。マーケティング部門の生産性が変わります。

CASE 12経営会議の意思決定支援

過去の経営会議の議事録、各部の業績データ、市場調査資料をすべて統合RAG化。社長が「この施策、過去に似た議論があったよな?」と聞けば、関連する議論履歴と結論を即座に提示。「同じ議論を3回繰り返す」現象が消滅し、意思決定の質とスピードが両立します。

データ準備の落とし穴

RAGの品質は9割が「投入するデータの質」で決まります。ツール選定で悩むより、データ準備に時間をかける方が、最終的な精度には10倍効きます。中小企業が踏みやすい3つの落とし穴を整理します。

⚠️ データ準備の3大落とし穴
文書整形不足: スキャンPDFのまま、表が崩れたExcelのまま投入すると、AIは何も読めません。OCR処理、表のCSV変換、画像内の文字テキスト化が必須。
チャンク分割の失敗: 文書を細切れにしすぎると文脈が失われ、大きすぎると検索精度が落ちる。500〜1000文字、見出し単位での分割が標準。
PII(個人情報)未除去: 顧客名・電話番号・メアド・社員の個人情報を生のまま投入すると、AI回答に漏れる事故が起きます。投入前に必ずPII除去ツール or 手作業マスキングを実施。

文書整形については、まずスキャンPDF(画像化されたPDF)とテキストPDFを区別してください。スキャンPDFはAIが文字を読めないため、OCR処理(Adobe Acrobat、ABBYY FineReader、Googleドキュメントの読み取り機能など)で必ずテキスト化します。Excelファイルは、表形式のままだとAIが行と列の関係を誤読することが多いため、CSV化 or マークダウン表形式への変換が推奨です。Wordの場合は、画像内の文字(スクショされた表など)が読まれない点に注意。

チャンク分割は地味ですが、精度を最も左右する工程です。一般的には500〜1000文字単位で区切りますが、就業規則のように条文単位で意味が完結している文書は「条文ごと」に区切るのが正解。逆に長文の議事録は、議題ごとに区切る。ノーコードツールはこの分割を自動でやってくれますが、結果が悪いときはここを手動で見直す必要があります。Difyなどでは分割ルールをGUIで調整可能です。

PII除去は法務・コンプライアンス上の最重要事項。社員名簿、顧客リスト、メール履歴をそのままRAGに入れると、AIの回答に「○○さんの個人情報」が混入する事故が起きます。実例では、「契約終了したお客様の連絡先を教えて」という質問にBotが普通に答えてしまった事例も。RAG構築前に、PII除去スクリプト(正規表現でメアド・電話番号をマスキング)もしくはMicrosoft Presidio等のPII検出ツールを必ず通すこと。手作業でも、せめて社員名・顧客名はイニシャル化する運用ルールを作ってください。

失敗パターン3つ

RAG構築プロジェクトの失敗には明確な型があります。これまで支援してきた中小企業の事例から、回避すべき3パターンを抜粋します。

FAIL 01機密データを外部APIに垂れ流す

最もリスクの高い失敗が、顧客個人情報・契約書・財務データなどの機密データを、ChatGPT API/Claude APIに無制限に送信してしまうパターン。OpenAIやAnthropicのAPIは「学習に使わない」設定が可能ですが、デフォルトでは使われる場合もあり、ログがどこまで保管されるかも完全には制御できません。機密度高い領域はAzure OpenAI Service(日本リージョン)/Bedrock(東京リージョン)/オンプレLLM(Llama、DeepSeekなど)を使い分ける設計が必須。社員個人のChatGPT契約で機密文書を入れる、は最悪のシナリオなので絶対に禁止してください。

FAIL 02精度を期待しすぎて全社展開が止まる

「100%正確じゃないと使えない」という完璧主義で展開が止まる失敗。RAGの回答精度は、初期段階で70〜80%、運用改善後で85〜95%程度が現実的な水準です。「人間と同じく、AIも間違える前提で使う」マインドセットの組織への浸透が肝。社員には「重要な判断は必ず引用元の原文を確認」「100%信じない」というルールを徹底し、Botの回答に「この回答は参考情報です。最終判断は原文確認の上で」という一文を必ず入れる。完璧を目指して止まるより、不完全でも回す方が10倍ROIが出ます。

FAIL 03構築後のメンテナンスを誰もやらない

立ち上げ時は気合で作るが、半年後に「あの就業規則、去年のままだ」「議事録が3ヶ月前で止まっている」とデータが古びていく失敗。RAGは「作って終わり」ではなく「育て続ける」もの。社内データの更新ルール(月1回の棚卸し)、新規ドキュメントの自動取り込み(Google Drive連携など)、Bot回答の定期チェック(月20件サンプリング)を、運用設計の段階で組み込んでください。AI担当者を1名置く設計と組み合わせると、メンテ放棄を防げます。

30人以下の現実解

従業員30人以下の中小企業に、現実的に最もおすすめできるRAG構築ルートを断言します。「まずカスタムGPT or Notebook LM、半年運用してスケールが必要になったらDifyへ移行」これが2026年現在の最適解です。

初手で本格的にDifyやLangChainを導入する会社の多くが、立ち上げから3ヶ月で頓挫します。理由は単純で、「RAGの正しい設計」より先に「業務とのフィット感」を試行錯誤すべきフェーズなのに、技術的に複雑なものを選んだせいで、設計に時間を取られて業務改善が進まないからです。カスタムGPTなら30分で1本作れるので、5本作って3本捨てる、という実験ができます。

具体的なステップは次の通り。第1ヶ月: 社長とAI担当者でカスタムGPT(月20ドル)を契約し、社内マニュアルBotを1本作って自分たちで使い倒す。第2ヶ月: 反応を見て改善し、総務系の問い合わせをBotに集約。第3〜4ヶ月: 営業・製造など部署別Botを5本程度立ち上げ。第5〜6ヶ月: ファイル数や同時利用者数の限界が見えたら、Difyへの本格移行を検討。

このルートの最大の利点は、「失敗してもリスクが月数千円で済む」こと。最初からDifyやLangChainで30万円かけて作ったRAGが業務にフィットしない、という最悪シナリオを避けられます。技術選定で迷っている時間があれば、カスタムGPTで5本動かす方が、確実に学びは深いです。

セキュリティ設計の3原則

RAGに社内データを投入する以上、セキュリティ設計は経営マターです。「セキュリティが心配だから導入しない」では機会損失ですが、「とりあえず導入して、漏れたら考える」では事故になります。中小企業が押さえるべき3原則を整理します。

原則1: データの機密度に応じてLLMの選択を変える。機密度低(公開情報・一般マニュアル)はChatGPT API/Claude API/Geminiでも問題ありません。機密度中(顧客リスト・社内議事録)はAzure OpenAI Service(日本リージョン)もしくはAWS Bedrock(東京リージョン)を使うことで、データが日本国内に留まります。機密度高(契約書・財務データ・個人情報)は、自社サーバ上のオープンソースLLM(Llama 3、DeepSeek-V3など)+Difyローカル運用を検討。1つの組織内でも、Botごとに使うLLMを変える設計が現実的です。

原則2: アクセス権限は「ユーザー単位」+「データ単位」で二重管理。営業のBotには営業データのみ、人事のBotには人事データのみ、とデータソースを部門ごとに分離しつつ、ユーザーごとのログイン認証(SSO推奨)でBotへのアクセスを制御します。Difyやコード型実装ではこの二重管理が標準で、カスタムGPTでは「ChatGPT EnterpriseかTeamプラン」で初めて部門別の管理が可能になります。

原則3: ログ・監査・削除の仕組みを最初から組み込む。誰がいつ何を質問し、どのデータが参照されたかのログを30日以上保存。GDPRや個人情報保護法対応として、「この社員の情報を消してください」という削除依頼に対応できるデータ管理体制を最初から設計。投入する際にデータ番号を振っておくと、後で特定削除が可能になります。これを後付けで対応するのは非常にコストが高いため、初期設計で必ず織り込んでください。

よくある質問(FAQ)

RAGとファインチューニングは何が違うのですか?どちらを選ぶべき?
RAGは「AIに参考資料を渡す」、ファインチューニングは「AIモデル自体を再訓練する」イメージです。中小企業の業務利用ではRAGがほぼ全てのケースで正解です。理由は3つ:①コストが100分の1(ファインチューニングは数十〜数百万円、RAGは月数万円)、②データ更新が即時反映可能(再訓練は数週間)、③引用元を明示できる(ファインチューニングは出典不明)。文体や口調を会社固有のものにしたいケースなど、ごく一部の用途を除けば、RAG一択でOKです。
無料のChatGPTでも社内データを学習させられますか?
無料版ChatGPTには「カスタムGPT」機能がなく、ファイルアップロードを伴う本格的なRAG構築はできません。最低でもChatGPT Plus(月20ドル)が必要です。が、Notebook LM(Google製)は2026年5月現在、ある程度の機能まで無料で使えるので、本気でゼロ円で試したいならNotebook LM一択。Gmail/Driveに社内文書がある会社なら、ほぼ追加コストなしで試せます。本格運用は有料プラン推奨です。
社内文書をChatGPTにアップして、データが外部に漏れる心配はないですか?
ChatGPT Team/Enterprise プラン、Claude for Workプラン、Azure OpenAI Serviceでは「アップロードデータをモデル学習に使用しない」ことが契約で保証されています。個人向けPlusプランも設定でオフにできます。とはいえ、米国法人のサーバ通過は避けられないため、契約書・人事データなど超機密のものは、Azure OpenAI Service(日本リージョン)もしくはオンプレLLM運用がベターです。「公開しても問題ないレベルの内容」と「絶対に外に出せない内容」を社内で先に区分けしてから、使うLLMを選び分けるのが正解です。
古い議事録や過去メールが大量にあります。全部入れた方が精度上がりますか?
「全部入れた方が良い」は半分正解、半分不正解です。データが多いほど検索ヒット率は上がりますが、ノイズも増えて回答精度が落ちる現象が起きます。3年以上前の議事録、退職者の個人メール、終了案件の作業ログなどは、いったん除外する方が初期は精度が出ます。運用しながら「足りない」と感じた領域だけ追加する、引き算の発想で。最初から全部入れると、PII除去工数も膨大になり立ち上げが遅れます。
RAGを作って、AIが間違った答えを出して業務トラブルが起きたら、誰の責任ですか?
最終的な業務判断の責任は、必ず人間にあります。AIの回答は「下書き」「参考情報」と位置付けるのが鉄則。Bot回答に「この回答は参考情報です。最終判断は原文と社内手続きで確認してください」という注意書きを必ず表示し、社員教育でも「AIは間違える前提」を徹底してください。社内ガイドラインに「AIに頼っていい業務/最終チェックが必須の業務」を明記する運用ルール作りも、構築と並行して必ず実施を。法務的な観点では、外注先と契約する場合「AI回答の最終チェック責任は発注者側にある」と契約書に明記しておくのが安全です。
// Free Consultation

御社の社内ドキュメントを
「自社専用ChatGPT」に変える初期設計を無料で。

「うちの業務で、最初に作るべきRAGはどれか」「機密データはどう扱うべきか」「カスタムGPTで足りるか、Difyに行くべきか」 —
そんなご相談を、30分の無料オンライン相談で具体的にお答えします。
アイサポは、立ち上げから卒業までを伴走するRAG構築支援を専門にしています。

無料のRAG構築相談に申し込む

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です