特定業界向けAI構築:トランスフォーマーモデルのドメイン特化ファインチューニング

特化型AI開発の契約実務:モデル権利と自社データを守る交渉の急所

約16分で読めます
文字サイズ:
特化型AI開発の契約実務:モデル権利と自社データを守る交渉の急所
目次

「大金を投じて開発したAIモデルなのに、契約終了後に自社で使えなくなった」
「自社の秘伝のノウハウを学習させたはずが、いつの間にか競合他社のサービスにも反映されていた」

これらは決して作り話ではありません。AI開発、特に自社データを用いたファインチューニング(追加学習)の現場で、実際に起きているトラブルです。

多くの事業責任者の方が、AIの精度や導入コストには敏感ですが、「契約書の中身」、特に知財やデータの権利関係については、法務部門任せにしてしまうケースが少なくありません。しかし、従来のシステム開発契約のひな形をそのままAI開発に流用することは、極めて危険です。

なぜなら、AI開発は「コードを書いて機能を実装する」従来のプロセスとは異なり、「データとアルゴリズムが融合して確率的な挙動をするモデルを作る」という全く異なる性質を持っているからです。AIはあくまでビジネス課題を解決するための手段であり、ROI(投資対効果)を最大化するためには、リスク管理を含めた適切なプロジェクト運営が不可欠です。

今回は、B2B企業が開発ベンダーとパートナーシップを組んで「ドメイン特化型AI」を構築する際に、自社の資産(データとビジネスチャンス)を守るために知っておくべき契約交渉の急所を、プロジェクトマネジメントの実務的な視点から解説します。

法律の条文を暗記する必要はありません。ビジネスとして「何を守り、どこでリスクを取るか」という論理的な判断基準を持ち帰ってください。

「納品されたモデル」は誰のものか?所有権と利用権の法的罠

AI開発プロジェクトにおいて、最も紛糾しやすいのが「成果物(学習済みモデル)の権利は誰にあるのか」という問題です。

従来のウォーターフォール型システム開発であれば、「お金を払った発注側(ユーザー企業)に著作権が帰属する」という契約が一般的でした。しかし、AIモデルの場合、この常識が通用しないケースが多々あります。

従来のシステム開発契約とAI開発契約の決定的な違い

まず理解しておくべきは、「AIモデル(学習済みパラメータ)は、著作物として認められない可能性が高い」という法的解釈が主流である点です。

著作権法で保護される「著作物」は、「思想又は感情を創作的に表現したもの」と定義されています。AIモデルの実体は、膨大な数値の羅列(パラメータ)であり、そこに人間の「創作的な表現」を見出すことは困難です。

つまり、契約書で「成果物の著作権は甲(発注者)に帰属する」と書いてあっても、そもそも著作物でなければ著作権法による保護は受けられません。この結果、契約終了後にベンダーが同じモデルを他社に販売しても、「著作権侵害だ!」と訴えることが難しくなるのです。

「学習済みパラメータ」の法的性質と権利帰属の争点

では、どうやって自社専用にチューニングされたモデルを守ればよいのでしょうか?

アプローチとしては、以下の2つを組み合わせるのが実務的です。

  1. 営業秘密としての保護
    モデル自体を「ノウハウ」や「営業秘密」として定義し、不正競争防止法で守る方法です。契約書には、成果物であるモデルが「甲(発注者)の営業秘密であること」を明記し、ベンダーに対して秘密保持義務と、目的外利用の禁止を課します。

  2. 共有特許の検討
    もし、特定のデータ処理方法やモデルアーキテクチャに新規性がある場合は、特許権の対象になり得ます。ただし、特許出願は内容が公開されるため、あえてブラックボックス化しておきたいAIモデルとは相性が悪い場合もあります。

ここで重要な交渉ポイントとなるのが、「ベースモデル」と「追加学習部分(差分)」の切り分けです。

ベンダーが独自に保有する「ベースモデル」の権利まで発注者が奪うことは不可能です。一方で、発注者のデータを使って調整された「追加学習後のパラメータ(LoRAのアダプタなど)」については、発注者に権利があるべきです。

さらに注意すべき点として、LoRAのような追加学習モデル(アダプタ)はベースモデルと密接に結びついています。ベースモデル自体の利用規約で商用利用が制限されている場合、自社データで作成したLoRAであっても商用利用や生成物の活用が制限されるリスクがあります。また、アーキテクチャの異なる別のベースモデルにLoRAをそのまま転用することは技術的に困難なケースも多く、権利だけでなく技術的な依存関係も考慮した契約が求められます。

加えて、納品物の仕様を明確にすることも欠かせません。例えば、旧形式(.ckptなど)を避け、より安全なデータ形式(.safetensorsなど)での納品を指定するなど、セキュリティ面を考慮した納品要件を定義しておくことが重要です。

契約書では、「本件開発により生じた学習済みモデルのうち、甲が提供したデータに起因する特有の部分については甲に帰属する」といった条項を巡って、激しい綱引きが行われます。

ベンダーロックインを防ぐための「利用権」確保の条項例

実務上の現実的な落としどころとして推奨されるのは、「所有権」に固執しすぎず、「独占的かつ無期限の利用権」を確保することです。

たとえモデルの知的財産権がベンダー側に残ったとしても、以下の条件を契約に盛り込めれば、ビジネス上のリスクは回避できます。

  • 無期限かつ無償の利用許諾: 契約終了後も、自社サービス内でそのモデルを使い続けられる権利。
  • 改変権の確保: 自社エンジニアや別のベンダーを使って、そのモデルをさらに再学習・改良できる権利。
  • 競業避止(排他性): 「同業他社向けのプロジェクトで、本件で得られた学習成果(パラメータの調整値)を流用しないこと」という特約。

特に3点目は重要です。自社のデータで賢くなったAIの知能が、そのままライバル企業に売られてしまっては、何のために投資したのか分かりません。

「権利そのもの」よりも「ビジネス上の優位性」を守る設計を心がけることが不可欠です。

自社独自のノウハウデータが「学習」を通じて流出するリスク

次に、モデルの材料となる「データ」の話に焦点を当てます。ファインチューニングを行う最大の目的は、自社独自のデータ(マニュアル、日報、設計図、顧客対応ログなど)をAIに学ばせ、業務に特化させることです。

しかし、ここには「データが吸い取られる」リスクが潜んでいます。

SaaS型ファインチューニングにおけるデータ利用規約の落とし穴

OpenAIのAPIなどを利用してファインチューニングを行う場合、基本的にはプラットフォーマーの規約に従うことになります。

一般的に、OpenAIの企業向けプランやAPI経由の利用では、「送信されたデータはモデル学習には使用されない」という原則が適用されます。しかし、注意が必要なのは、Webブラウザ経由のChatGPTや、簡易的なエージェント構築ツールを利用する場合です。

2026年2月にGPT-4o等のレガシーモデルが廃止され、GPT-5.2が新たな標準モデルへと移行し、さらにコーディングに特化したGPT-5.3-Codexなども登場しました。こうした最新の生成AI環境では、長文の文脈理解やマルチモーダル(画像・音声・PDFの処理)、高度な推論を伴うエージェント機能が強力に統合されています。

これらの便利な機能を利用する際、アップロードした画像やドキュメントが、デフォルト設定ではモデルの改善(学習)に利用されるケースが現在も継続しています。データ利用を避けるためには、設定画面のデータコントロールから明示的にオプトアウト(オフ設定)を行う必要があります。

特に開発ベンダーが間に介在する場合、ベンダーがどのプランやAPIモデル(ChatGPTのAPIなど)を使用し、どのような設定で開発を行っているかを確認しないと、意図せず自社の機密データがプラットフォーマー側に学習されてしまう危険性があります。「APIを使っているから安心」と思い込まず、最新モデルへの移行状況も含め、具体的な設定値まで確認することが不可欠です。

「サービス改善のために利用する」という条文の危険性

より警戒すべきは、開発ベンダー自身が「独自LLM」や「業界特化型AIプラットフォーム」を持っているケースです。

ベンダーから提示される契約書のひな形に、こんな条文が紛れ込んでいないでしょうか?

「乙(ベンダー)は、本件業務を通じて得られたデータおよび知見を、乙のサービスの品質向上、改善、および新たなサービスの開発のために無償で利用できるものとする」

これは「統計データとして利用する」という意味でよく使われる定型句ですが、AI開発においては致命的な意味を持ち得ます。この条項を文字通り解釈すると、「御社の極秘マニュアルを学習させて、ベンダーのAIモデル全体の賢さを底上げし、それを他社にも提供する」ことが正当化されてしまうからです。

実務上、契約書にこの条項を見つけた場合は即座に修正を求めるべきです。

「統計的な利用(個人や企業が特定できない形での利用)」には同意しても、「AIモデルの学習データとしての利用」は明確に拒否するか、あるいは「自社専用インスタンス内での学習に限る」という制限をかける必要があります。

競合他社へのモデル提供を阻止する「排他性」の設計

自社データが他社に流出しないだけでなく、「自社データで賢くなったモデル」が他社に使われないようにするためには、データの「分離管理」を契約で義務付ける必要があります。

具体的には以下の項目を確認します。

  • 論理的・物理的分離: 自社の学習データおよび学習済みモデルが、他社の環境と明確に分離されているか。
  • 学習後のデータ破棄: プロジェクト終了後、ベンダーのサーバーに残った学習用生データ(Raw Data)を確実に削除・返還させる義務。
  • 派生モデルの扱い: 自社データを使って生成された「中間生成物」や「派生モデル」についても、同様の守秘義務を課す。

「データは企業の血液」です。献血するつもりならともかく、ビジネスで勝つための輸血用血液を、無断で他人に使わせてはいけません。

参考リンク

学習データに潜む「著作権侵害」と「権利クリアランス」の実務

「納品されたモデル」は誰のものか?所有権と利用権の法的罠 - Section Image

ここまでは「自社の権利を守る」話でしたが、ここからは「他人の権利を侵害しない」ための守りの話です。

ファインチューニング用のデータセットを作成する際、社内データだけでなく、Web上のデータや市販の書籍、論文などを利用したいケースがあるでしょう。ここで問題になるのが著作権です。

改正著作権法第30条の4の適用範囲と限界

日本の著作権法は、世界的に見ても「AI開発に優しい(緩い)」と言われています。特に有名なのが第30条の4です。

簡単に言えば、「情報解析(AI学習など)の目的であれば、著作権者の許諾なく著作物を利用できる」という強力な規定です。これにより、原則として、ネット上の画像や文章をスクレイピングしてAIに学習させることは適法とされています。

しかし、これには重要な例外があります。

「著作権者の利益を不当に害する場合」

例えば、有料で販売されているデータベースを解析目的で購入せずに複製して学習させる場合や、特定のクリエイターの画風を模倣する目的でその人の作品だけを集中学習させる場合などは、この例外に該当し、違法となるリスクがあります。

「享受目的」が含まれる場合の侵害リスク判定フロー

さらに注意が必要なのが、「享受(きょうじゅ)目的」が併存している場合です。

「享受」とは、その著作物を見て楽しんだり、味わったりすることです。AI学習のためだけでなく、学習プロセスの中で人間がそのコンテンツを見て楽しむ意図があったり、あるいは「学習させた結果、元の著作物とそっくりなものを出力させて、それを楽しむ(利用する)」意図がある場合は、30条の4の保護から外れる可能性があります。

ビジネスでの特化型AI開発では、特定の文献やマニュアルを「そのまま参照させたい(RAGなど)」というニーズも多いでしょう。この場合、学習ではなく「利用」とみなされ、通常の著作権処理(許諾取得)が必要になるケースがあります。

クローリングデータを利用する場合の適法性チェックリスト

ベンダーが「Web上のデータを集めて事前学習しておきました」と言ってきた場合、そのデータセットがクリーンかどうかを確認するのは発注者の責任でもあります。

契約時には、以下の「権利クリアランス(権利処理)」に関する保証条項を盛り込むことをお勧めします。

  • 表明保証: ベンダーが使用する学習データが、第三者の著作権やプライバシー権を侵害していないことを保証させる。
  • 利用規約の遵守: クローリング(スクレイピング)を行う際、対象サイトの利用規約(Robots.txtなど)を遵守しているか。
  • 責任分界点: 万が一、学習データに起因して第三者から訴訟を起こされた場合、どちらが費用と責任を負担するか(通常はデータを用意した側が責任を負います)。

「知らなかった」では済まされないのが知財の世界です。データの出所(Provenance)には常に目を光らせてください。

AIが誤判断した場合の責任は誰が負うか?免責条項の限界

AIが誤判断した場合の責任は誰が負うか?免責条項の限界 - Section Image 3

「AIが間違った回答をして、業務に損害が出た。ベンダーに賠償請求できるか?」

これは非常にデリケートな問題です。AI、特に生成AIは確率論で動くため、100%の正確性を保証することは技術的に不可能です。

「性能保証」が困難なAI契約における検収基準の策定

従来のシステム開発であれば、「仕様書通りに動かなければバグ(瑕疵)」として修正を求めることができました。しかし、AIにおける「誤回答(ハルシネーション)」は、バグではなく仕様(確率的な挙動)の一部です。

そのため、契約書で「瑕疵担保責任(契約不適合責任)」をそのまま適用するのは困難です。ベンダー側は通常、「本サービスは現状有姿(As-Is)で提供され、特定の目的への適合性や完全性を保証しない」という強力な免責条項を入れてきます。

発注者として対抗できるのは、「プロセス」と「ベンチマーク」での合意です。

  • プロセスの合意: 「適切な手法で、適切な量のデータを学習させ、パラメータ調整を行ったこと」を業務の履行要件とする(準委任契約的なアプローチ)。
  • ベンチマークの合意: 事前に用意した「テストデータセット(正解付きデータ)」に対して、正答率〇〇%以上を達成することを検収条件とする。

ただし、この「〇〇%」を契約で確約させるのは、ベンダーにとってリスクが高すぎるため、多くの場合は「目標値」としての設定に留まります。

ハルシネーションによる損害賠償責任の所在

実務上は、AIの出力を「最終判断」として使わないという運用設計が、最大のリスクヘッジになります。

契約書においても、「AIの出力結果を利用して行った甲(発注者)の事業活動の結果について、乙(ベンダー)は責任を負わない」という条項が入ることが一般的です。

これを覆してベンダーに責任を負わせるのは、よほどの重過失(学習データの取り違えや、明らかな設定ミスなど)がない限り難しいのが現状です。

ユーザー(従業員)の誤用を防ぐための社内ガイドラインと法的効力

対ベンダーの契約だけでなく、社内の利用規定も重要です。

AI導入時には、従業員に対して以下の免責事項を周知する必要があります。

  • AIの回答を鵜呑みにせず、必ず人間がファクトチェックを行うこと。
  • 機密情報や個人情報をプロンプトに入力しないこと(入力フィルタリング機能がない場合)。

もし、従業員がAIの誤情報をそのまま顧客に伝えてトラブルになった場合、それは「AIのせい」ではなく「監督不行き届き(ガバナンスの問題)」として処理される可能性が高いのです。

【決定版】ファインチューニング契約チェックリスト

学習データに潜む「著作権侵害」と「権利クリアランス」の実務 - Section Image

最後に、これから開発契約を結ぶ、あるいは既存の契約を見直す方のために、実務において必ずチェックすべきポイントをリスト化しました。法務担当者と共有してご活用ください。

知財条項:モデル、学習データ、生成物の3層構造

  • 学習データの権利: 自社が提供した生データの権利は自社に留保されているか。
  • 学習済みモデルの権利: モデルの知的財産権の帰属は明確か(ベンダー帰属の場合、自社の無期限利用権、改変権、第三者への提供禁止特約が含まれているか)。
  • 生成物の権利: AIが出力したコンテンツ(文章、画像、コード等)の権利は、ユーザー(自社)に帰属すると明記されているか。

保証・責任条項:学習データの適法性と出力の正確性

  • 非侵害保証: ベンダーが用意した学習データやベースモデルが、第三者の権利を侵害していないことの保証(表明保証)があるか。
  • データ利用の制限: 自社データがベンダーの他プロジェクトや自社サービス改善(AIモデル強化)に流用されない旨の「目的外利用禁止」があるか。
  • 免責の範囲: AIの精度不足やハルシネーションに関する責任範囲が妥当か(完全免責ではなく、合理的な努力義務や再学習の規定があるか)。

終了・解除条項:学習済みモデルの破棄とデータの返還

  • データの返還・破棄: 契約終了後、速やかに学習データおよび中間生成データを削除・返還する義務が明記されているか。
  • モデルの扱い: 契約終了後、学習済みモデルをベンダーが破棄するか、あるいは継続利用する場合の条件(ロックイン回避)が決まっているか。
  • 秘密保持の存続期間: AIモデルに関する秘密保持義務が、契約終了後も十分な期間(あるいは無期限に)存続するか。

まとめ

AI開発における契約は、単なる事務手続きではありません。それは、「自社の未来の競争力」を定義し、守るための戦略的な合意形成です。

技術は日々進化し、法律も後追いで変わっていきます。だからこそ、固定的な「ひな形」に頼るのではなく、「自社のデータ資産をどう守り、どう活かしたいか」というビジネスの意志を契約書に反映させることが重要です。

リスクを恐れてAI導入を躊躇するのは本末転倒ですが、リスクを知らずに飛び込むのは無謀です。適切な契約という「命綱」を用意した上で、大胆にAIという未踏の地へ踏み出してください。

もし、契約やリスク管理の負担を最小限に抑えつつ、安全な環境で自社データのファインチューニングを試してみたいとお考えなら、まずはデータの隔離性や権利帰属に関する透明性を確保したプラットフォーム環境で検証することをおすすめします。

B2B企業向けに特化して設計されたセキュアな環境を活用することで、「契約の壁」に悩むことなく、まずは技術の可能性を体感できるはずです。

トライアル環境などを利用して、実際の自社データを読み込ませてどれくらいの精度が出るかを検証することは、実用的なAI導入に向けた有効なアプローチとなります。ビジネスの資産を守りながら、AIのパワーを最大限に引き出し、ROIの最大化を目指す第一歩を、ここから始めましょう。

特化型AI開発の契約実務:モデル権利と自社データを守る交渉の急所 - Conclusion Image

コメント

コメントは1週間で消えます
コメントを読み込み中...