国際公文書館会議(ICA)PCOMプロジェクト「AIとアーカイブズ実務」チュートリアル
#01:「第1回:AIと評価選別」「第2回:AIとデジタル保存」

国立公文書館 統括公文書専門官室
公文書専門官 渡辺悦子

はじめに
  近年、アーカイブズ分野において、膨大な電子記録の管理や多様化する利用者ニーズへの対応に、AI(Artificial Intelligence、人工知能)の導入と利活用が期待されている。国際公文書館会議(International Council on Archives、以下「ICA」)でも、大会や隔年会合等のセッションにおいてたびたび取り上げられている[1]。
  本稿で紹介する「AIとアーカイブズ実務(AI and Archival Practice)」は、2024年のICAプログラム委員会(Programme Commission、以下、「PCOM」[2])の資金提供により実施されたプロジェクト[3]において作成された、動画及びリソース集[4]である。ICA前会長で2025年現在はICAフェローのDavid Fricker氏をプロジェクトリーダーに、ICAの専門部会の一つであるデジタル・物理的記録の管理に係る専門家グループ(Expert Group on Managing Digital and Physical Records、以下EGMDPR)[5]をパートナー/サポーターとし、さらにアラブ首長国連邦国立図書館公文書館(National Library and Archives of the UAE、以下NLA)の援助を受けて開発された8本の動画シリーズ[6]は、2025年3月のバーチャル・セッション[7]を機に公開された。
  本稿では、そもそもAIとは何かについて概説した後、この8本の動画シリーズのうち、第1回「AIと評価選別」及び第2回「AIとデジタル保存」を紹介する。

1. AIとは
  それぞれのセッションを紹介する前に、AIとは何かについて、筆者の管見において確認しておく。まず、現時点で確立されたAIの定義は存在しないが、「人間の思考プロセスと同じような形で動作するコンピュータープログラム、コンピュータ上で知的判断を下せるシステム等」[8]を指す。AIの発展の歴史は、1950年代の「探索」や「推論」の研究に基づくルールベースAIの開発にはじまり、1980年代のデータに基づくアルゴリズムが自律的に学習する機械学習(Machine Learning)等、ブームと冬の時代を繰り返してきたという。2000年代に入り、AIが飛躍的な進展を遂げたのは、人工ニューラルネットワークを用いた「深層学習(Deep Learning)」が実用化されたことが大きな要因とされる[9]。このような背景に加え、膨大なデータセットとコンピュータの計算能力の向上が相まって、AIは画像認識や自然言語処理の分野で、人間に迫る(あるいは凌駕する)成果を生み出しているという。近年注目されている生成AI(Generative AI)も、この深層学習技術を応用した、AIにおける一つの領域である。
  AIの開発と「学習」は切り離せない[10]。これは、従来のプログラムが開発者によって事前に設定されたルールに基づいて動作するものであったのに対し、AIはルールを自ら発見・獲得するシステムであることとも関わる[11]。とりわけ機械学習や深層学習は、大量のデータから統計的パターンを抽出し、「入力」と「出力」の関係を自動的に構築するとされる。AIの学習手法は、教師あり学習、教師なし学習、強化学習に大別できる[12]が、いずれの場合も、学習の基盤として与えられるデータや環境から得られる情報に強く依存するという点が共通しているという。よって、AIを活用するには「AIに何を学ばせるのか」「どんなデータを使うのか」を十分に理解したうえで設計・運用することが重要になってくることが想像される。「データ依存性」はAIを活用する上での課題の一つとされており、そのことから、アーカイブズ実務の現場では、どのような実務へのAI導入に対して、どのように整備したデータをAIに学習させていくのかといった、専門職による理解と専門的かつ適切な設計が求められることになるのではないだろうか。

  AIは人間の知的活動を模倣する技術ではあるが、本質的には「人間のように思考する存在」ではなく、与えられた大量のデータからパターンを抽出し、条件に応じた予測される「もっともらしい」出力を、確率的に生成する仕組みにすぎないとされる[13]。この本質を理解することが、AIの活用の第一歩であるかもしれない。本シリーズでは、このようなAIの特性と課題を前提としたうえで、アーカイブズ実務にAIをどう位置づけるかが、シリーズを貫く問いとなっていると思われる。これらを念頭に、以下、各セッションを紹介してみたい。

2. 第1回: AIと評価選別(Appraisal and Selection)
2-1.セッションの概要とゲストスピーカー
  David Fricker氏とシンガポール国立公文書館のKam Kit Geok氏を聞き手に、RecordPoint社[14]の主任データ・サイエンティストであるJason Franks氏をゲストスピーカーに迎えるものである[15]。本セッションでは、AIが記録の分類にどのように活用できるか、実際のツールのデモンストレーションがあり、それをもとに議論が展開される構成となっている。

2-2. Jason Franks氏によるデモンストレーション
  まず、Franks氏により、RecordPoint社製のツールの実演によって、AIを用いた記録の分類への活用について紹介がある。デモにあたって同氏が用いたのは、アメリカのエネルギー会社Enron社のデータセット[16]である。Enronデータセットは、同社の破綻後に米国連邦エネルギー規制委員会によって公開されたEnron社内の電子メール約50万通からなるデータセットで、これら事前に分類されたデータを基に、AI分類モデルを訓練し、各記録を適切なカテゴリに自動的に割り当てる仕組みが説明された。

  Franks氏によると、AIによる分類モデルの性能評価には複数の指標が使われているという。まず、どれだけ正しく分類されたかを示す正確度(Accuracy)である。しかしながら、この正確度は、データのまとまりや分類するカテゴリ間に不均衡がある場合には、過大評価になる恐れがあるという。というのも、例えば訓練データとしていくつかのデータのまとまりを用いたとして、そのうち1つのまとまりが全体の85%を占めているとすると、モデルがその全てをある1カテゴリに分類してしまっても正解度は85%となり得るのである。そこで、特定のカテゴリへの予測がどれだけ正しかったかを示す「適合率(Precision)」や、本来そのカテゴリに属するものをどれだけ見つけられたかを示す「再現率(Recall)」が設けられている。その上で、この「適合率」と「再現率」の性能を評価するため、両者の調和の平均をあらわす指標である「F1スコア」を設定していることが解説される。この部分は、Franks氏による実際のデモ動画をご覧いただくことをおすすめする。

  モデルが分類した記録の一覧では、モデルがどのくらい「自信をもって」分類したかという信頼度(probability)が表示され、この信頼度が80%以上であれば受け入れる、というような閾値が設定される。信頼度がそれ以下の場合は、人の手によって分類を確認し、承認や却下を行う。これら手動による分類の結果は、モデルの精度向上につながるだけでなく、次のモデルの訓練データとして利用される。デモ中の結果では、正確度及びF1スコアが約66%にとどまったが、実際に顧客に提供する段階では90%程度の精度まで目指すという。

2-3. AIの評価選別への活用に向けて
  デモを通じて、Franks氏は、機械学習による分類モデルが、事前に分類されたデータから学習し、追加の記録が入力されるたびに人間のフィードバックを受けて精度を高めていく、「反復的プロセス」によって向上することを強調している。また、大規模言語モデル(Large Language Model、以下LLM)[17]を活用した「記録への直接的な質問・要約」機能も紹介し、LLMの有用性と限界(特に事実確認の必要性)が示され、単にAIに任せるのではなく、学習データの質、量、偏りを丁寧に管理することの重要性が説明されている。
  
  ChatGPTやGeminiなどのLLMを活用した検索や、RAG(Retrieval-Augmented Generation、検索拡張生成)[18]機能は強力だが、これらの機能を取り込むことにより、検索のためのストレージコストや処理時間は大きな課題になる。このような生成AIの活用は、分類タスクにおいては多少の性能向上をもたらすが、従来型の統計的機械学習でも十分良い結果が得られ、かつ高速かつ安価である場合も多いという[19]。そのため、望む成果に最適な技術を選択すべきという主張もまた重要である。最後に、アーカイブズ機関が管理する資料から得られるデータは、オンライン上で量産される情報に比べて、正確で信頼性の高い「真実」のデータであることから、このような「良質なデータ」を持つ機関であるからこそ、AIの恩恵を最大化できるポテンシャルがあるとしている。
  
  以上、第1回セッションでは、AIの活用による記録の選別・分類の支援が、単に効率性を追求するだけでなく、AIの訓練における人間の関与を通じて精度を高める「反復的プロセス」であることが示された。また、AIによる自動分類の有用性と限界を明確にしつつ、AIの活用にあたってAIに「何を学ばせるのか」を理解したうえで設計・運用することが重要であるという、実務的かつ実践的な視座が提示されたと言える。

3. 第2回: AIとデジタル保存(Digital Preservation)
3-1.セッションの概要とゲストスピーカー
  本セッションは、第1回と同様、David Fricker氏を聞き手に、(1)NLAのアーカイブズ部門の長であるHamad Al-Mutairi氏、(2)オーストラリア国立公文書館の情報部門の元トップで、本動画が収録された2024年現在はBlueRydge社[20]の上級顧問であるYaso Arumugam氏、そして(3)米国メリーランド大学図書館のデジタルサービス・技術部門の副学部長のBabak Hamidzadeh氏及びスペイン・ジローナ州公文書館のLluis-Esteve Casellas氏の対談の、3部で構成される。
  「デジタル保存」のタイトルからは、「電子媒体の長期保存」に関するセッションのように思われるかもしれないが、実際は、AI技術が記録の作成や管理の実務に組み込まれつつある中で、「デジタル環境において作成された記録(AIを活用したプロセスを含む)をどのように保存していくか」という課題を議論しており、AIが関与する現代のデジタル環境そのものを含めた記録管理・保存の在り方を広く捉えた内容となっている。

3-2. Hamad Al-Mutairi氏のセッション
  アラブ首長国連邦は1999年以来、電子政府の実現に向けて段階的にデジタル化を進める中で、近年ではAIやブロックチェーンなど先端技術の導入を国家戦略の柱に据えるほか、AI担当大臣を任命し、各行政機関にAI担当者を置く制度設計を進めているという。こうした国家的枠組みに沿って、Al-Mutairi氏が所属するNLAも、その戦略のもと、AIの導入を促進しているという。
  
  NLAでは、アーカイブズの根本的な役割を「国家に奉仕し、集合的記憶を提供すること」とした上で、AIを単なる新技術として導入するのではなく、この役割に即した形で活用することを意識してきたとする。記録の収集、保存、提供というアーカイブズ業務の基本的なフレームワークの中で、どの業務にAIを適用できるかを見極め、AIを活用することで、記録の評価選別支援や目録作成支援だけでなく、例えば顔認識・物体認識によって多様な記録媒体の関係性を記述する取組を実現し、利用者のアクセス体験を向上させているという。
  
  とりわけ注目すべきは、NLAがAI導入の出発点として、「まずアーキビスト自身にAI技術を理解させること」を重視した点にある。AIのシステムや挙動、ユーティリティの動き方をアーキビスト自身がよく観察するところから始め、「教師あり学習」を通じて、アーキビストを積極的に関与させ、システムに適切なパターンや期待される判断基準の入力に努めた。それにより、初期は60~70%程度だった精度を着実に改善させたという。AIはリソースの限られた機関に活用できる可能性はあるのかというFricker氏の問いに対し、Al-Mutairi氏は、小規模な導入でも十分意義があり、オープンソース技術の活用などによりリソースが限られた機関でも取り組むことが可能であると答え、一連のAIの導入は、「単なるテクノロジーへの投資ではなく、人への投資である」という哲学を述べている。NLAの事例は、AIを導入するうえで最も重要なのは「人」であることを示唆しており、日本のアーカイブズの現場でも、まずアーキビスト自身がAIを学び、主体的に活用する立場に立つことが重要になってくるのではないだろうか。

3-3. Yaso Arumugam氏のセッション
  Arumugam氏はまず、オーストラリア政府の情報管理に深く携わってきた経験から、AIがアーカイブズ実務全体に与える影響として、何よりも「信頼」の確保が重要であると強調する。オーストラリア政府が「信頼あるAIプラットフォーム(Trusted AI Platform)」という表現を用いているように、アーカイブズ情報は「信頼できるもの」でなければならない。その際に不可欠なのが「記録管理の鎖(chain of custody)」の維持であるとし、AIが生成するアウトプットをそのまま保存するだけでは、どのような情報やアルゴリズムが使われたのか、どのようなプロセスを経てその結果に至ったのかが不明になり、証拠としての信頼性を失うリスクがある。だからこそ、アーカイブズ機関には「どの情報がどのように生まれ、どのように使われたか」を追跡・検証できる仕組みの構築が求められると言う。
  
  Arumugam氏が重要であると指摘するのがメタデータである。文脈や生成プロセス、利用ルール、アルゴリズム設計時の意図などを示すメタデータは、AI時代の記録管理の鎖を支える基盤になる。一方で同氏は、メタデータだけでは十分ではないとも指摘する。それは、メタデータが「価値判断」に基づいて作られるものであり、その判断は時代とともに変わる可能性があるため、未来志向の柔軟性をもった設計が必要とする。AIは、既存のメタデータを拡張し、潜在的に価値ある情報を示唆できる強力なツールになり得るが、最終的な判断責任は人間にあると言及している。
  
  最後に、AIが膨大な情報を処理する社会においてアーキビストが持つべき姿勢として、自身の所属する機関や業務の文脈を理解し、AIを活用するための社会的枠組み(ガバナンス、倫理、責任)を理解することが重要であるとしている。これには、単に「AIを使う」だけでなく、AIの出力やプロセスの透明性を担保し、将来の証拠価値を意識しながら関与すること、さらに「アーキビストは何ができるか」という視野を、AIの可能性に対して主体的・戦略的に活かしていくことが求められる。アーキビストはアーカイブズの原則だけでなく、急速に進化するAIの世界を理解する必要があり、好奇心と未来志向を持って常に学び続けることによって、記録管理におけるAIの活用を適切に導けるようになるべきだと強調している。

3-4. Babak Hamidzadeh氏及びLluis-Esteve Casellas氏の対談
  カナダ・ブリティッシュコロンビア大学を中心に行われる、デジタル環境における記録の真正性と長期保存に関する理論的・実践的枠組みの構築を目的とした国際プロジェクト、InterPARES[21]に参加する二人による対談である。Hamidzadeh氏はまず、同プロジェクトで実施するリサーチの説明として、AIがアーカイブズ実務に与える最大の課題は「記録の真正性(authenticity)」への影響にあると指摘する。AI、特に機械学習はランダム性や確率的挙動(stochastic behavior)を内包しており、その不確実性が「信頼できる記録」であることを損なう可能性をはらんでいる。そこで同氏は、「何と引き換えに、どのようなリスクを負っているのか」を常に問う必要があり、それを支えるものとして「パラデータ(Paradata)」の重要性を提唱している。
  
  パラデータはもともと、統計科学(statistical sciences)の領域で、統計調査において、得られた回答そのものではなく、その回答がどのように集められたかといった収集過程自体の詳細を記録するためのデータとして使われはじめたものであり、そこからAIの学習過程に関する情報の記録に応用されたという[22]。すなわち、パラデータは、AIがどのように訓練され、何に基づいて判断を下し、どの段階でどのように介入したかなど、AIの適用過程そのものを記録する情報群であって、これを保存・管理することではじめて、AIを介した記録の作成背景について説明責任(accountability)を果たすことができ、真正性を確保できるとする。
  
  一方、Casellas氏は実務者の立場から、まず、現在のアーカイブズ業務が直面する課題として「膨大な情報量の増大と分散化」を指摘する。このような状況では、業務システム内に埋もれる大量の記録とメタデータの信頼性を人の手だけで確保するのはもはや不可能であり、AIの活用は不可避とする。しかし、Casellas氏もまた、Hamidzadeh氏と同様、「AIに任せることのリスク」を意識しており、その軽減策として「パラデータを設計段階から組み込む(Paradata by design」考え方を提案した。AIの設計段階から、パラデータを体系的に記録・管理することは、単に「すべてのプロセスを透明化する」だけでなく、公共機関としての説明責任と、適切な粒度での透明性を両立する責務とする。
  
  両者の議論に共通するのは、AIの利用が記録の真正性・信頼性に及ぼす影響から、パラデータという形でAIの背景情報を保存することにより、その利用の正当性・適正性を検証可能にすることを不可欠とする認識である。AIを活用することで得られる効率性の一方で、記録の真正性を確保するために、AIがどのように機能していたかを「記録化」することが、アーキビストの重要な責務とする。
  
  以上、第2回において述べられた、Al-Mutairi氏が示した国家戦略との整合とAI導入にあたってのアーキビストの専門性の活用、Arumugam氏が提起した信頼と責任を意識した専門職の姿勢、そしてHamidzadeh氏とCasellas氏が述べた「パラデータ」による技術的インフラの整備は、アーカイブズ機関が、AIを活用して作成される記録を責任ある形で保存し、またAIを業務に組み込んでいくためには、相互に補い合う不可欠な要素と言える。

おわりに
  「AIとアーカイブズ実務」の第1回と第2回では、いずれの議論も、AIに対しアーキビストがいかに主体的に関与し、その責任を果たすかという本質的な問いが投げかけられている。AIがアーカイブズ実務にもたらすであろう様々な側面にただ期待し、あるいは恐れるのではなく、アーカイブズ実務の核心にある記録への「信頼」や「真正性」をいかに守り、その基盤をいかに構築していくか。この問いを正面から受け止め、学んでいくことの必要性を、切に感じる内容であった。
次号では、第3回「研究とアクセスを支援するAI」、第4回「AIとアーカイブズ記述」、第5回「AIと写真アーカイブズ」を紹介する。

[1]2023年のICAアブダビ大会では、「Emerging Technologies: Electronic Records, Electronic Solutions」として1日目と3日目の2度にわたり、「Artificial Intelligence & Machine Learning」のセッションがあり、またセッション番号385に「電子政府へのAI技術への応用(The Application of Artificial Intelligence (AI) Technologies for E Government: An Analysis of Sweden, Finland and South Africa)」との題で、スウェーデン、フィンランド、南アフリカ共和国の事例が紹介されている(2023アブダビ大会プログラム:https://www.ica.org/app/uploads/2023/12/programme_final_ica_congress_abu_dhabi_2023_updated2_0-1.pdf)。このほか、2024年11月、当館が主催した国際公文書館会議東アジア支部(EASTICA)セミナー「アーカイブズの新たな時代へ―課題と可能性-」では、イギリス国立公文書館のジョン・シェリダン氏による基調講演「新しいフロンティア-AI時代のデジタルアーカイビング-」があった(太田由紀「2024年EASTICA理事会及びセミナー開催報告」情報誌『アーカイブズ』第95号:https://www.archives.go.jp/publication/archives/no095/17049)(共に、access: 2025年7月24日)
[2]Programme Commission(PCOM)は、専門的・技術的プログラムやICA主催の国際会議、専門家グループの運営、専門家プロジェクトへの資金提供といった活動を統括する機関。ICA副会長(Vice President Programme)が委員長を務める。ICA webサイト:About the Programme Commission: https://www.ica.org/programme-commission/about-programme-commission/?utm_source=chatgpt.com (access: 2025年7月24日)
[3]2024年のPCOMプロジェクトにおいて採用されたのは総数13件で、オンラインや対面のイベント、研修、ワークショップ等のほか、配布物、ツールの作成などで、主催者はICAのセクションや専門家グループや、各国のアーカイブズ協会など様々である: ICA webサイト: Selected PCOM projects 2024: https://www.ica.org/selected-pcom-projects-2024/ (access: 2025年7月24日)
[4] ICA webサイト: AI and Archival Practice On-line Tutorials :https://www.ica.org/resource/ai-and-archival-practice-on-line-tutorials/ (access: 2025年7月24日)。8本の動画にはそれぞれ「リソースシート」がつけられており、内容の要旨とともに、参考となるwebサイトや文献等が紹介されている。
[5]ICA webサイト: Expert Group on Managing Digital and Physical Records(EGMDPR): https://www.ica.org/ica-network/expert-groups/egmdpr/ (access: 2025年7月24日)
[6]「AIとアーカイブズ実務」全8回の構成は以下のとおり。

  タイトル   収録時期
  「AIと評価選別」   2024年7月9日
  「AIとデジタル保存」   2024年7月及び9月
  「研究とアクセスを支援するAI」   2024年7月及び10月
  「AIとアーカイブズ記述」   2024年6月17日
  「AIと写真アーカイブズ」   2024年6月27日
  「AIと倫理、人権」   2024年5月
  「AIとアーカイブズの利用促進」   2024年6月
  「アーカイブズ・記録管理分野におけるAIの専門知識の維持」   2024年6月

[7]ICA Youtubeチャンネル “AI and Archival Practice: Video Series Exploring the Application of AI to the Management of Archives” : https://www.youtube.com/watch?v=TwKPxHUD0nM (access: 2025年7月24日)
[8]総務省/経済産業省「AI事業者ガイドライン(第1.1版)」(令和7年3月28日)、第1部「AIとは」より:https://www.meti.go.jp/shingikai/mono_info_service/ai_shakai_jisso/pdf/20250328_1.pdf (access: 2025年7月24日)
[9]総務省 情報通信白書令和6年度版 「第1 節 AI進展の経緯と生成AIのインパクト」より:https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r06/pdf/n1310000.pdf (access: 2025年7月24日)
[10]内閣府AI戦略会議・AI制度研究会「A中間とりまとめ」(2025 年2月4日):https://www8.cao.go.jp/cstp/ai/interim_report.pdf、デジタル庁「テキスト生成 AI 利活用におけるリスクへの対策ガイ ドブック(α版)」(2024年 6 月 10 日):https://www.digital.go.jp/assets/contents/node/basic_page/field_ref_resources/c1959599-efad-472e-a640-97ae67617219/fe843dc6/20240610_resources_generalitve-ai-guidebook_01.pdf?utm_source=chatgpt.com など。(ともに、access: 2025年7月24日)
[11]東京大学松尾・岩澤研究室 AI経営講座2025 第2回「AIテクノロジーの現在地と未来」(河野慎/松尾・岩澤研究室特任助教)より。
[12]独立行政法人 情報処理推進機構『DX白書2021』付録 「AI技術 ~知的活動を実現する基礎技術~」(p.322)によると、教師あり学習は「学習データに正解ラベルが付与されたデータを用いることで、正解ラベルに基づくデータを学習するもの」、教師なし学習は「「正解ラベルを付与していない学習データからデータに内在する特徴量(構造・規則性等)を見つけ出す」もの、強化学習は「行動を選択可能なシステムに対して選択結果に沿った報 酬を与えることで、どの行動を選択すべきなのかという「方策」を学習させるもの」である。:https://www.ipa.go.jp/publish/wp-dx/qv6pgp0000000txx-att/000093706.pdf (access: 2025年7月24日)
[13]OpenAI “How ChatGPT and our foundation models are developed”より、「モデルは、大量のデータに含まれる語と語の関係性、たとえば語が文脈の中でどのような語と一緒に使用されているかといったパターンを分析し、それをもとに、一語ずつ応答を生成する際、次に来るもっともらしい単語を予測している。」:https://help.openai.com/en/articles/7842364-how-chatgpt-and-our-language-models-are-developed?(access: 2025年7月24日)
[14]RecordPoint社はクラウドベースの情報ガバナンス及び記録管理プラットフォームを提供する、オーストラリア発祥のハイブリッド型グローバル企業:RecordPoint社webサイトより:https://www.recordpoint.com/ (access: 2025年7月24日)
[15]これに加えて、EGMDPRのメンバーでポルトガル・コインブラ大学情報学部教授のMoises Rockembach氏が、クロージングでコメントを行っている。
[16]Enron社は2001年、決算上の利益水増しなどが発覚して経営破綻した多角的企業。このデータセット(Enron Corpus)は、現実の企業コミュニケーションを反映する貴重なオープンデータとして、AI・機械学習に広く利用されている:https://enrondata.org/en/latest/ (access: 2025年7月24日) なお、Franks氏はデモンストレーションの中で、データセットは100万通程度であり、AIの学習データとしては「件数としてあまり膨大ではない」と言及している。
[17]大規模言語モデル(LLM)」は、言語を中心とした深層学習モデルで、自然言語によるプロンプト(指示や条件)に応じて、利用者との対話において自然かつ流暢な文章を生成する、対話型生成AIのこと(『文部科学省 科学技術白書 令和6年版』 第1章「新時代を迎えたAI」より:https://www.mext.go.jp/b_menu/hakusho/html/hpaa202401/1421221_00003.html?utm_source=chatgpt.comaccess: 2025年7月24日)。
[18]野村総合研究所webサイトの「用語解説」より、「外部情報の検索を組み合わせることで、大規模言語モデルの出力結果を最新の情報に更新できるようになる効果や、出力結果の根拠を明確にし」、AIの課題とされる「事実に基づかない情報を制しえする現象(ハルシネーション)を抑制する効果が期待されるもの」。https://www.nri.com/jp/knowledge/glossary/rag.html (access: 2025年7月24日)
[19]この端的な例としてFranks氏は、生成AIには言語モデルであるため計算能力はないことを例に、ChatGPTに関する研究プロジェクトの中には「8000億のパラメータを持つ言語モデルを訓練したら、算術タスクで85%の正答率が得られた」というものがあるが、生成AIを使わなくても電卓は100%の精度で計算できる、と説明している。
[20]BlueRydge社は、政府・防衛・重要産業向けにリスク管理、インシデント対応などの包括的なサイバー防衛サービスを提供しているオーストラリア・キャンベラ拠点の民間サイバーセキュリティ・テクノロジー企業:BlueRydge社webサイトより:https://bluerydge.com/ (access: 2025年7月24日)
[21]InterPARESは、1999年にカナダのブリティッシュ・コロンビア大学を中心に開始された国際的な研究プロジェクト。これまでに第1〜第4フェーズを経ており、各フェーズでは電子政府、クラウド環境など時代に即したテーマを扱ってきた。現在は第5フェーズ「InterPARES Trust AI」(2021~2026)をむかえており、アーカイブズに関する重要課題を解決し得るAI技術を特定・評価するとともに、アーカイブズの原則に基づく責任あるAIの開発とその有効性の検証を行うことを目的としている。InterPARESのwebサイトより:https://interparestrustai.org/?utm_source=chatgpt.com (access: 2025年7月24日)
[22] Scott Cameron, Pat Franks, Babak Hamidzadehによるプレプリント“Positioning Paradata: A conceptual frame for AI processual documentation in archives and recordkeeping contexts” (2023、InterPARES Trust AI)より: https://interparestrustai.org/assets/public/dissemination/positioningparadata04-20preprintv21.pdf (access: 2025年7月24日)