国立公文書館 金子智哉

1. はじめに
本稿は、令和8年2月5日(木)、6日(金)にオンラインで実施されたアーカイブズ研修IIのグループ討論における5班の概要報告である。討論のテーマは「電子公文書の利用」で、班員の氏名と所属先、及び討論における役割分担は次のとおりである(敬称略、名簿順)。
・金子智哉(独立行政法人国立公文書館)
・江口幸寛(独立行政法人国立公文書館)
・田中悠介(新潟県立文書館)
・大同裕士(奈良県立図書情報館、書記)
・山端桂祐(高知県立公文書館、司会)
・小野百合子(沖縄県公文書館、報告)
・原田浩(大阪市公文書館)
・塩沢葵(上田市公文書館)
電子公文書の利用に関する実績がある館、数年後に電子公文書の移管が始まる予定の館など所属先の状況が異なる中で、まずはグループとしての課題設定の検討から始めた。
2.課題の設定
アーカイブズ研修IIでは、これまでにも電子公文書がテーマとなっているので、過去のグループ討論で取り上げられた課題(例えば、電子公文書のファイル形式の変換方法や利用者の閲覧方法など)とは違うものを設定することを目標とした。
そこでまずは、日頃業務に携わっている中で抱いている問題意識を、各班員が1人ずつ述べていった。その中で、近年はOCR(文字認識)の技術が発達してきていることもあり、「電子公文書の利用」という観点で親和性が高いのは「AI」ではないかとの意見が出された。具体的には、AIを活用することで利用審査の業務負担を軽減できるとともに、審査の正確性と請求者の利便性(審査期間の短縮など)を高め、人員不足の職場を補助する存在になり得る、というものであった。
もう1つ提示された課題は、「審査基準の運用について」で、電子公文書は、審査後は基本的にデジタルアーカイブ(DA)などインターネットで提供されることとなる。これはつまり、請求者だけでなく世界中の人々が見ることができてしまうわけで、審査基準の運用が、通常の審査と電子公文書の審査とで同じでよいのかどうか。また、いったんDAに文書を掲載した後、例えば「時の経過」を踏まえて再審査することとなった場合、DA上にあるデータをどう更新し管理していくか、という問題提起であった。
その後の意見交換の結果、後者の課題については時間内で結論をまとめるのが難しいと思われるため、これから増えるであろう電子公文書の審査の効率化等を考えるべく、前者の「AIの活用」を課題として設定することとした。
3.課題に対する討論の経過
AIの活用について、以下4つの観点から、それぞれ「現状の分析と課題」、「対応策」、「想定される成果」を討論することとした。
(1)利用制限情報に関するマスキング作業のサポート
ア.現状の分析と課題
出された意見としては、「一度に大量の請求が来てしまうと、マスキング作業が期日までに間に合わなくなる恐れがある。」、「各地方自治体において審査を担当する職員の数が少ないうえに、どこも超過勤務の縮減を掲げているため、勤務時間外に作業しづらい。」、「担当職員による手作業であり、作業量が増えれば増えるほど、マスキング漏れなどミスの危険がある。」といったものがあった。電子公文書に限らず、どの館も限られた人員と時間の中で、手作業で多くの審査をしなければならない状況であることが分かった。
イ.対応策
AIについて詳しい班員によると、機械的な判断を得意とするAIに学習させることによって、例えばマスキングすべき単語やその類似語が複数箇所に記載されている場合、手作業で対応すると起こり得るマスキング漏れのリスクを軽減することが期待できる。さらには裏写りやはみ出し部分の確認にも役立つという。また、定型様式である公文書については、その様式で利用制限したい掲載箇所(例えば氏名欄など)を覚えさせたうえでのマスキングも可能とのことであった。
ウ.想定される成果
以上が実現できれば、作業の省力化、効率化を図ることができ、マスキング漏れ及び余計なマスキングの防止にもなる。この正確性の向上は、通常の審査はもちろん、特にインターネットで提供される電子公文書の審査に資するところが大きい。
(2)審査結果の蓄積
ア.現状の分析と課題
班員の共通認識として、「利用審査業務は、業務として言語化しづらく、さらに属人化しやすいところがある。」という点がある。どの館も、人事異動により数年毎に審査担当者が代わっていく。また、審査結果について、同じ文言でも文脈で意味合いが異なることがあるため、業務経験や専門性の差から担当者間で判断の微妙なブレが発生しやすい。それらを無くしていくためには、マニュアル等を整備し、誰が担当となっても確実に審査方法を引き継げるようにすることが重要である。
例えば、班員が所属する館では審査の方針やルールはあるが、細かな運用までは決めきれておらず、案件毎の判断になっているとのことであった。また、筆者が所属する国立公文書館では現在、利用審査の業務を14名体制で行っており、前述のように職員間で判断が分かれた際、その擦り合わせに時間と手間がかかっていた。今年度は、審査基準の運用の統一を図るべく作業を進めており、審査の迅速化や超過勤務の縮減といった成果が出ている旨の報告をした。
イ.対応策
審査結果、その検討過程、そしてマスキングした情報をAIに蓄積、学習させることで、今後同じような請求が来た時に向けたマニュアル等の作成に活用できる。ただし、各担当者が行った審査事例を単に積み上げるだけでは煩雑で不統一になる危険があるので、国立公文書館のように、審査の全体方針を定めたうえでAIに流し込むべきであろうという意見が出された。まさに業務を「言語化」していく作業となる。一方で、どうしても判断が難しく、職員間で協議が必要な審査の場合は引き続き人による審査を行い、誰が見ても同じ判断になるものは、AIによる支援を視野に入れることで業務の効率化が期待できるのではないか、という考えも示された。
ウ.想定される成果
属人化しがちな審査業務を平準化するとともに、非言語的な経験を言語化する契機にできるのではないか。前述のとおり、最終的な判断は人が行うべきであるが、判断を要しない箇所についてはAIを活用し、判断を要するところに時間と労力を集中的に割くことでかなりの業務効率化が期待できる。また、情報の蓄積を進めることによって、将来の社会状況の変化に応じた審査を行うことも可能になる。さらに将来的な展望としては、各館をまたいで全国的に情報共有できるシステムができるとよい。
以上、この(2)については、電子公文書と紙の文書共通の討論となった。
(3)文字認識の活用
ア.現状の分析と課題
班員が所属する館では、審査におけるくずし字の解読にAIを活用しているとの報告があった。ただし、「時の経過」という考え方を取り入れていないため、古文書でも、例えば人名は全てマスキングしているとのことである。
また、別の館には、紙の文書をスキャンしてPDF化したものがあるが、これだと文字データとして認識ができない。そのため、目録を作成する時などに全て手入力をしなければならないため、大変な手間と時間がかかっているのが課題とのことであった。
電子公文書の観点でいくと、国の方針は、文書の電子化に向けて紙の文書もスキャンしてデータ化する、としているので、AIを取り入れたAI-OCRの活用が重要になってくると思われる。なお、WordやPowerPointなどで作成された文書をPDFに変換した形であれば、文字データの検索は可能である。一方、これまでの紙文書を電子化すると、前述のように画像データになってしまうので文字検索ができない。
イ.対応策
AI-OCRを活用することで、通常のOCRと違い、学習したAIが前後の文脈を見て文字を判断することができる。国の方針により、これまで作成されてきた紙の文書もスキャンしたデータを原本にするということだが、文字認識ができないので、今からAI-OCRを活用すべきと考える。
ウ.想定される成果
文章の見読性と検索性を上げることができ、現在、人が手作業で行っている業務を省力化することができる。そして、利用決定までの時間を短縮し、スムーズに行うこともできる。これにより、例えば本人情報の請求や、ファミリーヒストリーを追っている方々の要望にしっかり応えることができる。そのことが、結果的に公文書館という施設の認知度の向上に貢献することができるかもしれない。
(4)レファレンス的な活用
ア.現状の分析と課題
本項は(3)の内容と密接に関わる。近年、ファミリーヒストリーを追っている方が、特定の個人の情報を探しに来館されることが多い。現状DAは簿冊名でしか検索できず、その中身(キーワードや個人名など)からアプローチできないため、探したい文書がなかなか見つけにくいのが課題である。
イ. 対応策
AI-OCRで蓄積されたデータを活用して検索性を高めることができれば、利用者から「こんな文書が見たい」という相談を受けた時に、該当する文書の提案ができ、自身でもDAで探しやすくなるかもしれない。さらに、国立国会図書館のレファレンス共同データベース等にある他のレファレンス情報と連携を取ることができれば、より効率のよい検索が可能になるのではないか。
ウ.想定される成果
先ほども述べたとおり、自身の身近な情報が調べやすくなれば、公文書館そのものの認知度の向上が期待できる。現状、公文書館の利用は研究者が多いが、一般の方にも手軽に利用してもらえるようになり、利用者の裾野が広げられる。また、利用者が1人で検索し、目的を達成できる確率が高まるので、職員の手を借りなくてもよくなり、レファレンス業務の効率化にも繋がる。
以上、(3)と(4)については、「文書の電子化とその利用」という観点から出発した討論となった。
(その他)インターネットへの情報漏洩の懸念と対策
討論の中で、AIに学習、蓄積させたデータがインターネットに繋がった際に漏洩しないのかという意見があった。これについて、班員が所属する館の例ではAIシステムを導入する際、入力した情報が外部に漏れないよう仕様に盛り込んだとのことであった。
考えられる対応策として、入力内容がAIに学習されない環境(仕様)を整える、AIから入力者へ、その内容について「この情報の入力は不可」というような警告が出るようにする、といったことが挙げられる。なお、このようなリスク管理については、デジタル庁により昨年策定された「行政の進化と革新のための生成AIの調達・利活用に係るガイドライン」[1]が参考になるとの情報提供があった。
4.全体報告と質疑応答、講評
以上の討論の結果、5班としては「利用審査の効率化と正確性、利用者の利便性を高め、担当職員の負担軽減を図るのに、AIは非常に有効である。ただし、最終的な判断は人によってなされるものであり、そこに時間と労力を集中的に割くことが必要となる。」という結論に至った。
以上の討論の経過と結論を最後の全体報告会で報告したところ、受講者より「報告の中で学習しないAIの利用という話があったが、利用審査の業務にあたっては、AIに学習させて精度を上げてこそ活きてくると思う。公文書館での利用審査となると、利用制限情報を読み込ませることになるが、これを学習させないとなると、果たして業務の効率化に本当に繋がるのか。」との質問があった。これに対し、「例えば班員が所属する館の例でいえば、当該自治体専用の学習データを学んだAIを作成できるようにしている。既存の学習データに加え、公開用の目録や評価選別の基準などを学んだAIであり、常に内容を更新している。外部に漏洩する危険がなく、費用もそこまでかからないものなので、今後、都道府県レベルで徐々に取り入れられるのではないかと考えている。」と回答した。
また、事務局からは、「電子公文書の利用というテーマだが、今回の報告内容は、紙の文書をAI-OCRで読み込んでテキストデータ化し、利用制限の可否を判断するための助けにするという論旨であった。これが今回の討論テーマに則しているか、率直に言って疑問に思った。また、先ほどの質問と関連して、AI活用のフェーズを分けて考える必要があるのではないか。前述のとおり、まず紙の文書をAI-OCRで読み込んでテキストデータ化する、そしてそのテキストデータをもって利用制限の可否を判断するのに活用する、少なくとも2段階に分かれている。他にも、公文書館が持っている紙の文書を認識するために、すでに公開可能な、類似の内容や同時代のものを読み込ませて学習させるフェーズ、そして学習したものを基に、文書をAI-OCRにより利用制限情報も含めて変換していくフェーズもある。新たにテキストデータ化されたもの(ターンドデジタル)と、もともとテキストデータを持っているもの(ボーンデジタル)について、利用制限を判定するための技術的なものは両者で同じである。そのあたりを班としてどう考えたのかを整理すべきではないか。」とのコメントをいただいた。
5.おわりに
5班の討論のテーマは「電子公文書の利用」であったが、班員の実務経験の有無に起因し、徐々に電子公文書と紙の文書の両者を対象とした討論へ展開した。特にAI技術の適用の可能性に関する内容を主として、今後の公文書管理における電子化推進と利活用の方向性を示す結論となった。そのため、講評で指摘があったように、本テーマへの直接的な回答が一部弱まったことから、今後は各班員が、改めてテーマの枠組み整理と実務的課題の明確化を進めることが必要と考える。それとともに、今回の討論で得られた知見と利用者側の視点を十分に踏まえ、電子公文書の利用促進に向けた検討を各自が深めていくことが望ましい。
[注]
[1]詳しくは以下を参照。
「行政の進化と革新のための生成AIの調達・利活用に係るガイドライン」を策定しました|デジタル庁
