第14回デジタルデータの長期保存に関する国際会議(iPRES2017)参加報告

国立公文書館 統括公文書専門官室
公文書専門員 渡辺 悦子

はじめに
 平成29(2017)年9月25日(月)から9月29日(金)に、京都大学にて「第14回デジタルデータの長期保存にかかる国際会議」(International Conference on Digital Preservation、以下「iPRES」という。)が開催された。iPRESとは、デジタルデータの保存についての多様な課題を議論し経験を共有するため、世界各地の研究機関や図書館、博物館、文書館といったいわゆる文化記憶機関(memory institutions)により毎年持ち回りで開かれる、人文情報学(Digital Humanities。デジタル技術を用いた人文科学の学術資源の利用等を研究する学際的な研究分野のこと)の主要な国際会議である。
 2004年の立ち上げ以降、初の日本開催となる今大会[1]のテーマは「Keeping Cultural Diversity for the Future in the Digital Space ― from Pop-Culture to Scholarly Information」(多様な文化をデジタル空間に保存して未来へ伝える-ポップカルチャーから学術情報まで)[2]で、デジタルデータの長期保存と利用に関わる様々な先端技術や実施戦略等の取組みが発表され、国内外から228名(日本国内からは65名)の参加者があった。
 本稿では、プレ・イベントとして行われた日本セッションや、会期中の基調講演、専門セッション、ワークショップから、主だったものを中心に報告する。なお、会議の全体概要については、同会議のwebサイト論文集を一読されたい。

1.日本セッション
 まず、iPRESの本大会の開催前日となる9月25日から、デジタル保存(Digital Preservation)にかかる国内の取組み等を紹介する「日本セッション」として4つの発表が行われた[3]。ここでは、筑波大学図書館情報メディア系杉本重雄教授による講演「ディジタルリソースの長期保存に関する概観」を以下に紹介する。
 講演では、まずデジタル保存における「ディジタルリソース」とは、「ディジタル化して作られた資料からボーンデジタル資料、データベース」を含むあらゆるデジタル形式の資源をさすとした上で、保存とは「デジタルコンテンツを長期間、利用可能な状態で提供できるよう」維持管理することであるとされた。また、デジタルリソースが有する、内容(バイナリデータ)と表現(フォーマット)を切り離せる特徴から、保存の対象が物理的な保存媒体にとどまらず、コンテンツや機能、表現等にかかる技術のほか、デジタルで表現される全ての関係するオブジェクトをも対象とすることとなり、さらに将来においてコンテンツを利用するための仕組み(マイグレーション、エミュレーション)やそのための管理情報(メタデータ)、システム環境等を体系的に保存・管理していく必要があることが述べられた。また、デジタル保存における問題は「何を残すことができれば保存できたことになるのか」という保存方針の問題でもあり、この方針に基づいて技術を選び、維持管理にかかる環境の整備を考えることが重要であるとされた。
 デジタルデータの作成から利用にわたるライフサイクルにおける諸課題を幅広く概観するものであり、iPRES本会議での主だったトピックがマッピングされたものであった。

基調講演

2.基調講演
 本会議の3件[4]の基調講演のうち、ここではオランダのデータ・アーカイビング・ネットワーク・サービス(DANS)のI. Dillo氏による「デジタルデータの利活用と信頼性のあるデータリポジトリ」を紹介する[5]。
 研究データの共有は社会に様々な利益をもたらすことから、近年、研究者・研究機関等への資金提供団体が研究データをオープンにすることを条件に資金提供を行う事例が増加しており、それにつれてデータの公開を行う機関も増えている。そうしたデータの公開と切り離せないのが、データ共有の場となる「信頼性のある」リポジトリをどのように担保・保証するかという問題である。こうした要請に対し、オランダのDANS[6]や世界各国の学術機関等による国際科学会議(International Council for Science、以下「ICSU」とする。)の学際的な事業体であるWDS[7](World Data System)等により、電子リポジトリの信頼性を保証する要件を満たした機関に認証を与えるという取組みが近年行われていた。こうした認証制度の統合をはかるため、Research Data Allianceが策定したCore Trust Seals(以下「CTS」という。)[8]と呼ばれる統一の認証制度がICSUにより設けられることとなり、2017年末までには同制度に基づく認証ツールが利用可能となる予定である。このような認証には、研究データの流通にとどまらず、ステークホルダーに対する説明や電子保存への注意喚起、リポジトリにおける交流の促進やプロセスの改善等の効果があると考えられている。CTSでは要求事項が16に整理され、また認証の有効期間は3年となる見込みとのことである。
 あわせて、DANSでは、研究データセットのデータの質に関する基準とそれを評価する方法に対する要請の高まりをうけ、CTSの内容のうちデータの質にかかる要件に注目し、F (findable、見つけやすい)、 A (accessible、アクセスしやすい)、 I (interoperable、相互互換性のある) 、R (re-usable、再利用可能である) の4つの要件を満たしたものを「FAIR data」として、専門家コミュニティにおける相互評価でデータの質を保証する「FAIR badge scheme」という取組みに着手している。Dillio氏は、今後、CTSで電子リポジトリのクオリティの基準を示し、FAIR badge schemeにより各データセットのクオリティを保証しながら、信頼性のあるデジタル・リポジトリの構築を推進していきたいと考えているとのことであった。
 講演後、会場からは、FAIR badge schemeへの関心が多く寄せられた。

専門セッション

3.専門セッション
 専門セッションは、11のセッション[9]に分かれ、計30件の報告が行われた。紙幅の都合でその全てを紹介することはできないが、より本誌読者に関係する事柄として「PDF保存」と「保存システム」にかかる発表を以下に紹介する。

3-1. PDF保存について
 PDFはPortable Document Formatの略で、文書作成者が意図した文書のレイアウトイメージをそのまま保存することが可能なファイル保存形式である。また、PDFの機能をさらに一部制限・禁止した仕様となっているPDF/Aは、表示するアプリケーションやコンピュータ環境によらず、固定された状態で可読性を保つ等の特徴があり、長期保存のための電子文書のファイル保存形式に係る国際規格ISO 19005となっている。iPRESでは、PDF/Aに関わる3つの発表があった。
 ベルリン・コンラート=ツーゼ情報技術センターのM. Klindt氏[10]は、「デジタル長期保存」とは、単に「見かけの保存」である情報へのアクセスの保証だけではなく、再利用できることをも含むとすれば、他の保存形式へのマイグレーションが困難もしくは不可能であったり、その他禁止・制限事項のあるPDF/Aには課題が多いとした。また非常に複雑な論理構造を持っているため、記述・入力されたデータの使用や形式と適合しているかをチェックするバリデーションが困難であったりすること等を挙げ、長期保存用フォーマットとしてのPDF/Aの有効性に一石を投じた。
 現に、ライプニッツ科学技術情報センターのM. Lindlar氏がKlindt氏の直前に行った発表[11]では、様々なデジタル・オブジェクトのバリデーションを行うツールであるJHOVE[12]は、PDFのシンタックス(プログラムの構文規則)や構造のバリデーションを行う唯一のツールとして広く使用されているものであるが、JHOVEが実際にPDFのエラーを検出しきれていないケースがあることを明らかにしている。
 なお、もう一つは「コミュニティ構築」セッションにおける発表で、PDF産業と文化遺産保存機関が共同して、PDF/Aのバリデーションを行うオープンソースのソフトウェアveraPDFの開発に取り組むコンソーシアムの活動にかかる報告[13]があった。
 長期保存にかかる保存形式や保存形式フォーマットの維持管理の課題、さらに管理に関する体制が産業や研究機関など分野を横断して構築されていることを通じて、PDF形式がデジタル長期保存に果たしている役割が見えるものであるとともに、「何を保存するか」の定義によって使用すべきフォーマットの検討の必要性を示唆する大変興味深いセッションであった。

3-2. OAIS参照モデルの実施
 フランス国立図書館(Bibliothèque nationale de France、以下「BnF」という。)メタデータ担当部門のB. Caron氏の発表[14]は、デジタルデータの長期保存に有効とされる枠組みであり、ISO14721として国際標準規格になっているOAIS参照モデル(Reference Model for an Open Archival Information System)を実際の業務に応用していく過程で見出された課題への対処と、デジタルデータの作成や利用のかたちの変化につれて、管理手法の実施方法もまた変化していった過程を分析した、莫大なデジタルデータの管理・保存・提供を行う大規模組織による取組みを紹介したものである。
 OAIS参照モデルは、デジタルデータをコンテンツ情報と保存情報をセットにした情報パッケージ(Information Package)として扱い、またそれら情報パッケージの提出(Submission Information Package、以下「SIP」という。)、管理(Archival Information Package、以下「AIP」という。)、提供(Dissemination Information Package、以下「DIP」という。)に関わる人・組織の各機能や役割、責任を定義して長期にわたるデータの再生性を担保する仕組みをモデル化したものとして知られる。本発表では、保存システムへ格納するために付する記述情報の更新が少ないと考えられていたAIPに焦点があてられる。大規模なデジタル化プロジェクトの実施が行われるようになったこと、保存期間満了後の廃棄等が法的に義務付けられる組織文書の作成が近年ボーンデジタル化したこと、また一度取り込んだデジタル画像等の品質改善のための再デジタル化プロジェクトの実施等によって、データのマイグレーションとバージョン管理の必要性が増大し、AIPに付する情報の更新を当初考えられていた以上に頻繁に行う必要が生じてきた。そのため、これまでSIP→AIP→DIPと直線的に考えられていたデータ管理のライフサイクルが、SIP→AIP→DIP→SIP→AIP…と循環的に考えられるようになったという。
 こうした取組みの過程で、書籍からe-bookへの媒体変換も一種のマイグレーションとする考え方もあらわれ、書籍等の物理的資料と同様の注意がデジタル資料にも払われなければならないという認識がBnF全体で共有されはじめていること、また、デジタル保存は技術的課題というよりむしろ組織における保存体制についての方針が、より重要な課題となりつつあるとの結びが印象に残るものであった。

ワークショップ

4.ワークショップ
 今年のiPRESでは、本大会閉会後から翌日にかけ、専門家セッションで紹介されたツールにかかるチュートリアルやデジタル保存にかかるディスカッション等のワークショップが行われた[15]。ここでは、これらのうち「プライバシー情報を含むデジタル・コレクションの保存とアクセス」のテーマで行われたワークショップについて紹介する。
 アクセスに物理的障害が少ないデジタル情報の利用・公開が進む一方で、それらに係る諸制度は確立に至っておらず、公開されたデジタル情報はコントロールが難しいものとなっている。本ワークショップは、情報をデジタル環境で扱う際の制度や、情報の保護とアクセスにかかるモデルの策定は可能か等をオープン・ディスカッション形式で議論しようという趣旨で行われたものである。ここでは、プライバシー情報を「個人を特定できる情報で、公開することにより個人や近しい関係にある人々にネガティブな影響を与える可能性のある情報」と定義する。
 まず、ケンブリッジ大学図書館のS. Langley氏より同図書館のボーンデジタル・コレクションの整理と利用提供にかかる調査プロジェクト[16]を進める中で、デジタル情報の範囲の特定や整理段階で見えてきた課題などが紹介された。同図書館のデジタル情報には組織文書や管理用記録の他、コレクションのデジタル化画像やデジタルコンテンツ、寄贈された各種の研究データセット等があり、オンラインや個人のパソコン、大学のサーバ等に散在している。こうしたデジタル情報の受入れから評価選別にかかるワークフローや方針の策定、情報パッケージ化や既存の図書館システムへの統合といった課題をかかえており、公開記録と非公開記録の混在や膨大なデータからプライバシー情報を含むファイルをどう探すのか、デジタル・フォレンジック(コンピュータやネットワーク等の不正使用等への対応や法的紛争、訴訟などに対し、証拠の保全及び調査分析などを行う一連の手法・技術の総称)の手法を取り入れることが検討されているとのことである。さらに、実施の際には、スキルを持った「デジタル・アーキビスト」が必要になるだろうとした。
 続いてウィーン工科大学のA. Rauber氏からは、Webアーカイブにおけるプライバシー情報について問題提起があった。webアーカイブの場合、一度公の場所に置かれた情報であっても、故意あるいは誤ってweb上に公開された情報がアーカイブされた場合、情報へのアクセスの提供にかかる手法が課題となっている。Webアーカイブは情報検索の問題でもあり、方針の策定だけでなく、誤って公開されたプライバシー情報にかかる固有表現の検出やクエリ自体をブロックするなどの方策が検討されており、情報へのアクセスとブロックのバランスが重要となるだろうとした。
   このような話題提供を受けて、参加者が所属する機関のデジタル記録・情報にかかる方針や取組みが紹介されるなか、デジタル情報は莫大な量にのぼることが特徴であり、情報の抽出や保護にかかる作業の全てを人が行うことは不可能(100TBのデータは平均して約100万件の文書に相当するという)であること、プライバシー情報はキーワード検索等だけでは全てを検出することはできず、自然言語処理を利用したスキャニング等の情報技術によるアシストが必要となることが指摘された。また、検出すべき情報の特徴や検出に必要なプロセスを整理していくこと、さらに、情報技術による処理は固有表現を適切に検出することが可能かという点においてリスクを伴うこと、情報セキュリティや機関としての信頼等様々な要素を勘案し、情報流出等想定される被害にかかるリスクを比較衡量して明確にしていく必要があること等が議論された。
 後半では、ボーンデジタル・データにおけるプライバシー情報を含む固有表現の検出にかかる自動化の取組みが、アメリカのノースキャロライナ大学のC. Lee教授から紹介された。アーカイブズ所蔵機関が所蔵するデジタル・コレクションから固有表現を検出し、アクセスを制限した上で公開するために、人文科学の分野でデジタル・フォレンジックの手法を利用する取組みが近年さかんになっている。デジタルデータの表現のレベルには、人間が認識できるものから電気信号としてのビットストリームまで様々な段階があり、いずれの状態であっても情報交流の対象となるという認識をまず持つ必要があるとする。現在Lee教授が進めるプロジェクト[17]では、ディスクイメージ(イメージファイル)[18]からプライバシー情報を含む固有表現を自動的に抽出するだけでなく、抽出されたプライバシー情報の編集(redaction、いわゆるマスキング作業)を自動化するツールの開発につとめている[19]。様々な形式で保存されているファイルの一部を、ターゲットとなるバイトに「0」を上書きする等、バイナリレベルで変更を加えて情報を非表示にする作業を自動的に行うものという。前半における議論と同様、本報告に対しても、コンピュータによる編集箇所検出の有効性等が議論になったが、人によるプライバシー情報の検出もまた完全ではなく、どこまで精度を高めたところで100%ということは不可能であり、利用者が求める情報へのアクセス提供を保証しなければならない以上、完全を「目指す」としか言えないだろうと結ばれた。

パネル・ディスカッション

おわりに
 本会議を通じて、まず、デジタルデータの保存の現場で現在取り組まれていること、及びそれらを知る上でのコンセプトや考え方についての知識を得られたのは有意義だった。
 また、杉本教授の講演でも述べられたように、コンテンツと表現が分離できるのはデジタル情報の特徴であるが、この特徴はデジタル情報がコンテンツの「利用」の面からは可能性を広げるものの、作成されたコンテンツの「保存」の面からは困難をもたらしていることを表している。デジタル情報を扱う際には、これら両面への対応が生じてくる。そうした点からも、近年、情報技術に熟練した「デジタル・アーキビスト」の配置の必要性がは語られているものと思われる。その一方で、同教授の講演にもあったように、何を残せば保存されたことになるのかということが、技術以前の「方針」の問題でもあるとの指摘は重要である。デジタル保存は、そうした「方針」や組織的体制を巻き込んで検討しなければならないことが、iPRES全体の議論を通じて指摘されていたように思われた。
 紙幅の都合で紹介することはできなかったが、本大会で開かれた、最前線でデジタル保存業務に当たる実務者達のパネルディスカッション(「デジタル保存における運用可能な実用主義:コンテクストを考慮した最低限のベースラインを打ち立てる」:28日開催)において、単にデータを保存する行為である「Archiving」とデジタルデータの積極的な保存と長期にわたって利用可能な状態を保つ機関「Archives」の違いを認識し、「機関/制度 institution」としてそれを担保してゆくべきであるとの発言も、強く印象に残っている。デジタル保存とは単にデータを技術的に保存するだけでなく「再利用」が可能であることを必要としており、またそれを組織や社会全体が確保していく仕組みの模索へと進んでいることが感じられた。
 デジタル形式であっても、記録を扱うという課題に際してはその原理原則に立ちもどることの重要性をあらためて認識するとともに、デジタル保存にかかる現在の実務上の課題を整理し、その解決の可能性を求めるため、最新の技術の動向に対しアンテナをはっておくことの重要性が確認できた。
 今後も継続して、デジタル保存にかかる動向を注視していきたいと思う。

注:
[1]2011年に筑波大学がホストして開催予定であったところ、東日本大震災とそれによる原発事故等により日本での開催は中止となった過去がある(2011年はシンガポールで代替地開催)。
[2] iPRES2017公式webサイトより。Available at: https://ipres2017.jp/japanese/ (access: 2017/10/20)
[3] 日本セッションのその他3件の発表は、東京大学の前田幸男教授による「社会調査個票デジタルデータの収集、保存、二次分析について」、東京大学史料編纂所の保谷徹教授、山田太造助教らによる「東京大学史料編纂所による前近代日本史資料の調査に基づく資料画像のデジタル化とその保存」と、国立歴史民俗博物館の後藤真准教授をオーガナイザーに花園大学の師茂樹教授、金沢大学のジョン・アートル准教授、国立歴史民俗博物館の島津美子助教を交えた「歴史資料デジタル記録として何を記述すべきか―日本とアジアと世界」のパネルディスカッションを含む報告があった。
[4] 他の2件は、カリフォルニア大学バークレイ校のPeter X. ZHOU氏による、「デジタル敦煌:デジタル保存のための標準」と、立命館大学教授中村彰憲氏による「日本におけるデジタル・ゲーム保存の試み―立命館ゲーム・アーカイブ・プロジェクトを事例に」。
[5]‘FAIR Data in Trustworthy Data Repositories’, available at: https://ipres2017.jp/wp-content/uploads/Keynote-ingrid-edited-by-Nakayama.pdf (access: 2017/10/17)
[6] DANSによる認証制度をData Seal of Approval という。https://datasealofapproval.org/en/ (access: 2017/10/20)
[7] https://www.icsu-wds.org/ (access: 2017/10/20)
[8] https://www.coretrustseal.org/ (access: 2017/10/20)
[9]「メタデータとリンクトデータ(Linked data)」、「データ・マネジメント」、「エミュレーションとソフトウェア保存」、「ドキュメント化と研修」、「PDF保存」、「受入れと評価」、「コミュニティ構築」「ツール」「保存システム」、「コンテンツ分析」、「資格」の11セッション。
[10] 論文がiPRES2107のwebサイトに掲載されている。なお、本論考はiPRESベスト論文にノミネートされた論文3本のうちの1つである。 Marco Klindt, “PDF/A considered harmful for digital preservation” available at: https://ipres2017.jp/wp-content/uploads/15.pdf (access: 2017/10/20)
[11] 同じく、論文がiPRES2107のwebサイトに掲載されている。M.Lindlar, Y. Tunnat, C. Wilson, “A PDF Test-Set for Well-Formedness Validation in JHOVE – The Good, the Bad and the Ugly” available at: https://ipres2017.jp/wp-content/uploads/35.pdf (access: 2017/10/20)
[12] http://openpreservation.org/technology/products/jhove/ (access: 2017/10/20)
[13] Rebecca McGuinness, Carl Wilson, Duff Johnson and Boris Doubrov ‘veraPDF: open source PDF/A validation through pragmatic partnership’, available at: https://ipres2017.jp/wp-content/uploads/28Rebecca-McGuinness.pdf (access: 2017/10/20)
[14] Bertrand Caron, Jordan de La Houssaye, Thomas Ledoux and Stéphane Reecht, ‘Life and Death of an Information Package: Implementing the Lifecycle in a Multipurpose Preservation System’, available at: https://ipres2017.jp/wp-content/uploads/25Bertrand-Caron.pdf (access: 2017/10/20)。なお本発表はiPRES2017の最優秀論文賞(Best Paper Award)を受賞している。
[15] 開催されたチュートリアル、ワークショップは、Fedoraによるデジタルコンテンツ公開、個人情報等プライバシー情報を含むデジタル・コレクションの保存とアクセス、永続的識別子、BitCuratorを使用したボーンデジタル・コレクションへの自然言語処理の適用、保存用メタデータPREMISの理解と実施、等計12件である。
[16] Polonsky Digital Preservation Project, avairable at: https://www.dpoc.ac.uk/ (access: 2017/10/20)
[17] 2011-2014のBitCuratorプロジェクト2014-2016で行われたBitCurator Accessプロジェクト、2016-2018で現在進行形のBitCurator NLPプロジェクト等がある。詳細は本iPRES2017の発表論文Christpher A. Lee and Kam Woods ‘Diverse Digital Collections Meet Diverse Uses: Applying Natural Language Processing to Born-Digital Primary Sources’、Proceedings of Memory of the World in the Digital Age: Digitization and Preservation: An International Conference on Permanent Access to Digital Documentary Heritage (available at: https://ipres2017.jp/wp-content/uploads/50.pdf, access: 2017/10/20)や同’Automated Redaction of Private and Personal Data in Collections: Toward Responsible Stewardship of Digital Heritage’(available at: http://www.unesco.org/fileadmin/MULTIMEDIA/HQ/CI/CI/pdf/mow/VC_Lee_Woods_26_D_1600.pdf, access: 2017/10/20)など。
[18] イメージファイル。ハードディスク等に保管されているすべてのデータをそのまままるごと写し取って一つのファイルにしたもの。保存されているファイルだけでなく、ファイルシステムの構造なども写し取るため、完全なバックアップが取れるとされるものである。
[19] BitCuratorコンソーシアム: https://www.bitcuratorconsortium.org/ (access: 2017/10/20)。なお、BitCuratorのワークショップが、同日午後に開催された。