情報の長期保存に有力なOAIS参照モデル 第1回(全2回)

 

今回は、長期に情報を維持する仕組みとして考えられた概念モデルについてお話したいと思います。

デジタル情報はビット情報を維持するだけでは不十分であり「将来にわたって保存対象の意味を理解できること」を保証してこそ長期的な保存が実現します。

 

1.OAIS参照モデル

OAIS参照モデル(註1)をご存じでしょうか?

OAIS参照モデル(Reference Model for an Open Archival Information System)とは情報の長期保存システムの構築に対して有力なモデルとされ、国際標準規格(ISO 14271:2003、改訂版はISO 14721:2012)になっている仕組みです。

「OAIS参照モデル」の『IS(Information System:情報システム)』の部分は体系的な仕組みをさし、ICT技術を使用した情報システムのみをさすわけではありません。OAIS参照モデルの保存対象はデジタルだけでなく、物理的なアナログ情報も含めることができます。

欧米ではデジタルアーカイブシステムの基本的要件としてOAIS参照モデルへの準拠が求められています。

BDCプロジェクトでも、デジタル映画保存を行う仕組みの調査研究における前提として、OAIS参照モデルを置いています。

 

2.長期保存の仕組みが必要となるデジタル情報の「危うさ」とは

OAIS参照モデル策定のきっかけとして、NASAが1975年に打ち上げた火星探査機のデジタルデータに対し、1999年に南カリフォルニア大学の神経生物学者ジョセフ・ミラー氏(Joseph Miller)がデータをチェックしようとしたところ読み出す方法を見つけることができなかった事件があげられます(註2)

わずか25年前のデータでありながら、NASAはデータのフォーマット・読み出し方法を失い(それらを知っている人間が亡くなっていました)データを再生する手段がなくなっていたのです。データは電子的に完全な状態で残っていましたが、データが電子的に残っているだけでは「データの再生は保証されない」「データの意味を理解する方法は継承されない」ということを意味していました。

この例では紙に印刷されたものから三分の一を復元できましたが、それがなければ全てが失われていたでしょう。

 

また、フロッピーディスク、ビデオテープなど、再生機器の生産停止により読取方法が失われつつある記録媒体は数多くあります。

インターネットの父とも呼ばれるヴィントン・サーフ氏(Vinton Cerf)の言葉をかりれば「ビット情報の腐敗(Bit Rot)」(註3)が起きているのです。アナログ時代より早期に訪れるビットの腐敗に対処するには、継続的な監視が必要になるでしょう。

 

3.OAIS参照モデルの特徴<情報パッケージ>

OAIS参照モデルは「データの意味を理解する手段」の消失を防ぎ、100年後であってもデジタルデータの再生性を担保するための仕組みとして考えられました。1節に述べた通り、デジタルデータだけでなく物理的なものも保存対象とし、それらを利用者に提供するまでの組織や組織体系も含めてモデル化しています。

とはいえ、OAIS参照モデルはあくまで参照モデルであり、守らなければならない規則のようなものではありませんし、保存機関に必要とされる機能を厳密に規定したものでもありません。

 

OAIS参照モデルでは保存する際に、コンテンツ(保存対象)本体だけでなく

  • 「どのようにコンテンツができているかを示す表現情報
  • 「コンテンツや環境の関係を示すコンテクスト情報
  • 「コンテンツがどういった変遷を辿っているかを示す来歴情報
  • 「コンテンツに意図しない変更がされていないことを示す不変性情報

などの複数の情報をコンテンツと1まとめにして保存する仕組みを採用しています。

コンテンツ本体の周辺に配置された複数の情報が、コンテンツそのものの意味を理解することを将来にわたって助けるのです。

長期保存を実現しつつ後の世代でも再生可能である情報のまとまりを「情報パッケージ」と呼称し、情報パッケージをシステム全体として取り扱うことがOAIS参照モデルの特徴の1つです。

 

Blog_oais_aip

図.情報パッケージ(OAIS参照モデルに邦訳追加)

 

 

この情報パッケージに含む情報としては以下のような内容が考えられます。

Blog_oais_aiplist

映画においては何を保存し後世につないでいくのか、情報パッケージに何を含めなければならないのかについては議論が継続されています。上記の例示に映画の例を含めましたが、これは暫定的な試案にすぎませんので、その点はご留意ください。

 

長期保存においては、保存した情報がどういった内容であり、どういった意味合いを持つのか、表現情報で再帰的に解説する必要になります。

例えば、表現情報として、コンテンツがどのようにできているかを理解するために、フォーマットの仕様書やコード表があったとします。すると次に、仕様書やコード表に使われている用語を解説する資料が必要になります。仕様書が外国語で書かれている場合は、更にその言語の辞書や文法を解説する資料がなければ意味を理解することができません。

このような「表現情報を解説する表現情報が必要になる」という繰り返しは際限がなくなるのですが、OAIS参照モデルでは対象とするコミュニティを指定し、その指定コミュニティの中で意味を理解するために必要な表現情報に限定しています。

 

4.情報パッケージの種類

情報パッケージは固定ではなく、複数の種類があります。流通の段階において

  • コンテンツが提供されてOAISが受入する時(SIP)
  • OAISの保存場所に格納する時(AIP)
  • OAISから外部へ提供する時(DIP)

それぞれで内容が変化することも定義されています。

 

情報パッケージを発見するために、パッケージの外側においた記述情報(Descriptive Information)が利用されることもあります。記述情報は頻繁に更新されることが想定されるため、保存場所に格納する更新の少ない情報(AIP)と区別されます。

Blog_oais_xip

図.情報パッケージの変化について抜粋したもの(OAISから筆者抜粋)

 

境界ごとに必要な情報を定義することで、不要な情報の保持を避けることができ、各情報パッケージの役割が明確になります。

図では、1つのSIPを受け入れて1つのAIPが作られ1つのDIPを提供するという1:1の関係のように見えていますが、実際にはそれぞれの関係はN:Nで構いません。

 

保存対象であるコンテンツに対して、複数の補助情報を取り扱うことで「将来にわたって意味を理解できること」を保証する情報パッケージをご紹介しました。

次回はOAIS参照モデルにおけるマイグレーションと機能モデルをご紹介します。

 

(NO)

 

■本文の註

1.Reference Model for an Open Archival Information System (OAIS) “Magenta Book”

2.デジタルジレンマ 日本語訳版(慶応義塾大学DMC研究センター)

The Risk Digest(もともとはロイターの記事だがリンクが失われている)

3.What is ‘bit rot’ and is Vint Cerf right to be worried? | Technology | The Guardian