Eyes, JAPAN Blog > Web上にあるデータをLinkedDataとして扱えるようにするにはどれくらいの手間が必要なのか

Web上にあるデータをLinkedDataとして扱えるようにするにはどれくらいの手間が必要なのか

Misato Usui

この記事は1年以上前に書かれたもので、内容が古い可能性がありますのでご注意ください。

Appscontest

日々データセットの数が増え続けるLinkedDataですが、既存のWebサイトからLinkedDataを生成するのがどれくらい手間がかかるか考えてみました。csvやxmlのような機械可読性の高いデータをRDFに変換するツールはInfoLib-LODやMeta bridgeなどなど多数提供されていますが、HTMLからRDFを生成するには専門的な知識と手間と時間が多大にかかるというのが現状のようです。(もしどんなWebサイトからも簡単にRDFを生成できるという神ツールを知っている方がいましたらぜひ教えてください!)

何も構造化されていないHTMLから主語・述語・目的語を抜き出してRDF構造に書き換えるのは果てしなく大変なので、今回は図書館のデータベースのように本に対する説明がキーとバリューの対として記述されているサイトに注目して考えてみます。

HTMLからRDFを抽出するまでのステップはこうです。
【Step1】RDFマッピングルールを作成
【Step2】HTMLからキーとバリューを抽出
【Step3】マッピングルールに従った抽出したキーとバリューをRDFの形式に落とし込む

まずマッピングルールというのは例えば本のメタデータを例に上げた場合、「作者」という項目にはdc:creatorを使用し、「作品名」にはdc:titleを使用するといったようにキー(この例の場合の作者や作品名といった項目)にどんな語彙(dc:creatorやdc:title)を当てはめるかという決まりのことです。
このマッピングルールというのはとても慎重に考えなくてはなりません。なぜかというと、たとえば図書館毎にこのマッピングルールがばらばらだったりすると、複数の図書館を横断して図書の検索をしたいときにうまくいかなくなっててしまうからです。マッピングルールを作成する際には、この分野のメタデータを記述するにはどんな項目が必要なのか、そしてその項目に対してどの語彙を使用するのか、また同じ項目を複数回使用してもよいのかといったルールをよく考えて作成し、その上でたとえば図書館であれば全国の図書館が統一のマッピングルールを使用することが大切です。(考えただけでもうたいへん…..(´・ω・`))

マッピングルールの説明を書いただけでもうちょっとうんざりしてきましたね。今日のblogのテーマは重すぎたかなといまさら後悔しています。。が、ここまで書いたからには最後までがんばる!興味のある方は最後までお付き合いください。

さあ、気合いを入れ替えて【Step2】HTMLからキーとバリューを抽出です!
どうするかというと、HTMLからキーとバリューを目視で探し出します。(も、目視!(´・ω・`)まじで)
HTMLの中からキーとバリューが対になっている部分を探し出してその場所をxpathかなんかで指定するわけですね。HTMLの知識があれば特段難しいことではなさそうですが、くらくらするほど手間と時間がかかるのが想像つきますね。ああうんざり….(もしこの作業が機械処理可能になっていたらどなたか教えてください。)

そしてやっとこ【Step3】です。
【Step2】で抽出したキーとバリューを【Step1】のルールにあてはめてRDFの形にしていきます。マッピングルールがしっかりしていればある程度だれでもできそうな作業ではありますが、キーやバリューがその道の専門家に深く意味がわからないような難しいものであった場合には、専門家の手が必要になってきます。

上記のように既存のWebサイトからRDFを作成するのはほんとにほんとに大変です。時間とコストが際限なくかかってしまうのがご想像できるかと思います。
ここ数年データをRDFなどの機械可読性が高い形式で公開しましょうというオープンデータの動きが高まっているのは、HTMLからRDFを抽出するのはあまりに大変だから、最初からRDFで公開しましょうねということなんでしょうね。とても納得がいきます。しかし、RDF形式でデータを公開するというのはまだまだ専門的な知識が必要なため、なかなか一般に普及しないだろうなというのが、一年前にはRDFなんてなんのこっちゃだった私が今思う感想です。
でもせめてcsvやExcel形式でもいいので公開するデータは機械可読性を高めていきましょう!

薄井(オープンデータ万歳)

  • このエントリーをはてなブックマークに追加

Comments are closed.