勉強会「LOD時代の書誌コントロール」実習編(日図研情報組織化研究グループ)
8月23日・30日に、情組研のLOD勉強会実習編に参加しました。
この勉強会は2013年度からやっていて、昨年は『Linked Data: Webをグローバルなデータ空間にする仕組み』を輪読。
まとめとしてこんな発表もしました。
教科書的な文献を読んだ次の段階として、2回の予定での実習編。
情組研グループがまとめてきた「情報組織化関連記事一覧」(2000-2009, 2010-)およそ3000件を、LinkData.orgを使ってRDF化。SPARQLクエリの記述例を学んで、逆マッシュアップによるアプリ作成を目指しました。
各回の講師・資料・元データ・RDF化データ・プロパティ一覧などはこちらにまとまっています。
23日の1回目は、まず古崎先生に講義をしていただいて、LODの概要をおさらい。namespaceがどういうものか初めてわかったり、TurtleとN-Triplesの違いがやっと理解できたり、『Linked Data』の本を読んだだけではわからなかったことがいろいろ腑に落ちました。
(※入門資料として紹介されたLODI/Linked Open Data連続講義の講義資料。
受講料取った講義なのに各回終わるなり公開されたとのこと。太っ腹なのか何なのか…笑)
後半の元データの各項目に、プロパティ名とプロパティURIを割りあてる作業。既にある語彙から何を選ぶか、の議論にけっこう時間がかかりました。
30日の2回目は、ATR Creativeの上田さんからまずSPARQLの概要、基本構造、検索をかけるとデータベース上のデータに対してどんな動きをするのか、などを話していただきました。
講義資料が大変わかりやすかったです。
後半、SPARQLを使った逆マッシュアップで、既存のアプリに情組研のデータを放り込んでアプリ作成にチャレンジ。
上田さんが用意してくださったページを経由して、2つのアプリのソースコードやひな形HTMLファイルをダウンロード。
- 書籍検索アプリ
- sgvizler
(どっちも既存で入ってたデータはししょまろはんの「京都が出てくる本のデータ」)
ソースコード開くとずらっとコードが並んでるけど、こっちがやることはデータのエンドポイントの書き換えとクエリの書き換えだけ。他は触らなくていい。
sgvizlerはデータをいろんなランキングやグラフで表せるツール。
情組研データに入れ替えた後は、本文の有無・抄録有りの割合を円グラフにしたり、いろいろ遊んでみた。データが空値のところをうまく検索してくれなかったりしたけど、いじるのは楽しかった。
終了後、今回使ったデータをこれからどうするか、の話を少ししてました。
3000件という規模は少なすぎず多すぎずで応用や加工はしやすいかもしれない。でも情報組織化という社会的にはとてもマイナーな分野だから、他のどんなデータとつながる可能性があるかは、今後課題になりそうです。