日本語オープンディレクトリの窓 -
Home
-
RDF利用メモ
-
スクリプト利用メモ
オープンディレクトリ RDF ダンプの利用例
(このページは書きかけです 2005/04/24)
はじめに
ODP/オープンディレクトリプロジェクト により作成されたディレクトリのデータは、RDFダンプとして無償配布されています。
ODPによる
dmoz.org
サーバの内容は、ボランティアエディタの編集により日々更新されています。
ある時点における
dmoz.org
の全データをファイルにまとめたものが ODPの RDFダンプです。
RDFダンプデータの詳細な説明ページは
こちら(英語)
(
Excite訳
、
Google訳
)。
オープンディレクトリのデータは、オープンディレクトリ・ライセンス
Open Directory License(英語)
(
Excite訳
、
Google訳
)のもとで自由に利用できます。
RDFダンプは
こちら
にあります。
RDFダンプは通常毎週更新されます(たまに数ヶ月間更新されないこともあります)。
この RDFダンプが、
Googleディレクトリ
などに利用されています。
(いつの時点のRDFダンプを用いるかは、こうしたユーザサイトの更新の度合いによります。)
ユニークな RDFダンプ利用サイト
Googleディレクトリ
/
日本版
- PageRankによる順位表示。
Alexa
/
日本語階層
- Traffic Rank、ページへのアクセス数による順位表示。
Thumbshots
/
日本語階層
- サムネイル画像を提供。
Spline Search
- 日本語階層に特化。カテゴリごとに掲示板を用意。
ODPは、このように活用してもらうための RDFダンプを作るプロジェクトともいえそうです。
ODPのRDFダンプ利用サイトと
dmoz.org
ディレクトリとの間には、更新日時による内容の差異が生じます。
(このため、
dmoz.org
上での掲載内容の更新や追加は、すぐに反映されるとは限りません。)
一方で、
DWodp live
や
phpODP
といったスクリプトを利用して、
dmoz.org
を直に引用してページを生成しているサイトもあるようです(
DWodpの例
、
phpODPの例
)。
これらは手軽に設置でき、内容は最新の
dmoz.org
と同一になります。
<
オープンディレクトリ直接参照スクリプトの利用例
>
RDFダンプファイルには、以下のようなものがあります。
content.rdf.u8.gz
- ディレクトリ掲載サイトが詰まっています(K&T除く)。
structure.rdf.u8.gz
- ディレクトリ構造、カテゴリ説明文などが収録されています(K&T除く)。
kt-content.rdf.u8.gz
- K&T階層のcontents。
kt-structure.rdf.u8.gz
- K&T階層のstructures。
下記データサイズは 2005年2月時点のもの。
K&T は Kids and Teens(キッズとティーンズ)ODPの略。
18歳以下の利用者を対象にした ODPのサブプロジェクトであり、
RDFダンプはメインのそれとは別途に用意されています。
利用の具体例
RDFダンプファイルを
ここ
からダウンロードします。
RDFダンプは通常毎週更新されます(たまにしばらく更新されないこともあります)。
主なファイル名とサイズ。
content.rdf.u8.gz - 約
292M
byte。圧縮されてこのサイズです。
structure.rdf.u8.gz - 約
58M
byte。
kt-content.rdf.u8.gz - 約
2.3M
byte。
kt-structure.rdf.u8.gz - 約
0.4M
byte。
圧縮されているデータ(.gz)を展開します。
Unixでは gzip(gunzip)や tarで、Windowsでは Winzipや Lhacaなどで展開できます。
ブラウザ(の設定?)によっては、gzファイルのダウンロードの際に既に展開されているかもしれません。
展開後のファイル名とサイズ。
content.rdf.u8 - 約
1.82G
。巨大です。UTF-8で記述されています。
structure.rdf.u8 - 約
545M
。
kt-content.rdf.u8 - 約
14M
。
kt-structure.rdf.u8 - 約
2.9M
。
日本語階層のデータのみ抽出します。
抽出処理を作成して実行します。(サンプル・・xxx)
<Topic r:id="Top/World/Japanese"> といった...
World/Japaneseのみ取り出すと
content.ja.rdf.u8 - 約
43M
。
structure.ja.rdf.u8 - 約
7.7M
。
Adult/World/Japaneseのみ取り出すと
content.awj.rdf.u8 -
structure.awj.rdf.u8 -
Kids_and_Teens/International/Japaneseのみ取り出すと
kt-content.ja.rdf.u8 -
データサンプル(UTF-8)
- 約
340K
。
kt-structure.ja.rdf.u8 -
データサンプル(UTF-8)
- 約
39K
。
データのフォーマットを変換します。
変換処理を作成して実行します。(サンプル・・xxx)
カテゴリのリスト。例えば
structure.txt -
データサンプル(UTF-8)
- 約
1.3M
。
structure-awj.txt -
kt-structure.txt -
サイトのリストでは例えば
msearch
のインデックス(のような)形式では、
content.idx - 約
16M
。
awj-content.idx -
kt-content.idx -
データサンプル(EUC-JP)
- 約
123K
。
このidxの検索例
例えば HTMLページ
structure.ja.rdf.u8 から、カテゴリ構造とカテゴリ説明文だけを表示するサイトを作成 -
WJCats
- 約
100M
。
content.ja.rdf.u8 から ・・・
例えば DBMSのテーブルを作成
content.idx から、MySQLに loadして利用 ・・・
上記、
印のデータはODPのRDFを加工(抽出・フォーマット変更など)した二次生成データです。
というわけでもし何らかの利用をされる際には、ODPライセンス(
Open Directory License(英語)
、
(Excite翻訳)
、
(Google翻訳)
)をお守りください。
一言でいうと、御利用の際には
http://dmoz.org/become_an_editor
にある「ネットスケープの帰属表示」(下記のグリーンのテーブル表示)を必ず明示してください、ということのようです。
Help build the largest human-edited directory on the web.
Submit a Site
-
Open Directory Project
-
Become an Editor
Help build the largest Kids and Teens human-edited directory on the web.
Submit a Site
-
Kids and Teens Open Directory Project
-
Become an Editor
人の手によるウェブ最大のキッズとティーンズ・ディレクトリづくりにご協力ください
サイトを登録
-
キッズとティーンズ オープンディレクトリ
-
エディタになろう