DBペディア

ウィキペディアからの構造化コンテントの抽出を目的とするプロジェクト
DBpediaから転送)

DBペディア: DBpedia)は、ウィキペディアからの構造化コンテントの抽出を目的とするプロジェクトである。抽出された構造化情報は、World Wide Web上で利用可能となる[2]。DBペディアを利用すると、ウィキペディアのリソースおよび外部の関連するデータセットへのリンクから、関係やプロパティを問い合わせることができる[3]ティム・バーナーズ=リーは、DBペディアはリンクト・データ・プロジェクトの中で有名なものの1つだ、と述べている[4]
ウィキペディア日本語版の記事を利用したDBpedia Japaneseは、国立情報学研究所によって2012年5月9日に公開された[5]

DBペディア
DBpediaのロゴ
開発元 ライプツィヒ大学ベルリン自由大学, オープンリンク・ソフトウェア
初版 2007年1月23日
最新版
DBpedia 3.8 / 2012年8月6日[1]
リポジトリ ウィキデータを編集
プログラミング
言語
ScalaJavaVSP
対応OS ヴィルトゥオーソ・ユニバーサル・サーバ
種別 セマンティック・ウェブリンクト・データ
ライセンス GPL
公式サイト dbpedia.org
テンプレートを表示

背景

編集

このプロジェクトはオープン・リンク・ソフトウェアとの協力の下、ベルリン自由大学ライプツィヒ大学のメンバーによって開始され[6]、2007年に最初の公開用データセットが公開された。データセットはフリー・ライセンスで提供され、再利用することができる。

ウィキペディアの記事は概ねフリー・テキストから構成されているが、「インフォボックス」(infobox) テーブル、カテゴリ情報、画像、地理座標、外部ウェブページへのリンク、といった構造化情報も記事に組み込まれている。これらの構造化情報が抽出され、問い合わせ可能な統一データセットの中に保存される。

データセット

編集

2011年9月 (2011-09)現在、DBペディアのデータセットは364万件以上の事物を扱い、うち183万件が一貫したオントロジーに分類されている。そこには人物416,000件、地理526,000件、音楽アルバム106,000件、映画60,000件、ビデオ・ゲーム17,500件, 組織・団体169,000件、生物種183,000件、そして病気.5,400件が含まれている。DBペディア・データセットは、これら364万件の事物の名前と概要を最大97言語で提供するほか、2,724,000件の画像へのリンクと6,300,000件の外部ウェブ・ページへのリンク、6,200,000件の別のRDFデータセットへの外部リンク、740,000件のウィキペディアのカテゴリ、そして2,900,000件のYAGO2のカテゴリも提供する。このデータセットから、複数ページに分散する情報を抽出することができる。例えば、ある著作者の作品に関するページやその著作者自身に関するページをまとめ上げることができる。

DBペディア・プロジェクトは、RDF (Resource Description Framework) を使用して情報を抽出する。2011年9月 (2011-09)現在、DBペディア・データセットは10億件以上の情報(RDFトリプル)から構成され、うち3億8500万件は英語版ウィキペディアから、6億6500万件は他の言語版からそれぞれ抽出されたものである[7]

ウィキペディアから情報抽出する際の問題の1つは、例えば「出身地」と「出生地」のように、同一概念が複数のテンプレートで異なるプロパティとして表現され得る、ということである。このため、ある人が生誕した場所を問い合わせる場合、より完全な結果を得るためには、それら両方のプロパティを検索する必要がある。このため、これらのプロパティとオントロジーとのマッピングを行い同義語の数を減らすために、DBペディア・マッピング言語 (DBpedia Mapping Language) が開発された。ウィキペディアで使用されているインフォボックスやプロパティは非常に多様であるため、誰でも参加できるように開発とマッピング改善のプロセスは公開されている[8]

DBペディアはウィキペディアのページから情報を抽出する。利用者は、多数のウィキペディアの記事に分散している情報に対して問い合わせを行うことができる。データへのアクセスは、SPARQLというRDF用のSQLライクな問い合わせ言語で行う。例えば、日本の少女漫画シリーズの東京ミュウミュウに興味があり、そのイラストレーターによる他の作品を見つけたい場合、DBペディアはウィキペディアの東京ミュウミュウ、征海未亜、そしてスーパードール★リカちゃん恋きゅー♥といった作品に関する項目から情報を抽出し、1つにまとめる。DBペディアは情報を単一データベースに正規化するため、どの項目がどの情報を持っているか正確に知らなくても、以下のクエリーで問い合わせし、関連情報の一覧を得ることができる。

 PREFIX dbprop: <http://dbpedia.org/property/>
 PREFIX db: <http://dbpedia.org/resource/>
 SELECT ?who ?work ?genre WHERE { 
  db:Tokyo_Mew_Mew dbprop:illustrator ?who .
  ?work  dbprop:author ?who .
  OPTIONAL { ?work dbprop:genre ?genre } .
 }

用途

編集

DBペディアは人類の知識の広範な領域をカバーするため、そのコンセプトにリンク可能な外部データセットを結び付けるハブとなる[9]。DBペディア・データセットは、ウェブに存在する他の様々なオープン・データ・データセットと、RDFレベルでインターリンクされている。2011年1月 (2011-01)現在、DBペディアと次のような外部データセットとの間に650万件以上のインターリンクが存在している:FreebaseOpenCycUMBELGeoNamesMusicbrainzCIAワールド・ファクト・ブックDBLPプロジェクト・グーテンベルク、DBtune JamendoユーロスタットUniprotBio2RDFアメリカ合衆国国勢調査(US Census)のデータ[10][11]トムソン・ロイター・イニシアティブ・オープン・クラリスニューヨーク・タイムズのリンクド・オープン・データ・プロジェクト、Zemanta API、そしてDBペディア・スポットライトもまた、DBペディアへのリンクを持っている[12][13][14]BBCは、DBペディアで自社コンテンツの体系化を行っている[15][16]Favikiは、DBペディアをセマンティック・タギングのために使用している[17]

Amazonは、Amazon Web Servicesアプリケーションとの統合が可能な「パブリック・データ・セット」をDBペディアに提供している[18]

脚注

編集
  1. ^ DBpedia 3.8 released, including enlarged Ontology and additional localized Versions”. DBpedia Blog (August 06, 2012). 2012年10月31日閲覧。
  2. ^ Bizer, Christian; Lehmann, Jens; Kobilarov, Georgi; Auer, Soren; Becker, Christian; Cyganiak, Richard; Hellmann, Sebastian (September 2009). “DBpedia - A crystallization point for the Web of Data”. Web Semantics: Science, Services and Agents on the World Wide Web 7 (3): 154–165. ISSN 1570-8268. http://www.wiwiss.fu-berlin.de/en/institute/pwo/bizer/research/publications/Bizer-etal-DBpedia-CrystallizationPoint-JWS-Preprint.pdf. 
  3. ^ Komplett verlinkt - Linked Data” (German). 3sat (2009年6月19日). 2009年11月10日閲覧。
  4. ^ Sir Tim Berners-Lee Talks with Talis about the Semantic Web”. Talis (7 February 2008). 2012年10月31日閲覧。
  5. ^ DBpedia Japanese”. 2013年6月5日閲覧。
  6. ^ , http://wiki.dbpedia.org/Team 2009年11月23日閲覧。 
  7. ^ DBpedia dataset”. DBpedia. 2008年9月26日閲覧。
  8. ^ DBpedia Mappings”. mappings.dbpedia.org. 2010年4月3日閲覧。
  9. ^ E. Curry, A. Freitas, and S. O’Riáin, “The Role of Community-Driven Data Curation for Enterprises,” in Linking Enterprise Data, D. Wood, Ed. Boston, MA: Springer US, 2010, pp. 25-47.
  10. ^ “Statistics on links between Data sets”, SWEO Community Project: Linking Open Data on the Semantic Web (W3C), http://esw.w3.org/topic/TaskForces/CommunityProjects/LinkingOpenData/DataSets/LinkStatistics 2009年11月24日閲覧。 
  11. ^ “Statistics on Data sets”, SWEO Community Project: Linking Open Data on the Semantic Web (W3C), http://esw.w3.org/topic/TaskForces/CommunityProjects/LinkingOpenData/DataSets/Statistics 2009年11月24日閲覧。 
  12. ^ “First 5,000 Tags Released to the Linked Data Cloud”. open.blogs.nytimes.com. (2009年10月29日). http://open.blogs.nytimes.com/2009/10/29/first-5000-tags-released-to-the-linked-data-cloud/ 2009年11月10日閲覧。 
  13. ^ Life in the Linked Data Cloud”. www.opencalais.com. 2009年11月10日閲覧。 “Wikipedia has a Linked Data twin called DBpedia. DBpedia has the same structured information as Wikipedia – but translated into a machine-readable format.”
  14. ^ Zemanta talks Linked Data with SDK and commercial API”. blogs.zdnet.com. 2009年11月10日閲覧。 “Zemanta fully supports the Linking Open Data initiative. It is the first API that returns disambiguated entities linked to dbPedia, Freebase, MusicBrainz, and Semantic Crunchbase.”
  15. ^ European Semantic Web Conference 2009 - Georgi Kobilarov, Tom Scott, Yves Raimond, Silver Oliver, Chris Sizemore, Michael Smethurst, Christian Bizer and Robert Lee. Media meets Semantic Web - How the BBC uses DBpedia and Linked Data to make Connections”. www.eswc2009.org. 2009年11月10日閲覧。[リンク切れ]
  16. ^ BBC Learning - Open Lab - Reference”. bbc.co.uk. 2009年11月10日閲覧。 “Dbpedia is a database version of Wikipedia. It's used in a lot of projects for a wide range of different reasons. At the BBC we are using it for tagging content.”[リンク切れ]
  17. ^ Semantic Tagging with Faviki”. www.readwriteweb.com. 2012年10月31日閲覧。
  18. ^ Amazon Web Services Developer Community : DBpedia”. developer.amazonwebservices.com. 2009年11月10日閲覧。

関連項目

編集

外部リンク

編集