開發者 | |
---|---|
首次发布 | 2007年1月23日 |
当前版本 |
|
源代码库 | |
编程语言 | |
操作系统 | Virtuoso Universal Server |
类型 | |
许可协议 | GNU General Public License |
网站 | dbpedia |
DBpedia (DB乃是資料庫,database的意思,也可做資料庫百科全書解) 是一項從維基百科裡萃取結構化內容的專案計畫。這些計畫所得的結構化資訊,也將放在網際網路中公開讓人取閱。DBpedia允許使用者查詢跟維基百科相關資源之間的關係與性質,甚至也可查詢從維基百科外連到其他資料組的內容。DBpedia曾被全球資訊網創始人提姆·柏內茲-李評論為世界上最有名的幾個去中心化連結資料的專題之一。
此計畫一開始是由來自柏林自由大學以及萊比錫大學的人士所開啟,並與開放連結軟體(Open Linked Software)同盟合作。第一份公開可取得的資料集在2007年時發佈。它是透過自由授權的方式所發佈,允許他人自由利用這些資料集。
維基百科的條目大部分都是沒有固定格式的文字,不過也有部分的資料是屬於結構化的資訊並且被鑲嵌在條目中,像是資訊框的表格內容(也就是預設在桌機版維基百科瀏覽格式,出現在條目右上角出現的欄位,或是行動版維基百科的條目一開始就顯示的欄位。)、分類、圖像、地理座標、以及外部網頁連結。這些結構化的資訊會在此計畫案被提取出來並且將其統一的放在一個資料集裡頭以方便查詢。
2013年9月,DBpedia發佈了第3.9版的更新。如同之前版本的加強,這次也新增了維基百科更多資訊框的比對,同時也新增了維基數據的連結。(透過 owl:sameAs
的連結)。此版的資料組描述了四百萬筆實體(entities),其中有322萬筆實體是在一個連貫的知識本體中進行分類,這些實體包含了832,000位人物、639,000個地景、116,000份音樂專輯、78,000部影片、18,500個電動遊戲、209,000個組織、226,000個物種以及5,600種疾病。。DBpedia資料集提供了最多有119個不同語言的特色標籤以及資料摘要;現總共有2460萬個圖片連結以及2760萬筆連到外部網頁的連結資料、4500萬筆連結到其他RDF格式的資料集、6700萬筆連結到維基百科的分類頁,以及4120萬筆YAGO2分類的資料。DBpedia計畫使用資源描述框架(Resource Description Framework,簡稱RDF)來呈現擷取的資料,目前包含了24.6億筆的RDF triple資料、4700萬從英文版本維基百科上擷取的資料、19.8億則來自其他的語言版本,同時有大約4,500萬的資料連往外部的資料集。
從本資料集,多個頁面之間傳播的資訊可以被擷取,例如某書籍的作者資料,能夠被放在關於此書或關於作者的頁面中。
從維基百科擷取資料其中的一個重大挑戰是,相同概念可能會在資訊框以及其他的模版中被用不同的參數表示,例如|birthplace=
以及|placeofbirth=
意義相同。在這樣的情況下,查詢人物出生地點就必須要在這兩個參數下都有查詢才能夠得到完整的結果。於是,DBpedia的映對語言就被開發了出來,以幫助映對知識本體裡頭這些定義的異同,進而減少同義詞的重疊。有鑑於維基百科中使用資訊框以及其他數值非常的多元,開發以及改善映對語言的機制是以開源的方式徵求大眾參與。
DBpedia摘取維基百科頁面上的事實資訊,讓使用者可以不用在多個維基百科條目之間瀏覽便找到問題的答案。查詢資料的方式是利用SPARQL(像SQL的查詢語言)來對資源描述框架(RDF)進行查詢。舉例,假如你對日本少女漫畫系列東京喵喵感興趣,想要找這部漫畫的繪者創作的其他作品。DBpedia結合了維基百科上東京喵喵、征海未亞這些條目,以及相關作品諸如麗佳公主以及恋きゅー的資訊。因為DBpedia把這些資料都標準化到單一的資料庫裡,下列查詢 (页面存档备份,存于互联网档案馆)就能夠在不需具體清楚哪一個條目有包含了哪一部分的片段資訊,就能夠完整的列出相關作品類型:
PREFIX dbprop: <http://dbpedia.org/property/>
PREFIX db: <http://dbpedia.org/resource/>
SELECT ?who, ?WORK, ?genre WHERE {
db:Tokyo_Mew_Mew dbprop:author ?who .
?WORK dbprop:author ?who .
OPTIONAL { ?WORK dbprop:genre ?genre } .
}
DBpedia廣納了人類知識不同領域,十分多元的範疇資料。這使得它自然而然成為連結眾多資料集的樞紐,讓外部資料集能夠連結到相關的概念。DBpedia的資料集是跟其他許多網路上不同的開放資料資料集在RDF的層級交互相連著。透過這些資料集,可以讓應用程式豐富DBpedia的資料。截至2013年9月,已經有超過4500萬筆在DBpedia與外部資料集之間的交互連結產生,外部資料集包含:Freebase (database)、OpenCyc、UMBEL、GeoNames、Musicbrainz、CIA World Fact Book、DBLP、Project Gutenberg、DBtune Jamendo、Eurostat、Uniprot、Bio2RDF、以及美國普查等資料。湯森路透公司的前導計畫OpenCalais、紐約時報的連結開放資料計畫、Zemanta以及DBpedia Spotlight也納入了DBpedia的連結。BBC也使用DBpedia來輔助其內容組織。Faviki使用DBpedia進行語意標籤(semantic tagging)。
亞馬遜公司提供一串DBpedia公共資料集(Public Data Set),這可整合進亞馬遜網路服務應用之中。
2010年6月,來自Web Based Systems Group以及柏林自由大學的研究人員開始了一個叫做「DBpedia Spotlight」的計畫,開發工具來將文字資料中使用DBpedia資源的部份加上註解。這個工具解決了過去透過DBpedia連結非結構化資訊來源到開放連結資料雲的問題。DBpedia Spotlight可展示已命名實體擷取(named entity extraction)、包含實體偵測(entity detection)以及命名衝突化解(name resolution)(也就是消歧義(disambiguation))。此工具也能在其他資訊擷取(information extraction)任務中,用來進行命名實體辨識(named entity recognition)。DBpedia Spotlight聚焦在多種不同用途的客製應用。不去聚焦於少部分的實體類型,此計畫試圖支援全部DBpedia上來自超過320個不同分類裡,共約三百五十萬個實體與概念。
DBpedia Spotlight可公開獲取,是以一個為了測試用途而提供的網路服務,或者也可以從Apache授權的Java/Scala API。DBpedia Spotlight分配也包含了一jQuery插件,此插件允許開發人員在網路上的任何一頁加上註解,只要在他們的頁面上增加一行文字即可用戶端也有Java或PHP的支援應用。此工具可從其展示頁(demo page)裡,處理多種的英語資料以及網路服務。國際化的支援部分,只要此語言有開維基百科即可支援。
Wikipedia has a Linked Data twin called DBpedia. DBpedia has the same structured information as Wikipedia – but translated into a machine-readable format.
Zemanta fully supports the Linking Open Data initiative. It is the first API that returns disambiguated entities linked to dbPedia, Freebase, MusicBrainz, and Semantic Crunchbase.
Dbpedia is a database version of Wikipedia. It is used in a lot of projects for a wide range of different reasons. At the BBC we are using it for tagging content.
维基共享资源上的相关多媒体资源:DBpedia |
|