Knowledge Base Building Project 7 th meeting Intelligent Database Systems Lab School of Computer Science & Engineering Seoul National University, Seoul, Korea
Copyright 2008 by CEBT Role Role of K-Base Project PPS Product Ontology Knowledge Base Collective Intelligence Product Classification Data Navigation Product Manager General User Data Inference Outer Knowledge Resource Requested Knowledge Product Information Service Layer Data Layer
Copyright 2008 by CEBT Goals Goals of Project target users – Product Manager : “PRODUCT ENCYCLOPEDIA” Managing and providing general product information Navigating product relationships with some conditions Matching product information with existing standard classification scheme Classifying new products into product database Extracting the product information from outer resource (e.g. PPS ontology) – General User : “INFORMATION MAP” Extracting the general information from outer resource (e.g. Wikipedia) Storing general information (e.g. Documents) by collective intelligence Visualizing the information connection Linking the knowledge with user-provided properties and semantics
Copyright 2008 by CEBT Coverage of Data Source 1 st phase : product information General product information : PPS Ontology – Product, category, attribute, UOM Standard classification scheme : G2B, UNSPSC – Segment, Family, Class, Commodity – 현재까지는 UNSPSC 이외에 다른 usable classification scheme source 를 찾 지 못함 2 nd phase : web resource from outer service Wikipedia, Freebase, Upper ontology, 인명 검색 (DBLP) 3 rd phase : collective intelligence User-defined general information, properties and semantics
Copyright 2008 by CEBT Scenario For product manager 상품 정보 입력 – 상품에 대한 detail 한 정보 입력 – 상품 설명에 필요한 attribute 입력 상품 정보 검색 – 상품 정보가 포함하고 있는 field 에 대한 keyword 검색 – 상품과 연관된 속성에 대한 keyword 검색 및 확장 검색 상품 정보 Navigation – 두 개 이상의 상품 정보에 대한 속성 – 속성값 비교 – 상품 – 속성 연관 관계를 이용한 Graph 기반 Navigation 상품 정보 분류 – 기존에 존재하는 상품에 대해 여러 가지의 standard classification 과 mapping – 상품 – 분류 연관 관계를 이용해 서로 다른 classification scheme 의 항목을 확 률적으로 matching
Copyright 2008 by CEBT Scenario (cont’d) For general user 지식 정보 입력 – 지식 정보에 대한 detail 입력 – 지식 정보에 필요한 property 입력 지식 정보 검색 – 지식 정보가 가지고 있는 detail 에 대한 keyword 검색 – 지식 – 지식 간의 연관 관계를 이용한 information map navigate – 지식 속성 및 속성값, 속성과 연관된 지식에 대한 keyword 검색 – 추론을 통한 연관 지식 검색 지식 분류 – 지식과 연관될 수 있는 분류를 기존 분류 체계와 연결 기타 – 지식 data export / import – 지식 데이터를 structured data file 형태로 추출
Copyright 2008 by CEBT Function Overview KB System Storage Data API View Data Exchange Service Mediation Pivot Product Attribute UOM Display Physical IO Sort Query Building Structuring Graph Navigation Add Delete Modify Format Convert Service Management Page Select Update Analysis Log Analysis Retrieve Delete Load Analysis Monitoring Validation
Copyright 2008 by CEBT Module overview User Interface View NavigatorVisualizer Data Engine Page Builder Management Load Analyzer Log Analyzer Monitoring Tool API Format Converter Service Mediator Logger Storage KB DBMS Log User management Module Session Manager History Manager Personalization Permission Manager Web Server External Service Data Filter Query Builder Editor
Copyright 2008 by CEBT Functions Target Data Product Attribute UOM Class Classification Relation Log User Action Add Modify Delete
Copyright 2008 by CEBT Functions - Storage 이름기능대상 데이터 get_Product Product 하나를 읽어온다 Product get_Attribute Attribute 하나를 읽어온다 Attribute get_UOM UOM 하나를 읽어온다 UOM get_Rel_Prod_Attr Product 와 연관있는 Attribute 를 다 읽어온다 Product, Attribute get_Rel_Attr_UOM Attribute 와 연관있는 UOM 을 다 읽어 온다 Attribute, UOM get_Rel_Prod_g2b Product 와 연관있는 g2b 분류를 읽어 온다 Product, g2b Class get_Rel_Prod_Prod Product 와 연관있는 Product 을 다 읽 어온다 Product 조회
Copyright 2008 by CEBT Functions - Storage 이름기능대상 데이터 mod_Product Product 하나를 바꾼다 Product mod_Attribute Attribute 하나를 바꾼다 Attribute mod_UOM UOM 하나를 바꾼다 UOM mod_Rel_Prod_Attr Product 와 연관있는 Attribute 를 바꾼 다 Product, Attribute mod_Rel_Attr_UOM Attribute 와 연관있는 UOM 을 바꾼다 Attribute, UOM mod_Rel_Prod_g2b Product 와 연관있는 g2b 분류를 바꾼 다 Product, g2b Class mod_Rel_Prod_Prod Product 와 연관있는 Product 를 바꾼 다 Product 수정
Copyright 2008 by CEBT Functions - Storage 이름기능대상 데이터 del_Product Product 하나를 삭제한다 Product del_Attribute Attribute 하나를 삭제한다 Attribute del_UOM UOM 하나를 삭제한다 UOM del_Rel_Prod_Attr Product 와 연관있는 Attribute 를 삭제 한다 Product, Attribute del_Rel_Attr_UOM Attribute 와 연관있는 UOM 의 연관 정 보를 삭제한다 Attribute, UOM del_Rel_Prod_g2b Product 와 연관있는 g2b 분류의 연관 정보를 삭제한다 Product, g2b Class del_Rel_Prod_Prod Product 와 연관있는 Product 의 연관 정보를 삭제한다 Product 삭제
Copyright 2008 by CEBT Functions - View 이름기능대상 데이터 pivot_Prod Product 를 기준으로 View 를 재구성 한다 pivot_Attr Attribute 를 기준으로 View 를 재구성 한다 pivot_rel Relation 정보를 기준으로 View 를 재 구성한다 getinfo 조회를 원하는 대상의 정보를 Storage 로부터 읽어 온다 sort_Prod Product 를 asc, desc 순으로 소트한다 Product sort_Attr Attribute 를 asc, desc 순으로 소트한 다 Attribute
Copyright 2008 by CEBT Milestones Important milestone (9/22~) DateMilestone 9/27 Project Specification (Role, Goals, Coverage, Scenario, Function, Module, Framework) 10/10 Project Documentation Initial Data Model Building 10/30 Module Designing 와 - UML Diagram, Process and Data Flow Chart Initial Data Crawling 11/20 Module Developing – 중간 점검 12/10 Module Developing – 최종 점검 Service Building (Module Connecting) 12/15 Debugging and Testing
Copyright 2008 by CEBT Issues Development Using open sources : MySQL Resource 당장 cover 할 수 있는 표준 분류 체계 ? 기타 다른 분류 체계를 얻을 수 있는지 문의 Concrete scope of information Design 설계 문서 재작성 (functionality 를 참고하여 ) – Class diagram, process and data flow chart – Function and module list
Appendix
Copyright 2008 by CEBT Scope of information What kind of information we have to handle? Basic information source – Product from PPSONTO Additional information source for general information – Upper Ontology
Copyright 2008 by CEBT Available Information Source SUMO Yago Ontology GoodRelation DBpedia
Copyright 2008 by CEBT Suggested Upper Merged Ontology (SUMO) Defines a hierarchy of SUMO classes and related rules an d relationships Mapped by hand to all of WordNet synsets Formulated in a version of the language SUO-KIF which h as a LISP-like syntax Formally defined, not dependent on a particular implementation Organized for interoperability of automated reasoning engi nes
Copyright 2008 by CEBT SUMO Structure Structural Ontology Base Ontology Set/Class TheoryNumericTemporal Mereotopology GraphMeasureProcessesObjects Qualities
Copyright 2008 by CEBT SUMO hierarchy Entity PhysicalAbstract ObjectProcess SelfConnected Object Region Collection DualObject Process Internal Change Shape Change... SetOrClass Relation Quantity Attribute...
Copyright 2008 by CEBT
YAGO A Core of Semantic Knowledge Unifying WordNet and Wikipedia A light-weight and extensible ontology with high coverage and quality Enable to express relations between facts and relations
Copyright 2008 by CEBT YAGO (cont.) All objects are represented as entities e.g. Numbers, strings, other literals, and even URLs Similar entities are grouped into classes Each entity is an instance of at least one class Classes and relations are entities as well
Copyright 2008 by CEBT YAGO (Cont.) Where do YAGO get the ontology from? Previous approaches Assemble the ontology manually (WordNet, SUMO, GeneOntology) Problems: Usually low coverage YAGO approach Assemble the ontology from Wikipedia (=> good coverage) Use the category system of Wikipedia (=> good accuracy)
Copyright 2008 by CEBT YAGO ontology 1935 born American_singer is a Singer#1 Person#3 subclass "singer" means "Elvis Presley"
Copyright 2008 by CEBT YAGO ontology SubClassOf relation Exploit the category system of Wikipedia Use WordNet to establish the hierarchy of classes Means relation Exploiting WordNet Synsets – e.g. (”metropolis”, means, city)) Exploiting Wikipedia Redirects – e.g. (”Einstein,Albert”, means, Albert Einstein)
Copyright 2008 by CEBT DBpedia Extract structured information from Wikipedia Make sophisticated queries against Wikipedia Use the RDF as a flexible data model Interlinked on RDF level with various other Open Data datasets on the Web
Copyright 2008 by CEBT DBpedia (Cont.)
Copyright 2008 by CEBT Required Information Attribute (Property)Description Attribute ID 속성 식별자 Attribute Name 속성 이름 Attribute Description 속성에 대한 자세한 설명 Attribute Value Type 속성값 형태 Attribute Max Value 속성의 최대값 Attribute Min Value 속성의 최소값 Attribute Type 속성 형태 Attribute Group ID 속성 집단 식별자 Attribute Group Name 속성 집단 이름 Attribute Group Description 속성 집단에 대한 자세한 설명
Copyright 2008 by CEBT Required Information ClassificationDescription Classification ID 분류체계 식별자 Classification Name 분류체계 이름 Classification Description 분류체계에 대한 자세한 설명 Classification 은 여러 종류가 있을 수 있다. G2B 분류 군급 분류 UNSPSC E-OTD …
Copyright 2008 by CEBT Required Information ProductDescription Product ID 상품 식별자 Product Company Name 상품 회사 이름 Product Company Registration Number 상품 회사 등록 번호 Product Name 상품 이름 Product Model Number 상품 모델 번호 Product Classification ID 상품이 어느 분류에 속하는지 나타냄 Product Type 상품의 유형, 형태 Product Keyword 상품을 대표하는 키워드
Copyright 2008 by CEBT Required Information ProductDescription Product Brand 상품 브랜드 Product UOM 상품 측정단위 Product Registration Date 상품 등록 날짜 Product Description 상품에 대한 자세한 설명 Product Image 상품의 실제 모습에 대한 이미지 Related Product ID 연관 상품의 식별자 Related Product Relation Type 연관 상품과의 관계 유형 Related Product Relation Type 대체상품 : 비슷하거나 같은 부류의 다른 상품 ( 예 : 꿀 - 설탕 ) 보완상품 : 함께 소비할 때 시너지 효과가 나오는 상품 ( 예 : 커피 – 설탕 ) 부품 : 한 상품의 구성요소가 되는 상품 ( 예 : 컴퓨터 -CPU, 자동차 - 타이어 ) 그 밖에 …
Copyright 2008 by CEBT LinkingOpenData Goal To extend the Web with a data commons by publishing various open datasets as RDF on the Web and by setting RDF links between data items from different data sources. The basic principle of Linked Data Use the RDF data model to publish structured data on the WebRDF data model Use RDF links to interlink data from different data sourcesRDF links Project homepage link /LinkingOpenDatahttp://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects /LinkingOpenData
Copyright 2008 by CEBT LinkingOpenData The datasets consist of over two billion RDF triples, which are interlinked by around 3 million RDF links