Semantisch Zoeken
Marijn Koolen
Content en Toegankelijkheid
Haagse Hogeschool, 17 Maart 2015
Overzicht
- Semantisch Zoeken
- Data en Zoekvragen
- Semantiek en Big Data
- Oefenen met SPARQL
Semantisch Zoeken
- Zoeken met expliciete betekenis
- Hoe is dat anders dan zoeken via Google?
- E.g. welke Michael Jackson?
- Data en zoekvragen hebben vaste, expliciete betekenis
Semantische Data
- Linked Data: expliciete relaties tussen data
- URI: identificeert een resource
- e.g. URL, ISBN
- persoonsgebonden: BSN, IBAN
- RDF: identificeert een relatie
- subject - relation - object
- Rembrandt - nationality - Dutch
Resource Description Framework
- RDF linkt data punten aan elkaar
- geeft betekenis via structuur
- URIs:
- RDF triple:
- dbpedia:Rembrandt dbpedia-owl:nationality dbpedia:Dutch
Queries Met Structuur
- Datastructuur is semantisch
- SQL: Structured Query Langauge (vergelijk met geavanceerd zoeken)
- Veelgebruikt in databases
SELECT contract FROM uva_staff WHERE (contract=temp) SET contract=permanent
- SPARQL: SQL voor Linked Data
SPARQL Voorbeeld 1/4
SELECT ?nationality WHERE { dbpedia:Rembrandt dbpedia-owl:nationality ?nationality }
SPARQL Voorbeeld 2/4
SELECT ?person WHERE { ?person dbpedia-owl:nationality dbpedia:Dutch}
SPARQL Voorbeeld 3/4
SELECT ?person ?nationality WHERE { ?person dbpedia-owl:nationality ?nationality }
SPARQL Voorbeeld 4/4
SELECT ?nationality count(?nationality) WHERE { ?person dbpedia-owl:nationality ?nationality }
Vergelijking
- Wat zijn voordelen van zoeken met expliciete betekenis?
- wanneer gebruik je semantisch zoeken?
Vergelijking
- Wat zijn voordelen van zoeken met expliciete betekenis?
- wanneer gebruik je semantisch zoeken?
- Zijn er ook nadelen?
Vergelijking
- Wat zijn voordelen van zoeken met expliciete betekenis?
- wanneer gebruik je semantisch zoeken?
- Zijn er ook nadelen?
- Gevolgen voor ranking en relevantie:
- met precieze betekenis, is ranking belangrijk?
- zijn alle resultaten automatisch relevant?
Zoeken en Big Data
- Grote data sets zijn lastig te doorzoeken
- zeker als ze ongestructureerd zijn
- Moeilijk om overzicht te krijgen
- Recall in web zoeken is vaak onmogelijk te meten (maar meestal ook irrelevant)
- Moeilijk om analyse te doen
- classificeren van het web is onbegonnen werk (e.g. Yahoo! Directories)
Semantiek en Big Data
- Big Data vaak chaotisch
- expliciete semantiek vaak handmatig gecreëerd
- soms (semi-)automatisch: e.g. DBpedia
- problemen: incompleet, incorrect, inconsistent
- Bronnenkritiek!
Inconsistentie
- Terminologie varieert
- Semantisch zoeken lijdt onder inconsistentie
Alternatieven
- Wolfram Alpha
- vragen in natuurlijke taal
- is dit net zo expliciet als SPARQL?
Verdere Applicatie
- Output van semantisch zoeken als beginpunt van verder analyse:
- Volgende week:
- van zoekmachine naar onderzoekmachine