De recente toename van de hoeveelheid online informatie heeft geleid tot hernieuwde interesse in een breed scala aan IR-gerelateerde gebieden die verder gaan dan reguliere document retrieval. Een deel van deze interesse is gericht op een specifieke taak: entity retrieval. Dit snel groeiende gebied verschilt op een aantal punten van traditionele document retrieval: het voornaamste verschil is dat entiteiten niet direct gerepresenteerd kunnen worden (als vindbare objecten zoals documenten) en we moeten ze dus “indirect” identificeren door gebruik te maken van hun aanwezigheid in documenten. Dit brengt nieuwe, interessante uitdagingen met zich mee, voor zowel information retrieval als extraction. In dit proefschrift concentreren we ons op één specifieke soort entiteit: personen.
Binnen een bedrijfsomgeving is het expertiseniveau met betrekking tot een bepaald onderwerp een belangrijk criterium aan de hand waarvan personen geselecteerd en beschreven kunnen worden. Het vinden van de juiste persoon binnen een organisatie met de juiste kennis en kunde is vaak van cruciaal belang voor het slagen van projecten.
Het werk dat wordt beschreven in dit proefschrift richt zich volledig op fundamentele algoritmes voor twee manieren van informatieontsluiting: experts vinden en experts profileren. Het doel van experts vinden is het samenstellen van een lijst personen die kennis hebben van een bepaald onderwerp (“Wie zijn de experts op gebied X”). Deze taak wordt meestal opgevat als het vinden van associaties tussen personen en onderwerpen: gewoonlijk wordt een gezamenlijk voorkomen van de naam van een persoon en het onderwerp in een document gezien als bewijs voor het expertiseniveau van de persoon op dit onderwerp. Een alternatieve taak, die ook gebruik maakt van ditzelfde idee van persoon-onderwerpassociaties is expert profiling. Hierbij is de taak het samenstellen van een lijst van onderwerpen waarvan een persoon kennis bezit (“Van welke onderwerpen bezit persoon Y kennis?”).
De voornaamste bijdrage van het proefschrift is een generatief probabilistisch modeleerraamwerk waarmee beide taken—het vinden en profileren van experts—op een uniforme wijze gevat kunnen worden. Bovenop dit algemene raamwerk worden twee families van modellen geïntroduceerd; hiertoe worden generatieve taalmodelleertechnieken voor document retrieval op een transparante en theoretisch correcte manier aangepast.
In het proefschrift evalueren en vergelijken we de modellen in verschillende organisationele omstandigheden en analyseren we systematisch de verkregen experimentele resultaten. We tonen aan dat onze modellen robuust zijn en toch zeer concurrerende prestaties leveren.
Middels een serie voorbeelden laten we zien dat onze generieke modellen in staat zijn om gebruik te maken van de speciale karakteristieken en kenmerken van de testcollecties en/of de organisationele omstandigheden die zij vertegenwoordigen. Verder geven we voorbeelden waaruit de generieke aard van onze modellen blijkt en passen we de modellen toe op het vinden van associaties tussen onderwerpen en andere entiteiten dan personen.