Kansen berekenen
In markovketens bestaat er een vaste verdeling van kansen.
Deze vaste verdeling kan worden uitgerekend door veel stappen random te genereren.
Deze methode is alleen niet efficiënt en ook niet betrouwbaar, omdat er een andere vaste verdeling uit had kunnen komen als er meer getallen waren gebruikt bij het genereren.
Het is namelijk een toevalsproces die met de tijd verandert.
Daarom is het nodig om lineaire algebra te gebruiken om de vaste verdeling uit te rekenen.
Dat is met een transitiematrix te bepalen.
De transitiematrix van het eerder genoemde voorbeeld ziet er als volgt uit:
De waardes in de matrix zijn de waardes die invloed hebben op de pijlen in het voorbeeld.
De knooppunten staan op volgorde van 5, 4, 7.
Als de huidige waarde 5 zou zijn en de volgende waarde 7 zou dat 0,2 kans zijn, omdat rechts bovenin de matrix 0,2 staat.
De rij staat dus voor de huidige waarde en de kolom voor de volgende waarde.
Stel dat de eerste stap X1 = 4.
Als dit in een matrix weergegeven zou worden, zou het er zo uit zien:
Om de waarde van X2 te krijgen wordt X1 vermenigvuldigt met A. Dat ziet er zo uit:
De kans voor de volgende waarde komt dus uit de transitiematrix vermenigvuldigd met de huidige waarde.
Als de output meerdere keren wordt ingevoerd als input zou er uiteindelijk dezelfde output als input uit komen.
Dat is de meer nauwkeurige manier om de vaste verdeling te krijgen. [3]
Er is alleen wel één probleem.
Stel dat er een knooppunt is, waar geen links in staan.
Dan kan de gebruiker nergens anders meer heen.
De oplossing daarvoor is teleportatie.
Er is altijd een kans dat de gebruiker teleporteert vanuit een pagina naar een andere pagina.
De formule voor deze kans kan worden weergegeven als:
M staat voor de pagerank matrix, A staat voor de transitiematrix en B staat voor de huidige pagina.
In de formule is een constante p die een waarde heeft tussen de 0 en de 1.
Deze constante heet de dempingsfactor.
De dempingsfactor geeft aan wat de kans is dat de gebruiker naar een andere pagina teleporteert.
Elke pagina heeft een kans van 1/n om gekozen te worden door de gebruiker.
De matrix bij de huidige pagina is zo groot als hoeveel pagina's er in totaal zijn. [3]
Samenvatting
- Google gebruikt complexe algoritmes om zoekresultaten te rangschikken
- PageRank was het eerste belangrijke algoritme
- Machine learning speelt een steeds grotere rol
- De kans dat een gebruiker op een bepaalde pagina terecht komt kan worden berekend met een markovketen
Bronnen
- 1. Amine, A. (2021, 24 december). PageRank algorithm, fully explained - Towards Data Science. Medium.
towardsdatascience
- 2. Normalized Nerd. (2020, 25 oktober). Markov Chains Clearly Explained! Part - 1 [Video]. YouTube.
www.youtube.com
- 3. Radu, R. T. R. (z.d.). PageRank Algorithm - The Mathematics of Google Search.
pi.math.cornell