Mesura de semblança

A les estadístiques i camps relacionats, una mesura de semblança o funció de semblança o mètrica de semblança és una funció de valor real que quantifica la similitud entre dos objectes. Tot i que no existeix una definició única de semblança, normalment aquestes mesures són en cert sentit la inversa de les mètriques de distància: prenen valors grans per a objectes similars i zero o un valor negatiu per a objectes molt diferents. Tot i que, en termes més amplis, una funció de semblança també pot satisfer axiomes mètrics.

La similitud de coseus és una mesura de similitud que s'utilitza habitualment per a vectors de valor real, que s'utilitza en (entre altres camps) la recuperació d'informació per puntuar la similitud dels documents en el model d'espai vectorial. En l'aprenentatge automàtic, les funcions comunes del nucli com el nucli RBF es poden veure com a funcions de semblança.^[1]

Ús de diferents fórmules de mesura de semblança

Existeixen diferents tipus de mesures de similitud per a diversos tipus d'objectes, depenent dels objectes que es comparen. Per a cada tipus d'objecte hi ha diverses fórmules de mesura de semblança.^[2]

Similitud entre dos punts de dades

Hi ha moltes opcions diferents disponibles quan es tracta de trobar similitud entre dos punts de dades, algunes de les quals són una combinació d'altres mètodes de similitud. Alguns dels mètodes per mesurar la similitud entre dos punts de dades inclouen la distància euclidiana, la distància de Manhattan, la distància de Minkowski i la distància de Chebyshev. La fórmula de la distància euclidiana s'utilitza per trobar la distància entre dos punts d'un pla, que es visualitza a la imatge següent. La distància de Manhattan s'utilitza habitualment a les aplicacions de GPS, ja que es pot utilitzar per trobar la ruta més curta entre dues adreces. Quan generalitzeu la fórmula de la distància euclidiana i la fórmula de la distància de Manhattan, us queda la fórmula de la distància de Minkowski, que es pot utilitzar en una gran varietat d'aplicacions.^[3]

Similitud entre cordes

Per comparar cadenes, hi ha diverses mesures de semblança de cadenes que es poden utilitzar. Alguns d'aquests mètodes inclouen la distància d'edició, la distància de Levenshtein, la distància de Hamming i la distància de Jaro. La fórmula més adequada depèn dels requisits de l'aplicació. Per exemple, la distància d'edició s'utilitza sovint per a aplicacions i funcions de processament del llenguatge natural, com ara la correcció ortogràfica. La distància Jaro s'utilitza habitualment en l'enllaç de registres per comparar noms i cognoms amb altres fonts.

Similitud entre dues distribucions de probabilitat

Quan es comparen distribucions de probabilitat, la fórmula de distància de Mahalanobis, les fórmules de distància de Bhattacharyya i la fórmula de distància de Hellinger són molt potents i útils. La fórmula de la distància de Mahalanobis s'utilitza habitualment en l'anàlisi estadística. Mesura la distància entre dues distribucions de probabilitat que tenen mitjanes i variàncies diferents. Això fa que sigui útil per trobar valors atípics en els conjunts de dades. La fórmula de la distància Bhattacharyya s'utilitza generalment en el processament d'imatges, comparant dues distribucions de probabilitat que representen categories diferents. Per exemple, es pot utilitzar per classificar imatges segons les seves característiques. Hellinger distance és una eina poderosa per a la mineria de text i la classificació de documents. Generalment, s'utilitza en distribucions de probabilitat que representen la freqüència de diferents paraules, la qual cosa permet trobar documents similars.^[4]

Referències

↑ Vert, Jean-Philippe. «A primer on kernel methods». A: Kernel Methods in Computational Biology (en anglès), 2004.
↑ «1(b).2.1: Measures of Similarity and Dissimilarity | STAT 508» (en anglès). https://online.stat.psu.edu. [Consulta: 21 agost 2023].
↑ Harmouch, Mahmoud. «17 types of similarity and dissimilarity measures used in data science.» (en anglès). https://towardsdatascience.com/, 02-04-2021. [Consulta: 21 agost 2023].
↑ «Measuring Similarity from Embeddings | Machine Learning» (en anglès). https://developers.google.com. [Consulta: 21 agost 2023].^{[Enllaç no actiu]}

[primer-1] Vert, Jean-Philippe. «A primer on kernel methods». A: Kernel Methods in Computational Biology (en anglès), 2004.

[2] «1(b).2.1: Measures of Similarity and Dissimilarity | STAT 508» (en anglès). https://online.stat.psu.edu. [Consulta: 21 agost 2023].

[3] Harmouch, Mahmoud. «17 types of similarity and dissimilarity measures used in data science.» (en anglès). https://towardsdatascience.com/, 02-04-2021. [Consulta: 21 agost 2023].

[4] «Measuring Similarity from Embeddings | Machine Learning» (en anglès). https://developers.google.com. [Consulta: 21 agost 2023].^{[Enllaç no actiu]}

[1]

[2]

[3]

[4]