Enlace de registro

El enlace de registro o vinculación de registro (también conocido como cotejo de datos, resolución de entidad, y muchos otros términos) es la tarea de encontrar registros en un conjunto de datos que se refieren a la misma entidad en diferentes fuentes de datos (p. ej., archivos de dato, libros, sitios web, y bases de datos). La vinculación de registro es necesario cuando se unen diferentes conjuntos de datos basados en entidades que pueden o no puede compartir un identificador común (p. ej., clave de base de datos, URI, número de identificación nacional), lo que puede deberse a diferencias en la forma del registro, la ubicación de almacenamiento, o el estilo de conservación o preferencia. Un conjunto de datos que se ha sometido a una reconciliación RL-orientada puede denominarse entrecruzado. La vinculación de registro se conoce también como vinculación de datos en muchas jurisdicciones, pero los dos son el mismo proceso.

Convenio de denominación

"Vinculación de registro" es el término utilizado por estadísticos, epidemiólogos e historiadores, entre otros, para describir el proceso de unión de los registros de una fuente de datos con otra que describe la misma entidad. Sin embargo, se utilizan muchos otros términos para este proceso. Desgraciadamente, esta profusión terminológica ha dado lugar a pocas referencias cruzadas entre estas comunidades de investigación.^[1]^[2]

Los informáticos suelen referirse a ello como "cotejo de datos" o como el "problema de la identidad de los objetos". Las aplicaciones comerciales de correo y bases de datos lo denominan "procesamiento de fusión/purga" o "lavado de listas". Otros nombres utilizados para describir el mismo concepto son: "resolución de correferencia/entidad/identidad/nombre/registro", "desambiguación/vinculación de entidades", "coincidencia difusa", "detección de duplicados", "deduplicación", "coincidencia de registros", "reconciliación (de referencias)", "identificación de objetos", "integración de datos/información" y "conflagración".

Aunque comparten nombres similares, la vinculación de registros y los Datos enlazados son dos enfoques distintos para el procesamiento y la estructuración de datos. Aunque ambos implican la identificación de entidades coincidentes en diferentes conjuntos de datos, la vinculación de registros equipara de forma estándar las "entidades" con los individuos humanos; en cambio, los Datos Enlazados se basan en la posibilidad de interconectar cualquier recurso web entre conjuntos de datos, utilizando un concepto de identificador correspondientemente más amplio, a saber, un URI.

Historia

La idea inicial de la vinculación de registros se remonta a Halbert L. Dunn en su artículo de 1946 titulado "Record Linkage" publicado en el American Journal of Public Health^[3]

Howard Borden Newcombe sentó entonces las bases probabilísticas de la moderna teoría de la vinculación de registros en un artículo publicado en 1959 en Science.^[4] Éstas fueron formalizadas en 1969 por Ivan Fellegi y Alan Sunter, en su trabajo pionero "A Theory For Record Linkage", donde demostraron que la regla de decisión probabilística que describían era óptima cuando los atributos de comparación eran condicionalmente independientes.^[5] En su trabajo reconocieron el creciente interés por aplicar los avances de la informática y la automatización a grandes colecciones de datos administrativos, y la teoría de Fellegi-Sunter sigue siendo el fundamento matemático de muchas aplicaciones de vinculación de registros.

Desde finales de la década de 1990, se han desarrollado varias técnicas de aprendizaje automático que, en condiciones favorables, pueden utilizarse para estimar las probabilidades condicionales requeridas por la teoría de Fellegi-Sunter. Varios investigadores han informado de que el supuesto de independencia condicional del algoritmo de Fellegi-Sunter se viola a menudo en la práctica; sin embargo, los esfuerzos publicados para modelar explícitamente las dependencias condicionales entre los atributos de comparación no han dado lugar a una mejora de la calidad de la vinculación de los registros. [Por otro lado, los algoritmos de aprendizaje automático o de redes neuronales que no se basan en estos supuestos suelen proporcionar una precisión mucho mayor, cuando se dispone de suficientes datos de entrenamiento etiquetados.^[6]

La vinculación de registros puede realizarse completamente sin la ayuda de un ordenador, pero las principales razones por las que se suelen utilizar ordenadores para completar la vinculación de registros son reducir o eliminar la revisión manual y hacer que los resultados sean más fácilmente reproducibles. El cotejo por ordenador tiene las ventajas de permitir la supervisión central del procesamiento, un mejor control de calidad, rapidez, coherencia y una mejor reproducibilidad de los resultados.^[7]

Métodos

Preprocesamiento de datos

La vinculación de registros es muy sensible a la calidad de los datos que se vinculan, por lo que todos los conjuntos de datos considerados (en particular sus campos de identificadores clave) deberían pasar preferentemente por una evaluación de calidad de datos antes de la vinculación de registros. Muchos identificadores clave de la misma entidad pueden presentarse de forma diferente entre los distintos conjuntos de datos (e incluso dentro de ellos), lo que puede dificultar considerablemente la vinculación de registros si no se comprende de antemano. Por ejemplo, los identificadores clave de un hombre llamado William J. Smith pueden aparecer en tres conjuntos de datos diferentes de la siguiente manera:


Conjunto de datos	Nombre	Fecha de nacimiento	Ciudad de residencia
Conjunto de datos 1	William J. Smith	1/2/73	Berkeley, California
Conjunto de datos 2	Smith, W. J.	1973.1.2	Berkeley, CA
Conjunto de datos 3	Bill Smith	2 de enero de 1973	Berkeley, Calif.

En este ejemplo, los diferentes estilos de formato dan lugar a registros que parecen diferentes pero que, de hecho, se refieren todos a la misma entidad con los mismos valores de identificador lógico. La mayoría de las estrategias de vinculación de registros, darían como resultado una vinculación más precisa si estos valores se normalizaran o estandarizaran primero en un formato coherente (por ejemplo, todos los nombres son "Apellido, Nombre", y todas las fechas son "AAAA/MM/DD"). La estandarización puede llevarse a cabo mediante simples transformaciones de datos basadas en reglas o procedimientos más complejos, como la tokenización basada en el léxico y los modelos probabilísticos de Markov.^[8] Varios de los paquetes enumerados en la sección de Implementaciones de Software ofrecen algunas de estas características para simplificar el proceso de normalización de datos.

Resolución de entidades

La resolución de entidades es un proceso de inteligencia operativa, normalmente impulsado por un motor de resolución de entidades o un middleware, mediante el cual las organizaciones pueden conectar diversas fuentes de datos con la finalidad de comprender las posibles coincidencias de las entidades y las relaciones no evidentes que existen entre los múltiples silos de datos. Esta analiza toda la información relativa a los individuos y/o entidades de las distintas fuentes de datos y, a continuación, se aplica una puntuación de probabilidad para determinar qué identidades coinciden y qué relaciones no evidentes existen, si es que existen, entre esas identidades.

Los motores de resolución de entidades se utilizan normalmente para descubrir riesgos, fraudes y conflictos de intereses, pero también son herramientas útiles para su uso dentro de los requisitos de integración de datos de clientes (IDC) y gestión de datos maestros (GDM). Los usos típicos de los motores de resolución de entidades incluyen: la detección de terroristas, la detección de fraudes en los seguros, el cumplimiento de la Ley Patriota de EE.UU., la detección de redes de delincuencia organizada en el sector minorista y la selección de solicitantes.

Por ejemplo: A través de diferentes silos de datos - registros de empleados, datos de proveedores, listas de vigilancia, etc. - una organización puede tener varias variaciones de una entidad llamada ABC, que puede o no ser el mismo individuo. Estas entradas pueden, de hecho, aparecer como ABC1, ABC2 o ABC3 dentro de esas fuentes de datos. Al comparar las similitudes entre los atributos subyacentes, como la dirección, la fecha de nacimiento o el número de seguridad social, el usuario puede eliminar algunas posibles coincidencias y confirmar otras como muy probables.

Los motores de resolución de entidades aplican entonces reglas, basadas en la lógica del sentido común, para identificar relaciones ocultas en los datos. En el ejemplo anterior, quizá ABC1 y ABC2 no sean el mismo individuo, sino dos personas distintas que comparten atributos comunes, como la dirección o el número de teléfono.

Cotejo de datos

Aunque las soluciones de resolución de entidades incluyen tecnología de correspondencia de datos, muchas ofertas de correspondencia de datos no se ajustan a la definición de resolución de entidades. Según John Talburt, director del Centro de Investigación Avanzada en Resolución de Entidades y Calidad de la Información de la UALR, hay cuatro factores que distinguen la resolución de entidades del cotejo de datos:

Trabaja tanto con registros estructurados como no estructurados, y conlleva el proceso de extracción de referencias cuando las fuentes son no estructuradas o semiestructuradas
Utiliza elaboradas reglas de negocio y modelos conceptuales para tratar la información faltante, conflictiva y corrupta
Utiliza información no coincidente, de enlace afirmado (asociado), además de la coincidencia directa
Descubre relaciones no evidentes y redes de asociación (es decir, quién está asociado con quién).

A diferencia de los productos de calidad de datos, los motores de resolución de identidades más potentes también incluyen un motor de reglas y un proceso de flujo de trabajo, que aplican la inteligencia empresarial a las identidades resueltas y sus relaciones. Estas tecnologías avanzadas toman decisiones automatizadas y afectan a los procesos empresariales en tiempo real, limitando la necesidad de intervención humana.

Vinculación determinista de los registros

El tipo más sencillo de vinculación de registros, denominado vinculación de registros determinista o basada en reglas, genera vínculos basados en el número de identificadores individuales que coinciden entre los conjuntos de datos disponibles.^[9] Se dice que dos registros coinciden mediante un procedimiento de vinculación determinista de registros si todos o algunos identificadores (por encima de un determinado umbral) son idénticos. La vinculación determinista de registros es una buena opción cuando las entidades de los conjuntos de datos se identifican mediante un identificador común, o cuando hay varios identificadores representativos (por ejemplo, el nombre, la fecha de nacimiento y el sexo al identificar a una persona) cuya calidad de datos es relativamente alta.

A modo de ejemplo, consideremos dos conjuntos de datos estandarizados, el conjunto A y el conjunto B, que contienen diferentes datos sobre los pacientes de un sistema hospitalario. Los dos conjuntos de datos identifican a los pacientes mediante una serie de identificadores: Social Security Number (SSN), nombre, fecha de nacimiento (DOB), sexo y ZIP code (ZIP). A continuación se muestran los registros de dos conjuntos de datos (identificados por la columna "#"):


Conjunto de datos	#	SSN	Nombre	DOB	Sexo	ZIP
Conjunto A	1	000956723	Smith, William	1973/01/02	Hombre	94701
	2	000956723	Smith, William	1973/01/02	Hombre	94703
	3	000005555	Jones, Robert	1942/08/14	Hombre	94701
	4	123001234	Sue, Mary	1972/11/19	Mujer	94109
Conjunto B	1	000005555	Jones, Bob	1942/08/14
Conjunto B	2		Smith, Bill	1973/01/02	Hombre	94701

La estrategia más sencilla de vinculación determinista de registros sería elegir un único identificador que se supone que es único, por ejemplo el SSN, y declarar que los registros que comparten el mismo valor identifican a la misma persona mientras que los registros que no comparten el mismo valor identifican a personas diferentes. En este ejemplo, la vinculación determinista basada en el SSN crearía entidades basadas en A1 y A2; A3 y B1; y A4. Mientras que A1, A2 y B2 parecen representar la misma entidad, B2 no se incluiría en la coincidencia porque le falta un valor para el SSN.

El tratamiento de excepciones como la falta de identificadores implica la creación de reglas adicionales de vinculación de registros. Una de estas reglas, en el caso de que falte el SSN, podría consistir en comparar el nombre, la fecha de nacimiento, el sexo y el código postal con otros registros con la esperanza de encontrar una coincidencia. En el ejemplo anterior, esta regla seguiría sin hacer coincidir A1/A2 con B2 porque los nombres siguen siendo ligeramente diferentes: la estandarización puso los nombres en el formato adecuado (Apellido, Nombre) pero no pudo discernir "Bill" como apodo de "William". Pasar los nombres por un algoritmo fonético Soundex, NYSIIS, o Metaphone, puede ayudar a resolver este tipo de problemas (aunque todavía puede tropezar con los cambios de apellido como resultado de un matrimonio o un divorcio), pero entonces B2 se emparejaría sólo con A1 ya que el código postal en A2 es diferente. Por tanto, habría que crear otra regla para determinar si las diferencias en determinados identificadores son aceptables (como el código postal) y cuáles no (como la fecha de nacimiento).

Como demuestra este ejemplo, incluso una pequeña disminución de la calidad de los datos o un pequeño aumento de la complejidad de los mismos puede dar lugar a un aumento muy grande del número de reglas necesarias para vincular los registros correctamente. A la larga, estas reglas de vinculación serán demasiado numerosas e interrelacionadas para construirlas sin la ayuda de herramientas de software especializadas. Además, las reglas de vinculación suelen ser específicas de la naturaleza de los conjuntos de datos que están diseñados para vincular. Un estudio pudo vincular el Archivo Maestro de Defunciones de la Seguridad Social con dos registros hospitalarios del Medio Oeste de Estados Unidos utilizando el SSN, el nombre codificado por el NYSIIS, el mes de nacimiento y el sexo, pero es posible que estas reglas no funcionen tan bien con conjuntos de datos de otras regiones geográficas o con datos recogidos en poblaciones más jóvenes.^[10] Por lo tanto, es necesario realizar pruebas de mantenimiento continuas de estas reglas para garantizar que sigan funcionando como se esperaba a medida que se introducen nuevos datos en el sistema y es necesario vincularlos. Los nuevos datos que presentan características diferentes a las esperadas inicialmente podrían requerir una reconstrucción completa del conjunto de reglas de vinculación de registros, lo que podría suponer un esfuerzo muy largo y costoso.

Fusión de registro probabilisticos

La fusión de registros probabilisticos, a veces denominada correspondencia difusa (también fusión probabilística o fusión difusa en el contexto de la fusión de bases de datos), adopta un enfoque diferente del problema de fusión de registros al tener en cuenta una gama más amplia de identificadores potenciales, calculando pesos para cada identificador en función de su capacidad estimada para identificar correctamente una coincidencia o una no coincidencia, y utilizando estos pesos para calcular la probabilidad de que dos registros dados se refieran a la misma entidad. Los pares de registros con probabilidades superiores a un determinado límite se consideran coincidentes, mientras que los pares con probabilidades inferiores a otro límite se consideran no coincidentes; los pares que se sitúan entre estos dos límites se consideran "posibles coincidencias" y pueden tratarse en consecuencia (por ejemplo, revisados por personas, vinculados o no vinculados, según los requisitos). Mientras que la vinculación determinista de registros requiere la programación previa de una serie de reglas potencialmente complejas, los métodos de fusión de registros probalilistica pueden "entrenarse" para funcionar bien con mucha menos intervención humana.[1]

Muchos algoritmos probabilísticos de vinculación de registros asignan pesos de coincidencia/no coincidencia a los identificadores por medio de dos probabilidades llamadas u y m. La probabilidad u es la probabilidad de que un identificador en dos registros no coincidentes coincida por pura casualidad. Por ejemplo, la probabilidad u para el mes de nacimiento (donde hay doce valores que se distribuyen aproximadamente de forma uniforme) es 1/12 $\thickapprox$ 0,083; los identificadores con valores que no se distribuyen de forma uniforme tendrán diferentes probabilidades u para diferentes valores (posiblemente incluyendo los valores perdidos). La probabilidad m es la probabilidad de que un identificador en pares coincidentes coincida (o sea suficientemente similar, como cadenas con baja distancia Jaro-Winkler o Levenshtein). Este valor sería 1.0 en el caso de datos perfectos, pero dado que esto es raramente (si es que alguna vez lo es) cierto, puede ser estimado. Esta estimación puede realizarse basándose en el conocimiento previo de los conjuntos de datos, identificando manualmente un gran número de pares coincidentes y no coincidentes para "entrenar" el algoritmo de fusión de registros probabilistica, o ejecutando iterativamente el algoritmo para obtener estimaciones más cercanas de la probabilidad m. Si se estimara un valor de 0,95 para la probabilidad m, las ponderaciones de coincidencia/no coincidencia para el identificador del mes de nacimiento serían:


Resultados	Porcentaje de vínculos	Pocertaje de sin vínculos	Relación de frecuencias	Peso
Coincidente	m $=$ 0.95	u $\thickapprox$ 0.083	m/u $\thickapprox$ 11.4	$\log _{2}m/u\thickapprox 3.51$
No coincidente	1– m $=$ 0.05	1 – u $\thickapprox$ 0.917	(1– m) / (1–u) $\thickapprox$ 0.0545	$\log _{2}(1-m)/(1-u)\thickapprox -4.20$

Los mismos cálculos se harían para todos los demás identificadores considerados para encontrar su peso de coincidencia/no coincidencia. A continuación, cada identificador de un registro se compararía con el identificador correspondiente de otro registro para calcular el peso total del par: el peso de coincidencia se añade al total en curso siempre que un par de identificadores coincida, mientras que el peso de no coincidencia se añade (es decir, el total en curso disminuye) siempre que el par de identificadores no coincida. El peso total resultante se compara con los límites antes mencionados para determinar si el par debe estar vinculado, no vinculado o reservado para una consideración especial (por ejemplo, la validación manual)[2]^[11]

Determinar dónde establecer los límites de coincidencia/no coincidencia es un acto de equilibrio entre la obtención de una sensibilidad aceptable (o exhaustividad, la proporción de registros realmente coincidentes que son vinculados por el algoritmo) y el valor predictivo positivo (o precisión, la proporción de registros vinculados por el algoritmo que realmente coinciden). Existen varios métodos manuales y automatizados para predecir los mejores límites, y algunos paquetes de software de fusión de registros tienen herramientas integradas para ayudar al usuario a encontrar los valores más aceptables. Dado que esta tarea puede ser muy exigente desde el punto de vista informático, sobre todo en el caso de grandes conjuntos de datos, a menudo se utiliza una técnica conocida como bloqueo para mejorar la eficacia. El bloqueo intenta restringir las comparaciones a sólo aquellos registros en los que coinciden uno o más identificadores particularmente discriminantes, lo que tiene el efecto de aumentar el valor predictivo positivo (precisión) a expensas de la sensibilidad (exhaustividad)^[11].Por ejemplo, el bloqueo basado en un apellido y un código postal fonéticamente codificado reduciría el número total de comparaciones necesarias y mejoraría las posibilidades de que los registros vinculados fueran correctos (puesto que los dos identificadores ya coinciden), pero potencialmente se perderían registros que se refirieran a la misma persona cuyo apellido o código postal fuera diferente (debido a un matrimonio o un traslado, por ejemplo). El bloqueo basado en el mes de nacimiento, un identificador más estable que se espera que cambie sólo en caso de error en los datos, proporcionaría una ganancia más modesta en el valor predictivo positivo y una pérdida en la sensibilidad, pero crearía sólo doce grupos distintos los cuales, para conjuntos de datos extremadamente grandes, pueden no proporcionar una gran mejora neta en la velocidad de cálculo. Por lo tanto, los amplios sistemas de fusión de registros suelen utilizar múltiples pases de bloqueo para agrupar los datos de diversas maneras con el fin de obtener grupos de registros que deban compararse entre sí.[3]

Aprendizaje automático

En los últimos años, se han utilizado una variedad de técnicas de aprendizaje automático en la vinculación de registros. Se ha reconocido que el algoritmo clásico de Fellegi-Sunter para la vinculación de registros probabilísticos descrito anteriormente es equivalente al algoritmo Naive Bayes en el campo del aprendizaje automático y adolece de la misma suposición de la independencia de sus características ( una suposición que normalmente no es cierta). A menudo, se puede lograr una mayor precisión mediante el uso de otras técnicas de aprendizaje automático, incluido un perceptrón de una sola capa. Junto con las tecnologías distribuidas, la precisión y la escala para la vinculación de registros se pueden mejorar aún más.

Modelo Matemático

En una aplicación con dos archivos, A y B, denota las filas (registros) por $\alpha (a)$ en el archivo A, y $\beta (b)$ en el archivo B. Asignando a $\mathrm {K}$ características a cada registro. El conjunto de registros que representan entidades idénticas está definido por

$M=\left\{(a,b);a=b;a\in A;b\in B\right\}$

y en el complemento del conjunto $\mathrm {M}$ esto es, conjunto $U$ representando a diferentes entidades, es definido como

$U=\{(a,b);a\neq b;a\in A;b\in B\}$

Un vector $\gamma$ se define, que contiene los acuerdos y desacuerdos codificados en cada característica:

$\gamma \left[\alpha (a),\beta (b)\right]=\{\gamma ^{1}\left[\alpha (a),\beta (b)\right],...,\gamma ^{K}\left[\alpha (a),\beta (b)\right]\}$

donde $K$ es un subíndice de las características (sexo, edad, estado civil, etc.) en los archivos. Las probabilidades condicionales de observar un vector $\gamma$ específico dado $(a,b)\in M,(a,b)\in U$ son definidos como

$m(\gamma )=P\left\{\gamma \left[\alpha (a),\beta (b)\right]|(a,b)\in M\right\}=\sum _{(a,b)\in M}P\left\{\gamma \left[\alpha (a),\beta (b)\right]\right\}\cdot P\left[(a,b)|M\right]$

y

$u(\gamma )=P\left\{\gamma \left[\alpha (a),\beta (b)\right]|(a,b)\in U\right\}=\sum _{(a,b)\in U}P\left\{\gamma \left[\alpha (a),\beta (b)\right]\right\}\cdot P\left[(a,b)|U\right]$ , respectivamente

Aplicaciones

Gestión de datos maestro

La mayoría de los productos de gestión de datos maestros (MDM) utilizan un proceso de vinculación de registros para identificar registros de diferentes fuentes que representan la misma entidad del mundo real. Este enlace se utiliza para crear un "registro maestro dorado" que contiene los datos limpios y conciliados sobre la entidad. Las técnicas utilizadas en MDM son las mismas que para la vinculación de registros en general. MDM amplía esta coincidencia no solo para crear un "registro maestro de oro", sino también para inferir relaciones. (es decir, una persona tiene el mismo/similar apellido y la misma/similar dirección, esto podría implicar que comparten una relación familiar).

Almacenamiento de datos e inteligencia empresarial

La vinculación de registros juega un papel clave en el almacenamiento de datos y la inteligencia empresarial. Los almacenes de datos sirven para combinar datos de muchos sistemas de fuentes operativas diferentes en un modelo de datos lógico, que luego se puede alimentar a un sistema de inteligencia comercial para informes y análisis. Cada sistema fuente operativo puede tener su propio método para identificar las mismas entidades utilizadas en el modelo de datos lógicos, por lo que es necesario vincular los registros entre las diferentes fuentes para garantizar que la información sobre una entidad en particular en un sistema fuente se pueda comparar sin problemas con la información sobre la misma entidad de otro sistema fuente. La estandarización de datos y la vinculación posterior de registros a menudo ocurren en la parte de "transformación" del proceso de extracción, transformación y carga (ETL).

Investigación Histórica

La vinculación de registros es importante para la investigación de la historia social, puesto que la mayoría de los conjuntos de datos, como los registros del censo y los registros parroquiales, se registraron mucho antes de la invención de los números de identificación nacional. Cuando se digitalizan fuentes antiguas, la vinculación de conjuntos de datos es un requisito previo para el estudio longitudinal. Este proceso a menudo se complica aún más por la falta de ortografía estándar de los nombres, los apellidos que cambian según el lugar de residencia, el cambio de los límites administrativos y los problemas de cotejar los datos con otras fuentes. La vinculación de registros fue uno de los temas más destacados en el campo de la historia y la informática en la década de 1980, pero desde entonces ha sido objeto de menos atención en la investigación.

Práctica Médica e Investigación

La vinculación de registros es una herramienta importante para crear los datos necesarios para examinar la salud del público y del propio sistema de atención médica. Se puede utilizar para mejorar las existencias de datos, la recopilación de datos, la evaluación de la calidad y la difusión de la información. Las fuentes de datos se pueden examinar para eliminar registros duplicados, identificar casos faltantes y casos faltantes (p. ej., censos de población), crear estadísticas de salud orientadas a las personas y generar registros de enfermedades y sistemas de vigilancia de la salud. Algunos registros de cáncer vinculan varias fuentes de datos (p. ej., ingresos hospitalarios, informes patológicos y clínicos y registros de defunciones) para generar sus registros. La vinculación de registros también se utiliza para crear indicadores de salud. Por ejemplo, la mortalidad fetal e infantil es un indicador general del desarrollo socioeconómico, la salud pública y los servicios materno infantiles de un país. Si los registros de defunción infantil se comparan con los registros de nacimiento, es posible utilizar variables de nacimiento, como el peso al nacer y la edad gestacional, junto con datos de mortalidad, como la causa de la muerte, al analizar los datos. Los vínculos pueden ayudar en los estudios de seguimiento de cohortes u otros grupos para determinar factores como el estado vital, el estado residencial o los resultados de salud. El rastreo a menudo es necesario para el seguimiento de cohortes industriales, ensayos clínicos y encuestas longitudinales para obtener la causa de muerte y/o cáncer. Un ejemplo de un sistema de vinculación de registros exitoso y de larga data que permite la investigación médica basada en la población es el Proyecto de epidemiología de Rochester con sede en Rochester, Minnesota.

Crítica a las aplicaciones informáticas existentes

Las razones principales citaron es:

Costos del proyecto: los costes suelen ser de cientos de miles de dólares
Tiempo: falta de tiempo suficiente para ocuparse del software de limpieza de datos a gran escala
Seguridad: preocupación por el hecho de compartir información, dar acceso a una aplicación a través de los sistemas y los efectos en los sistemas heredados
Escalabilidad: Debido a la ausencia de identificadores únicos en los registros, la vinculación de registros es computacionalmente cara y difícil de escalar.^[12]
Precisión: La modificación de los datos de la empresa y la captura de todas las reglas de vinculación es un ejercicio arduo y extenso

Véase también

Notas y referencias

Datos: Q1266546

↑ «Cristen, P & T: Febrl - Freely extensible biomedical record linkage (Manual, release 0.3) p.9». Archivado desde el original el 11 de marzo de 2016. Consultado el 24 de marzo de 2022.
↑ Elmagarmid, Ahmed; Panagiotis G. Ipeirotis; Vassilios Verykios (January 2007). «Duplicate Record Detection: A Survey». IEEE Transactions on Knowledge and Data Engineering 19 (1): pp. 1-16. doi:10.1109/tkde.2007.250581. Consultado el 30 de marzo de 2009.
↑ Dunn, Halbert L. (December 1946). «Record Linkage». American Journal of Public Health 36 (12): pp. 1412-1416. PMC 1624512. PMID 18016455. doi:10.2105/AJPH.36.12.1412.
↑ Newcombe, H. B.; J.M. Kennedy; S.J. Axford; A. P. James (October 1959). «Automatic Linkage of Vital Records». Science 130 (3381): 954-959. Bibcode:1959Sci...130..954N. PMID 14426783. doi:10.1126/science.130.3381.954.
↑ Fellegi, Ivan; Sunter, Alan (December 1969). «A Theory for Record Linkage». Journal of the American Statistical Association 64 (328): pp. 1183-1210. doi:10.2307/2286061.
↑ . Proceedings of International Joint Conference on Neural Networks. July 31 – August 5, 2011.
↑ Winkler, William E. «Matching and Record Linkage». U.S. Bureau of the Census. Consultado el 12 de noviembre de 2011.
↑ Churches, Tim; Christen, Peter; Lim, Kim; Zhu, Justin Xi (13 de diciembre de 2002). «Preparation of name and address data for record linkage using hidden Markov models». BMC Medical Informatics and Decision Making 2: 9. ISSN 1472-6947. PMID 12482326. doi:10.1186/1472-6947-2-9. Consultado el 27 de marzo de 2022.
↑ «Roos, LL; Wajda A (April 1991). "Record linkage strategies. Part I: Estimating information and evaluating approaches". Methods of Information in Medicine. 30 (2): 117–123.». doi:10.1055/s-0038-1634828.
↑ «Grannis, SJ; Overhage JM; McDonald CJ (2002). "Analysis of identifier performance using a deterministic linkage algorithm". Proc AMIA Symp.: 305–9. PMC 2244404. PMID 12463836.».
↑ ^a ^b Blakely, Tony; Salmond, Clare (1 de diciembre de 2002). «Probabilistic record linkage and a method to calculate the positive predictive value». International Journal of Epidemiology 31 (6): 1246-1252. ISSN 0300-5771. doi:10.1093/ije/31.6.1246. Consultado el 27 de marzo de 2022.
↑ «Entity Resolution at Scale».

Enlaces externos

[1] «Cristen, P & T: Febrl - Freely extensible biomedical record linkage (Manual, release 0.3) p.9». Archivado desde el original el 11 de marzo de 2016. Consultado el 24 de marzo de 2022.

[2] Elmagarmid, Ahmed; Panagiotis G. Ipeirotis; Vassilios Verykios (January 2007). «Duplicate Record Detection: A Survey». IEEE Transactions on Knowledge and Data Engineering 19 (1): pp. 1-16. doi:10.1109/tkde.2007.250581. Consultado el 30 de marzo de 2009.

[3] Dunn, Halbert L. (December 1946). «Record Linkage». American Journal of Public Health 36 (12): pp. 1412-1416. PMC 1624512. PMID 18016455. doi:10.2105/AJPH.36.12.1412.

[4] Newcombe, H. B.; J.M. Kennedy; S.J. Axford; A. P. James (October 1959). «Automatic Linkage of Vital Records». Science 130 (3381): 954-959. Bibcode:1959Sci...130..954N. PMID 14426783. doi:10.1126/science.130.3381.954.

[FellegiSunter-5] Fellegi, Ivan; Sunter, Alan (December 1969). «A Theory for Record Linkage». Journal of the American Statistical Association 64 (328): pp. 1183-1210. doi:10.2307/2286061.

[ReferenceA-6] . Proceedings of International Joint Conference on Neural Networks. July 31 – August 5, 2011.

[7] Winkler, William E. «Matching and Record Linkage». U.S. Bureau of the Census. Consultado el 12 de noviembre de 2011.

[8] Churches, Tim; Christen, Peter; Lim, Kim; Zhu, Justin Xi (13 de diciembre de 2002). «Preparation of name and address data for record linkage using hidden Markov models». BMC Medical Informatics and Decision Making 2: 9. ISSN 1472-6947. PMID 12482326. doi:10.1186/1472-6947-2-9. Consultado el 27 de marzo de 2022.

[9] «Roos, LL; Wajda A (April 1991). "Record linkage strategies. Part I: Estimating information and evaluating approaches". Methods of Information in Medicine. 30 (2): 117–123.». doi:10.1055/s-0038-1634828.

[10] «Grannis, SJ; Overhage JM; McDonald CJ (2002). "Analysis of identifier performance using a deterministic linkage algorithm". Proc AMIA Symp.: 305–9. PMC 2244404. PMID 12463836.».

[:0-11] Blakely, Tony; Salmond, Clare (1 de diciembre de 2002). «Probabilistic record linkage and a method to calculate the positive predictive value». International Journal of Epidemiology 31 (6): 1246-1252. ISSN 0300-5771. doi:10.1093/ije/31.6.1246. Consultado el 27 de marzo de 2022.

[12] «Entity Resolution at Scale».

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]