Conocimiento del dominio (ciencia de datos)

En el emocionante mundo de la ciencia de datos, uno de los conceptos más importantes que debemos dominar es el «conocimiento del dominio». ¿Qué significa exactamente este término y por qué es esencial para tener éxito en el campo de la ciencia de datos? En este artículo, exploraremos en profundidad la importancia del conocimiento del dominio y cómo puede potenciar nuestras habilidades como científicos de datos. Si estás interesado en adentrarte en este fascinante campo o si simplemente deseas mejorar tus habilidades existentes, ¡sigue leyendo!

El conocimiento previo requerido del área a la que se aplican los métodos de ciencia de datos.

Más de 1,8 millones de profesionales utilizan CFI para aprender contabilidad, análisis financiero, modelado y más. Comience con una cuenta gratuita para explorar más de 20 cursos siempre gratuitos y cientos de plantillas financieras y hojas de trucos.

¿Qué es el conocimiento de dominio (ciencia de datos)?

En ciencia de datos, el término conocimiento de dominio se refiere al conocimiento previo general sobre el área o entorno al que se aplican los métodos de ciencia de datos. Como disciplina, la ciencia de datos puede considerarse como el estudio de las herramientas utilizadas para modelar datos, generar conocimientos a partir de datos y tomar decisiones basadas en datos. Son herramientas genéricas aplicables a muchos campos como la ingeniería, el derecho, la medicina, las finanzas, etc.

Conocimiento del dominio (ciencia de datos)

Departamentos de ciencia de datos

En términos generales, la ciencia de datos abarca tres disciplinas principales:

1. Informática y programación

La informática y la programación se refieren al estudio de herramientas informáticas como lenguajes de programación, bibliotecas de software y otras herramientas. Las habilidades de programación son esenciales para cualquiera que quiera aplicar la ciencia de datos a problemas en su campo.

2. Estadísticas y aprendizaje automático

La estadística y el aprendizaje automático forman los fundamentos teóricos de los métodos y algoritmos de la ciencia de datos. Para conocer las limitaciones de los métodos utilizados e interpretar correctamente los resultados del proceso de ciencia de datos, se requiere una comprensión de los fundamentos teóricos de la ciencia de datos.

3. Conocimiento del dominio

El conocimiento del dominio a menudo se denomina disciplina o campo general al que se aplica la ciencia de datos. Se dice que un experto o especialista en un campo como la biotecnología tiene conocimientos de dominio de esa industria.

Los dos primeros elementos de la lista anterior son habilidades esenciales que necesitan todos los profesionales de la ciencia de datos y se aplican a todas las aplicaciones de la ciencia de datos, independientemente del dominio.

Por otro lado, el conocimiento del dominio es más especializado. La falta de conocimiento del dominio dificulta la aplicación de los métodos correctos y la evaluación adecuada de su desempeño. De hecho, para ser eficaz, la aplicación del conocimiento del dominio debe ser generalizada en todo el proceso de ciencia de datos.

Proceso de ciencia de datos y conocimiento del dominio.

Aquí analizamos cómo se aplica el conocimiento del dominio a cada parte del proceso de ciencia de datos. El proceso de ciencia de datos se puede dividir en cuatro subprocesos como se describe a continuación. La siguiente figura resume el proceso de ciencia de datos:

Conocimiento del dominio (ciencia de datos)

1. Definición del problema

El primer paso en cualquier ciencia de datos es definir el problema a resolver. Comienza con una descripción general del problema e incluye la definición de los criterios de desempeño deseados.

Definir el problema es un paso simple para un problema simple como predecir el incumplimiento de un préstamo, donde la definición del problema es simplemente predecir la probabilidad de incumplimiento en función de los datos de prestatarios anteriores. Por otro lado, considere un problema en robótica o en medicina, donde una persona sin conocimiento del campo ni siquiera puede definir el patrón que busca en los datos.

2. Limpieza de datos e ingeniería de funciones.

La mayoría de los datos recopilados en cualquier campo rara vez están limpios y listos para usar. El proceso de preparación de los datos para el proceso de modelado es la limpieza de datos y la ingeniería de características. La limpieza de datos y la ingeniería de funciones implican transformar los datos. Los datos transformados incorrectamente pueden generar resultados incorrectos.

Por ejemplo, si uno analizara la relación entre, digamos, el precio de las acciones y los resultados financieros, como los flujos de efectivo, se podrían reducir los flujos de efectivo. Sin embargo, el escalamiento introduciría un sesgo de anticipación en los datos porque el proceso de escalamiento ingenuo utiliza datos futuros para escalar datos pasados. Esto producirá resultados incorrectos en cualquier análisis basado en datos transformados incorrectamente.

Además, se requiere conocimiento del dominio para seleccionar las características correctas de los datos que proporcionen el mayor poder predictivo.

3. Fabricación de modelos

El paso de construcción del modelo implica ajustar un modelo a los datos. El modelo aquí creado sirve para resolver el problema definido en el primer paso. Elegir un modelo apropiado es crucial para el éxito del proceso de ciencia de datos. Esta elección también depende del ámbito de aplicación y se complementa con un profundo conocimiento especializado.

4. Medición del desempeño

La medición del desempeño es el paso final en el proceso de ciencia de datos, y mide el desempeño del modelo con datos nuevos o con datos de muestra que no se utilizaron al construir el modelo. La elección de umbrales y métricas de rendimiento está determinada principalmente por el conocimiento del dominio.

Por ejemplo, al construir un modelo para predecir incumplimientos de préstamos, un resultado falso negativo (que predice que un deudor potencial tendrá un buen crédito) es más costoso que un resultado falso positivo (que predice que un moroso será un deudor). Estas asimetrías variarán según las disciplinas y serían difíciles de detectar sin conocimiento del dominio. Sólo una persona con conocimiento del dominio puede estimar con precisión un cálculo adicional del costo causado por los errores del modelo.

Estudio de caso: Predicción de impagos de tarjetas de crédito

En esta sección, analizamos un estudio de caso que ilustra la importancia del conocimiento del dominio. Predecir la morosidad de las tarjetas de crédito es un problema común en la financiación al consumo, donde un proveedor de tarjetas de crédito debe decidir si emite tarjetas de crédito a un cliente en particular. También apoya al proveedor en evaluaciones de riesgos y decisiones estratégicas.

Analizaremos un pequeño proyecto de ciencia de datos que tiene como objetivo predecir la morosidad entre los clientes de tarjetas de crédito. Los datos constan de aproximadamente 100.000 clientes únicos con datos sobre 10 atributos, incluido uno que indica si el cliente estaba en mora. Comenzando con la definición del problema, recorreremos los diferentes pasos del proceso de ciencia de datos descrito anteriormente.

Paso 1: definición del problema

En este caso el problema es fácil de definir. Predecir el valor del indicador de retraso.

Paso 2: limpieza de datos e ingeniería de funciones

En nuestro caso, la limpieza de datos y la ingeniería de funciones son una parte importante del proceso. Esto se debe a que los datos están desequilibrados, lo que significa que no muestran una representación uniforme de personas delincuentes y no delincuentes.

De hecho, los datos muestran un 93% de incumplimientos, lo que es de esperar en el mundo real, ya que la mayoría de las personas no incumplen sus deudas de tarjetas de crédito. Este desequilibrio puede afectar la elección del modelo y la métrica de rendimiento utilizada. Esto también afecta la calidad del modelo.

Un experto en el dominio Riesgo crediticio Sería consciente de que tal desequilibrio requeriría métodos para resolver el problema. Una solución sencilla sería volver a muestrear los datos, produciendo un conjunto de datos equilibrado pero más pequeño. Este equilibrio entre calidad y cantidad de datos requiere conocimiento del dominio para identificarlos y ajustarlos.

Paso 3: construcción del modelo

Al construir un modelo para predecir los incumplimientos de préstamos, un experto en la materia está familiarizado con los enfoques anteriores para resolver el problema. En este caso, la regresión logística se utiliza a menudo en la literatura. Por lo tanto, puede proporcionar un buen punto de partida para la selección de modelos y una base para evaluar nuevos enfoques.

Paso 4: Medición del desempeño

Seleccionar buenos criterios de medición del desempeño es un paso crucial en el desarrollo de un modelo de riesgo crediticio, ya que una métrica incorrecta puede llevar a la selección del modelo equivocado. En nuestro caso, donde los datos están desequilibrados, un modelo ingenuo que clasifique a todos los clientes como no morosos tendrá una precisión muy alta, pero también puede clasificar a todos los morosos como no morosos.

Un problema de este tipo requiere un modelo que prediga correctamente a la mayoría de los morosos y al mismo tiempo identifique erróneamente a unos pocos que no moran. Esto debería reflejarse en las métricas de desempeño. Además, en este caso, etiquetar incorrectamente a un cliente moroso es más costoso que etiquetar mal a un cliente que no incumple, y tal compensación requiere una comprensión adecuada de los costos y riesgos involucrados. No puede ser una decisión completamente objetiva basada en una única métrica, sino que requiere un juicio subjetivo basado en el conocimiento del dominio.

Lecturas relacionadas

Gracias por leer la guía de Finanzas sobre conocimiento de dominios (ciencia de datos). Para continuar aprendiendo y desarrollando su base de conocimientos, explore los siguientes recursos adicionales relevantes:

Error 403 The request cannot be completed because you have exceeded your quota. : quotaExceeded

Deja un comentario

¡Contenido premium bloqueado!

Desbloquear Contenido
close-link