Please follow and like us:
Facebook
Twitter
LinkedIn

En este artículo aprenderemos que es el data  mining y Business Intelligence. A Través de un ejemplo de la vida real usaremos la minería de datos para diseñar mejores productos. Aprenderemos qué es la programación natural del lenguaje.  

Analizaremos miles de comentarios y descubriremos oportunidades ocultas a simple vista para diseñar mejores productos y servicios.

Introducción

Uno de los servicios que nos contratan bastante de varios países como México, Colombia, Perú, España y Estados Unidos , es  el Business Intelligence y  Diseño de productos de marca blanca  para ser vendidos en Amazon o páginas web de e-commerce.

Después del análisis de rigor de palabras claves en Amazon y Google,  demanda, precios y costos, llega la hora de diseñar el producto. El producto es una serie de atributos , un Nombre, Marca, Logotipo, empaque, página web de e-commerce, página del producto en Amazon. ¿Qué estilo debemos usar? ¿Qué imagen? ¿Qué debemos comunicar? Son algunas interrogantes.

Estas preguntas encuentran respuesta con la minería de datos (Data mining) y business intelligence. Identificar oportunidades para diseñar un mejor producto.

a continuación…

Un ejemplo de la vida real del análisis de un producto en Amazon

Antes de seguir…

1 ¿Que es la minería de datos?

“El Data Mining es un conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos que expliquen el comportamiento de estos datos”  fuente: Iebschool

Sigamos…. Cuando busco oportunidades para diseñar productos de marca blanca, mi primera parada obligatoria es leer los comentarios de los productos de la competencia. Esto me puede dar una idea general de oportunidades y desventajas del mismo. Sin embargo aquí tenemos que movernos con cautela. Es muy fácil sesgar nuestra opinión de forma favorable o desfavorable. Por eso les recomiendo hacer un trabajo más estadístico y homogéneo.

Leer los comentarios de Amazon me da una idea general. Me permite plantear preguntas para mi investigación posterior

Leer los comentarios de Amazon me da una idea general. Me permite plantear preguntas para mi investigación posterior

 

2 Comentarios no verificados en Amazon

Un aspecto a tener en cuenta es que en Amazon existen muchos comentarios sin verificar. Comentarios de dudosa procedencia. Es decir comentarios generados por el mismo vendedor para mejorar su ranking en las búsquedas de forma artificial.

Sería un error terrible guiarse por comentarios falsos. En general este es un gran desafío que afronta Amazon.

Por suerte para nosotros existen herramientas y nadie va a reclamar si los filtramos. Pueden utilizar esta página web para filtrar comentarios válidos e inválidos. reviewmeta.com

 

Filtrar comentarios válidos e inválidos con reviewmeta.com

Filtrar comentarios válidos e inválidos con reviewmeta.com

 

3 Minería de datos de productos de Amazon

La minería de datos en este caso es hacer scraping de todos los comentarios de todos los productos en el top 10 de los resultados de búsquedas de Amazon.

Antes de seguir debemos entender cómo funciona el algoritmo de Amazon para recomendar productos.

El algoritmo de Amazon usa una combinación de los siguientes factores para recomendar un producto en los resultados de las búsquedas.

  • Palabras claves (nombre y título del producto)
  • Número de productos vendidos
  • Número de reviews
  • Calificación
  • Precio
  • Tipo de envío (FBA, propio)
  • Inventario

Pueden usar AMZscout para obtener los principales vendedores e información valiosa como número de ventas, valor de las ventas, reviews, rating, precio.  

AMZscout para obtener los principales vendedores e información valiosa como como número de ventas, valor de las ventas, reviews, rating, precio.

AMZscout para obtener los principales vendedores e información valiosa como como número de ventas, valor de las ventas, reviews, rating, precio.

3.1 Obtener la información de Amazon

OctoparseWeb scraper para extraer información

Aquí utilizó la herramienta llamada Octoparse. Es un web scraper . En español el equivalente sería a una especie de araña que peina y rastrea el contenido de una web. Octoparse ofrece un plan gratuito. Para un producto que no tenga muchos comentarios les puede servir perfectamente. Para poder rastrear unos 10K – 20K  comentarios que es lo que tiene una búsqueda promedio en Amazon (TOP 10 de resultados) van a necesitar la versión cloud Standard de Octoparse US$89 al mes

Usando Octoparse descargo todos los comentarios de los 10 principales  productos que arroja una búsqueda. Al igual que en Google, en Amazon la página dos de resultados significa casi un cementerio de productos.  

Pueden usar AMZscout para obtener los principales vendedores e información valiosa como número de ventas, valor de las ventas, reviews, rating, precio.  

Mi objetivo es analizar los comentarios y su relación con la calificación del comprador. Quiero responder las preguntas planteadas en el tablero de diseño.

Este concepto también aplica a la descarga de comentarios en Twitter, YouTube, Instagram, Foros y Blogs. También podemos descargar comentarios y reviews en expedia, tripadvisor, yelp, incluso emails.

Octoparse – Para extraer información de páginas web

Octoparse – Para extraer información de páginas web

Para tareas más sofisticadas o repetitivas es necesario utilizar lenguajes de programación como phyton y herramientas más enfocadas a desarrolladores como Scrappy o Selenium

 

Alternativas de scrapers con entorno visual

2. Octoparse   desde US$ 89 / Mes

Websites: https://www.octoparse.com/

1. Import. io   desde US $299 / Mes

Web: https://www.import.io/

2. Mozenda  desde US $250 / Mes

Web: https://www.mozenda.com/

3 . ParseHub  desde US $149 / Mes

Web: https://www.parsehub.com/

4. Dexi. io   desde US $ 119 / Mes

Websites: https://dexi.io/

 

4. Procesamiento del lenguaje natural y Machine learning

Un aspecto fundamental al diseñar un producto es encontrar un aspecto diferenciador.

Podemos encontrar las oportunidades ocultas que necesitamos para sobresalir de la competencia.

Usaremos NLP, por sus siglas en inglés de (natural Language processing) .  En español su traducción es programación natural del lenguaje.

¿Qué es NLP?

La programación natural del lenguaje es una rama de la computación , matemáticas y lingüística. Permite procesar el lenguaje humano usando algoritmos.

4.1 Herramientas para Procesamiento del lenguaje natural y Machine learning

A continuación les presento una herramientas que les van a servir para comenzar a explorar datos y entender algunos conceptos de Data Science como Modelado de datos, Machine learning, Intelligencia Artificial, Algoritmos, NLP, data Analytics.

Orange – Data Mining

orange-data-mining

Orange Data Mining | Modelo para analizar comentarios de productos

 

orange-data-mining-modelo-para-analizar-comentarios-de-productos

Orange – Data Mining es una herramienta gratuita basada en python pero con una interfaz visual muy amigable. Les permitirá explorar sus datos obtenidos por los web scrapers.

Usado en universidades de carreras relacionadas a la Inteligencia artificial y Big Data. Orange – Data Mining es la herramienta por defecto para hacer análisis exploratorio básico de sets de datos.

Una desventaja de usar Orange, es que no fue diseñado para manejar BIG DATA. Con un set de más de 8,000 – 10,000  registros muere. 

https://orange.biolab.si/

Meaning Cloud

Otra herramienta buena a tener en mente es MeaningCloud.  un plugin para Excel que les permite hacer minería de datos usando Excel.

https://www.meaningcloud.com/es

Otras herramientas para Minería de datos

Aqui la lista está dividida en dos grandes grupos, Herramientas Open Source, Gratuitas, como Orange, Weka, librerias de Phyton, y Herramientas comerciales Empresariales. A continuación les dejo este listado de herramientas mas avanzadas para hacer Data Mining

 

5. Mi flujo de trabajo para analizar datos y encontrar oportunidades.

  1. Recolección y ensamblado de datos
  2. Exploración de datos y visualización
  3. Modelado de datos
  4. Evaluación del modelo
  5. Análisis de datos

5.1 Paso 1

5.1.1 Recolección de datos usando Octoparse o Scrapy.

Usando Octoparse o Scrapy, (Phyton) descargo toda la data de los comentarios de cada producto.

Una vez que tengo los datos en Excel el siguiente paso es normalizar y estandarizar la información.  Los datos de reviews muchas veces vienen acompañados de caracteres no deseados, formatos de fecha incorrectos, o formatos de información no adecuados.

5.1.2 Ensamblado de datos,  limpiar y normalizar los datos

Openrefine. Herramienta que me permite transformar los datos al formato adecuado. Limpiar la información es fácil

Aquí utilizó Openrefine. Herramienta que me permite transformar los datos al formato adecuado.  Limpiar la información es fácil usando Openrefine. Usando esta herramienta también descartó todos los comentarios no verificados.

openrefine.org

5.2 Paso 2

Exploración de datos y visualización

Orange Data Mining – Minería de Datos y Programación Natural del Lenguaje

Los siguientes pasos son los utilizados para la programación natural de lenguaje.  La programación natural de lenguaje (NLP en inglés) es un modelo de exploración de datos.

5.2.1 Tokenización:

Transformamos grandes pedazos de texto a textos más pequeños.

5.2.2 Normalización:

Convierto todo el texto al mismo tamaño. mayúsculas minúsculas remover puntuación quitar tildes convertir números a su palabra

5.2.3 Stemming

Es el método para reducir una palabra a su raíz . Eliminar sufijos , prefijos, circunfijos de una palabra para encontrar la palabra raíz. Corriendo → correr

5.2.4 Lematización:

Relacionado con el stemming. Dada una forma flexionada, hallar el lema correspondiente.  El lema es la forma que representante a todas las formas flexionadas de una misma palabra.  Por ejemplo, decir es el lema de dije, pero también de diré o dijéramos.

5.3 Paso 3

Modelado de datos

Bag of Words, bolsa de palabras.  Permite simplificar el contenido seleccionado en una visualización fácil de entender. La bolsa de palabras es una nube de palabras.

Aquí es donde obtenemos los primeros resultados de nuestro análisis.

Otros modelos de datos pueden ser:

Análisis de sentimiento

Vectores

Inteligencia artificial para clasificar contenidos.

5.4 Paso 4

Evaluación del modelo

¿Que tan confiable es nuestro modelo? En un modelo de Inteligencia artificial para clasificar texto o determinar el sentimiento de un texto. Necesitamos saber la confianza de los resultados.

5.5 Paso 5

Análisis de datos

Dashboard de Kibana (ElasticSearch) para Business Intelligence

Dashboard de Kibana (ElasticSearch) para Business Intelligence

 

Con herramientas de business intelligence podemos analizar correlaciones del “bag of words” con las calificaciones de los comentarios. Herramientas como elasticsearch y kibana, Tableu o Qlik hacen el análisis más fácil.

Por ejemplo podemos obtener el promedio de calificación de una determinada característica, color, marca, o por números de comentarios.

Aqui  filtro los comentarios calificados del 1 al 3 . segmento la bolsa de palabras para identificar oportunidades.   también hago lo mismo con los comentarios 4 y 5 para ver cuáles son las fortalezas del producto.

6. De regreso al tablero de diseño

Identificadas claramente las oportunidades podemos diseñar nuestro producto de mejor forma. También podemos comunicar mejor nuestro producto. Las decisiones que tomamos pueden ser simplemente de marketing.

6.1 Ejemplo. Peine para cabellos rizados.

Un producto que anelisé de un cliente en Estados Unidos.  

mineria-de-datos-de-comentarios-de-productos

Al analizar los datos,  descubrimos varias cosas que sirvieron para nuestra ventaja:

6.2 ¿Qué descubrimos?

La mayoría de peines vendidos en Amazon estaban enfocados a mujeres adultas de raza blanca. Nuestra minería de datos determinó que un porcentaje importante eran compradoras afroamericanas.

El otro segmento que usaba más el peine eran mamás , para peinar a sus hijas.

En los comentarios positivos destacaban aquellos vendedores que ofrecían peines con cerdas duras y mango firme.

Mientras que los comentarios negativos se quejaban de que las cerdas eran blandas y el mango débil.

6.3 Los datos al Marketing – Business Intelligence en la práctica

Con esta información pudimos diseñar un mejor producto. De acuerdo al target adecuado del producto.

Toda la comunicación usó fotos con mujeres del Pelo rizado, y niñas de entre 5 y 8 años.

Hicimos hincapié en que nuestro cepillo tiene cerdas duras y mango resistente.   

Buscamos un fabricante que provea un cepillo de cerdas duras y mango resistente. La diferencia de precio de estas cualidades fue de 40 centavos por unidad!

7. Minería de Datos y Programación Natural del Lenguaje (NLP) para servicios

Usando el mismo proceso de data mining descrito antes, pueden analizar comentarios de cualquier servicio que quieran vender por internet.

Algunos proyectos de Minería de datos que hemos realizado para nuestros clientes en Educanet:

Análisis de comentarios en cursos en Udemy y Coursera. Les ayudará a encontrar oportunidades, diseñar una mejor temática y un mejor curso.

Análisis de calificaciones y comentarios de hoteles y alojamientos. Les ayudará a diseñar mejor su anuncio de hotel o airbnb . Podrán ofrecer amenidades y pequeños servicios complementarios que su competencia ignora.

Análisis de Precios de Hoteles.

Análisis de comentarios en foros y blogs. descubrir el sentimiento positivo o negativo del texto. Descubrir nombres, entidades, y marcas.

8. Resumen

En este artículo aprendimos sobre la minería de datos. Realizamos un ejemplo de un proceso ETL (Extract transform Load) . Aprendimos sobre web scrapers para extraer datos, los transformamos usando Openrefine y los cargamos a Orange Data mining . Hemos aprendido como el Data Mining,  la programación natural del lenguaje, Data Analytics  nos permiten hacer Business Intelligence, la habilidad para transformar los datos en información, y la información en conocimiento.

Aprendimos a descubrir oportunidades ocultas para diseñar mejores productos y servicios.

Please follow and like us:
Facebook
Twitter
LinkedIn
0
Comments

Deja un comentario