Saltar al contenido

Extracción de información de página web


Recommended Posts

publicado

Hola a tod@s

Hay la posibilidad de extraer información desde la siguiente página web?

https://autos.mercadolibre.cl/repuestos/soporte-motor

Ingresar a cada anuncio y extraer el contenido según el archivo "PRUEBA"?

Por ejemplo:

-Ingresando a la siguiente anuncio

https://articulo.mercadolibre.cl/MLC-471927238-soporte-lado-caja-mitsubishi-l200-4x4-2007-2015-_JM?quantity=1#position=1&type=item&tracking_id=d75e5bc0-7e51-41ea-8dab-47605e7b5896

Para extraer el contenido de "NOMBRE DE TIENDA" esta se encuentra en la sección "Información sobre el vendedor" en donde hay un enlace "Ver más datos de este vendedore ingresando al enlace se puede extraer el nombre de la tienda para este caso seria "REPUESTOSDELSOLCL", luego cerrar la pagina

Para el caso de la Descripción esta es "Soporte Lado Caja Mitsubishi L200 4x4 2007 2015" que se puede ver a simple vista en la parte derecha del primer anuncio

En la página del primer anuncio hay un apartado de "características" que aveces detalles y otras no. Solo en caso de que halla información en ese apartado solo extraer los siguientes datos como : POSICIÓN, MARCA, MODELO, NUMERO DE PIEZA, OEM. En este caso solo hay informacion de marca: Mitsubishi y moldeo: L200

Para extraer el precio esta se encuentra por debajo de la descripción que en este caso es: 20990 (tener en cuenta el separador de decimales) 

Por ultimo copiar el enlace del anuncio que para este caso es https://articulo.mercadolibre.cl/MLC-471927238-soporte-lado-caja-mitsubishi-l200-4x4-2007-2015-_JM?quantity=1#position=1&type=item&tracking_id=d75e5bc0-7e51-41ea-8dab-47605e7b5896

No se si es posible todo esto, en caso no sea se agradece por su tiempo

Saludos

 

PRUEBA.xlsx

publicado
En 15/7/2020 at 20:54 , avalencia dijo:

Hola

Sugiero usar el buscador del foro y colocar "web scraping" y vayas viendo con paciencia cada post y sus respuestas. Saludos.

Hola @avalencia

Gracias por ese dato, estoy aprendiendo tutoriales de Web scraping con Webscraper.io

Saludos

  • 2 weeks later...
  • 2 weeks later...
publicado
En 1/8/2020 at 6:59 , José_Santos dijo:

@CarlosKurt En el curso que comenta @Sergio vemos cómo extraer información de páginas similares, incluso vemos cómo descargar las imágenes.

Las extracciones las hacemos con VBA.

Saludos.

Dejando de lado el complemento de google: Free Web Scraping, que me ha facilitado mucho extraer información de la web. Sin embargo, atraves de Vba Excel la extracción de información es mas rápida y fiable.
Tome prestado la planilla que publican de tienda Falabella de @José_Santos y lo adapte al mio. Realmente solo pude completar una parte ? el cual fue obtener el ID y la direccion de la pagina web de cada producto de la primera pagina; que fue sencillo, observando y reemplazando algunas detalles como si fuese a grabar una macro. Luego me resulto complicado extraer el producto, marca, precio etc. Estudie algunos conceptos de getElementById, getElementsByTagName, getElementsByClassName, getElementsByName a paso rápido pero sin obtener resultados. Bueno es por que necesito mas tiempo para aprender todo esto de web scraping de manera autodidacta. Por si alguien puede ayudar en corregir el codigo Vba Excel para extraer informacion de precio, producto, etc y de sus demas paginas estaria muy agradecido.

Saludos

 

PD: Perdonen el error de no publicar en el foro correcto que es Macros y programación VBA

prueba.xlsm

publicado

Hola a tod@s

En el archivo adjunto logre armar el código para la extracción de información de una pagina web, la paginación de la misma y detalles de cada producto. La estructura del código es poco estética debido al poco conocimiento de VBA Excel que tengo pero gracias al archivo que publico @José_Santos pude lograrlo; modificando detalles y adaptándolo a mi proyecto. Obviamente faltan muchas cosas por mejorar como por ejemplo:

-Cada producto publicado (Sección detalles de la macro) en la página web al menos muestran tres imagenes, sin embargo en algunos casos muestran una sola imagen como la siguiente página: "https://articulo.mercadolibre.cl/MLC-520011440-pistones-forjados-iapel-honda-civic-accord-integra-k20-_JM#position=52&type=item&tracking_id=2dad53d4-523b-42eb-a858-994382e12a62", en esta no he podido extraer el link de la imagen. Supuse que es la posición de la etiqueta "img", intente probar de varias manera que hasta ahora no he podido extraerlo. 

-No entiendo por que en algunos casos corre correctamente la macro y en otras no, siendo de la misma web, por ejemplo: Si quiero extraer informacion del siguiente link https://listado.mercadolibre.cl/pistones-componentes#D[A:pistones componentes,L:undefined] la macro no funciona corre pero en la https://autos.mercadolibre.cl/repuestos/motores/pistones-com_NoIndex_True corre perfectamente. 

Tengo mas preguntas que supongo que con el tiempo iré descubriendo su respuesta a medida que voy aprendiendo. Si a alguien le sirve el archivo enhorabuena y si alguien sabe como mejorar el código y explicarlo estaría muy agradecido que de paso aprendo mucho más.

Saludos  

prueba.xlsm

Archivado

Este tema está ahora archivado y está cerrado a más respuestas.

  • 109 ¿Te parecen útiles los tips de las funciones? (ver tema completo)

    1. 1. ¿Te parecen útiles los tips de las funciones?


      • No
      • Ni me he fijado en ellos

  • Ayúdanos a mejorar la comunidad

    • Donaciones recibidas este mes: 0.00 EUR
      Objetivo: 130.00 EUR
  • Archivos

  • Estadísticas de descargas

    • Archivos
      187
    • Comentarios
      97
    • Revisiones
      28

    Más información sobre "Un juego del Rabino en Excel"
    Última descarga
    Por pegones1

    1    1

  • Crear macros Excel

  • Mensajes

    • Hola nuevamente. Por eso la importancia de lo que mencionas tú como "ruta relativa". Tal cual comentas, y aún sin llegar a algunos detalles importantes para ayudarte, en realidad tal cual te comenté le día miércoles, pues sí podías hacer como comentabas, era cosa de obtener los Id de Windows (como tú los llamas) y la ruta de OneDrive en casa usuario y eso sí se puede obtener con VBA y luego pasarlo a PQ, pero medio que te cerraste en que "PQ no puede trabajar con rutas relativas", cosa cierta pero siempre hay formas. Si SAP puede o no guardar en OneDrive o SharePoint, pues si está mapeado en la PC ¡claro que se puede! Pero bueno, creo que si te es útil tu propia propuesta ¡avanza con eso!
    • Perdona @Abraham Valencia pero he estado liado estos días. En realidad todo el problema se reduce a estos dos problemas: Problema 1: El script que "fabrica" SAP y que luego "pego" en la macro, no es capaz de  guardar archivos en SharePoint. He estado buscando, y en realidad muchas personas tienen ese problema (no poder guardar un Excel en SAP a través de VBA). Eso muy probablemente sean problemas de permisos, que no puedo cambiar (no soy administrador de nada). Como no puedo solucionarlo así, paso al plan B, que es guardar en Excel que me genera SAP en el ordenador de cada usuario que ejecute la plantilla (y que sí está guardada en SharePoint), para después con PowerQuery llamar a ese Excel (el export). Para ello, pretendo guardar el export, en la ruta relativa "C:\..\..\..\OneDrive - NombreEmpresa\Documentos\SAP\SAP GUI" donde los \..\..\..\ saltan las rutas personales de cada usuario (tipo C:\users\IDusuario\). Eso lo hace bien, y el archivo se guarda en la ruta de cada usuario que lo usa, pero surge el problema 2 Problema 2: PowerQuery no trabaja con rutas relativas del tipo  "C:\..\..\..\OneDrive - NombreEmpresa\Documentos\SAP\SAP GUI" necesita que sea del tipo fija "C:\users\IDusuario\OneDrive - NombreEmpresa\Documentos\SAP\SAP GUI" pero claro, IDusuario es diferente para cada usuario.   Pero escribiendo todo esto, creo que he dado con una posible solución, no grabar el export en una ruta de usuario, sino en una en la raiz de C:, que siempre será igual para todos los usuarios, del tipo C:\Sap\export.xlsx que seria igual en todos los ordenadores. Asi sí podría decirle a PowerQuery que vaya siempre a la ruta C:\Sap\ que existirá en todos los ordenadores. Mañana intentaré hacer pruebas, aunque mi solución ideal seria que se pudiera guardar en el SharePoint. Saludos.
    • Hola La opción brindada por @torquemada es correcta, funciona, pero hay algunos inconvenientes que (desde mi punto de vista) no la convierten en mi primera elección. Los inconvenientes son: Tendrías que ir columna por columna haciendo los reemplazos, claro que no se harían a mano sino que utilizarías la opción reemplazar o la opción texto en columnas, aun asi demorará un poquito y será trabajoso. Cada vez que descargues otro listado, tendrás que volver a realizar los reemplazos. Me parece una mejor propuesta lo siguiente: Descarga los movimientos a un archivo de Excel Desde tu control de pagos (otro archivo) cargas los movimientos del archivo descargado mediante Power Query Power Query hará los reemplazos y reconocerá todo correctamente (sin que tengas que hacer nada especial) Cuando descargues los movimientos un día posterior, solamente tendrás que hacer clic en "Actualizar" y todo funcionará en automático
    • Hola a todos, Efectivamente, me temo que tal como trabajan las funciones =HOY() y/o =AHORA() (volátiles), sólo con macros puedes obtener soluciones. Un recurso pedestre podría ser, cada vez que quieras que se fije un dato, te sitúes en esa celda y pulses F2, F9 e INTRO.  Pero claro, puede ser un inconveniente si hay que hacerlo repetitivamente en muchas ocasiones,.............. en fin, lo comento sólo como posibilidad. Saludos,
    • Hola nuevamente, mi duda sigue siendo la ruta, o rutas, finales que quedan, esas que llamas "relativas"; igual por si acaso pon 3 o 4 de esas, tal cual son y/o se ven en el explorador de cada PC y, de ser posible, en cualquier otro "lado" en que las veas.
  • Visualizado recientemente

    • No hay usuarios registrado para ver esta página.
×
×
  • Crear nuevo...

Información importante

Echa un vistazo a nuestra política de cookies para ayudarte a tener una mejor experiencia de navegación. Puedes ajustar aquí la configuración. Pulsa el botón Aceptar, si estás de acuerdo.