Saltar al contenido

Extracción de información de página web


Recommended Posts

publicado

Hola a tod@s

Hay la posibilidad de extraer información desde la siguiente página web?

https://autos.mercadolibre.cl/repuestos/soporte-motor

Ingresar a cada anuncio y extraer el contenido según el archivo "PRUEBA"?

Por ejemplo:

-Ingresando a la siguiente anuncio

https://articulo.mercadolibre.cl/MLC-471927238-soporte-lado-caja-mitsubishi-l200-4x4-2007-2015-_JM?quantity=1#position=1&type=item&tracking_id=d75e5bc0-7e51-41ea-8dab-47605e7b5896

Para extraer el contenido de "NOMBRE DE TIENDA" esta se encuentra en la sección "Información sobre el vendedor" en donde hay un enlace "Ver más datos de este vendedore ingresando al enlace se puede extraer el nombre de la tienda para este caso seria "REPUESTOSDELSOLCL", luego cerrar la pagina

Para el caso de la Descripción esta es "Soporte Lado Caja Mitsubishi L200 4x4 2007 2015" que se puede ver a simple vista en la parte derecha del primer anuncio

En la página del primer anuncio hay un apartado de "características" que aveces detalles y otras no. Solo en caso de que halla información en ese apartado solo extraer los siguientes datos como : POSICIÓN, MARCA, MODELO, NUMERO DE PIEZA, OEM. En este caso solo hay informacion de marca: Mitsubishi y moldeo: L200

Para extraer el precio esta se encuentra por debajo de la descripción que en este caso es: 20990 (tener en cuenta el separador de decimales) 

Por ultimo copiar el enlace del anuncio que para este caso es https://articulo.mercadolibre.cl/MLC-471927238-soporte-lado-caja-mitsubishi-l200-4x4-2007-2015-_JM?quantity=1#position=1&type=item&tracking_id=d75e5bc0-7e51-41ea-8dab-47605e7b5896

No se si es posible todo esto, en caso no sea se agradece por su tiempo

Saludos

 

PRUEBA.xlsx

publicado
En 15/7/2020 at 20:54 , avalencia dijo:

Hola

Sugiero usar el buscador del foro y colocar "web scraping" y vayas viendo con paciencia cada post y sus respuestas. Saludos.

Hola @avalencia

Gracias por ese dato, estoy aprendiendo tutoriales de Web scraping con Webscraper.io

Saludos

  • 2 weeks later...
  • 2 weeks later...
publicado
En 1/8/2020 at 6:59 , José_Santos dijo:

@CarlosKurt En el curso que comenta @Sergio vemos cómo extraer información de páginas similares, incluso vemos cómo descargar las imágenes.

Las extracciones las hacemos con VBA.

Saludos.

Dejando de lado el complemento de google: Free Web Scraping, que me ha facilitado mucho extraer información de la web. Sin embargo, atraves de Vba Excel la extracción de información es mas rápida y fiable.
Tome prestado la planilla que publican de tienda Falabella de @José_Santos y lo adapte al mio. Realmente solo pude completar una parte ? el cual fue obtener el ID y la direccion de la pagina web de cada producto de la primera pagina; que fue sencillo, observando y reemplazando algunas detalles como si fuese a grabar una macro. Luego me resulto complicado extraer el producto, marca, precio etc. Estudie algunos conceptos de getElementById, getElementsByTagName, getElementsByClassName, getElementsByName a paso rápido pero sin obtener resultados. Bueno es por que necesito mas tiempo para aprender todo esto de web scraping de manera autodidacta. Por si alguien puede ayudar en corregir el codigo Vba Excel para extraer informacion de precio, producto, etc y de sus demas paginas estaria muy agradecido.

Saludos

 

PD: Perdonen el error de no publicar en el foro correcto que es Macros y programación VBA

prueba.xlsm

publicado

Hola a tod@s

En el archivo adjunto logre armar el código para la extracción de información de una pagina web, la paginación de la misma y detalles de cada producto. La estructura del código es poco estética debido al poco conocimiento de VBA Excel que tengo pero gracias al archivo que publico @José_Santos pude lograrlo; modificando detalles y adaptándolo a mi proyecto. Obviamente faltan muchas cosas por mejorar como por ejemplo:

-Cada producto publicado (Sección detalles de la macro) en la página web al menos muestran tres imagenes, sin embargo en algunos casos muestran una sola imagen como la siguiente página: "https://articulo.mercadolibre.cl/MLC-520011440-pistones-forjados-iapel-honda-civic-accord-integra-k20-_JM#position=52&type=item&tracking_id=2dad53d4-523b-42eb-a858-994382e12a62", en esta no he podido extraer el link de la imagen. Supuse que es la posición de la etiqueta "img", intente probar de varias manera que hasta ahora no he podido extraerlo. 

-No entiendo por que en algunos casos corre correctamente la macro y en otras no, siendo de la misma web, por ejemplo: Si quiero extraer informacion del siguiente link https://listado.mercadolibre.cl/pistones-componentes#D[A:pistones componentes,L:undefined] la macro no funciona corre pero en la https://autos.mercadolibre.cl/repuestos/motores/pistones-com_NoIndex_True corre perfectamente. 

Tengo mas preguntas que supongo que con el tiempo iré descubriendo su respuesta a medida que voy aprendiendo. Si a alguien le sirve el archivo enhorabuena y si alguien sabe como mejorar el código y explicarlo estaría muy agradecido que de paso aprendo mucho más.

Saludos  

prueba.xlsm

Archivado

Este tema está ahora archivado y está cerrado a más respuestas.

×
×
  • Crear nuevo...

Información importante

Echa un vistazo a nuestra política de cookies para ayudarte a tener una mejor experiencia de navegación. Puedes ajustar aquí la configuración. Pulsa el botón Aceptar, si estás de acuerdo.