Hrvatska
StoryEditor

Kako obogatiti skup podataka podacima s weba s pomoću web scrapinga

25. Lipanj 2020.
internet podaci scraping
Piše: Domagoj Marić, podatkovni znanstvenik u tvrtki Megatrend poslovna rješenja, bavi se razvojem virtualnih asistenata (chatbotova), ostalih rješenja temeljenih na obradi prirodnog jezika (NLP), web scraping procesima te razvojem Python i Java aplikacije

Područje automatiziranoga sustavnog pretraživanja weba svakim danom dobiva sve veću važnost jer količina na webu dostupnih informacija raste te one postaju sve vrjednije. Raspolagati s više i ujedno što kvalitetnijih informacija od iznimne je važnosti za donošenje poslovnih odluka. Zbog toga je korisno znati kako (automatizirano) doći do većih količina informacija na internetu te kako ih izvući i obraditi.

Što je web scraping

Dvije glavne definicije u ovom području su web scraping i web crawling. Web scraping je sistematizirana ekstrakcija sadržaja (tekstualnog ili medijskog) s web-stranica, postignuta korištenjem alata zvanih web scraperi. Koncept web scrapinga temelji se na korištenju metoda web crawlinga, automatiziranog sustavnog pretraživanja weba praćenjem poveznica web-stranica s pomoću web crawlera.

Procesi web scrapinga i web crawlinga čine kontinuirani ciklus: crawlingom dolazimo do HTML dokumenata iza web- stranica, iz kojih izvlačimo željeni sadržaj i poveznice na ostale web-stranice pomoću scrapinga te dalje vršimo crawling po prikupljenim poveznicama.

image
Domagoj Marić, podatkovni znanstvenik u tvrtki Megatrend poslovna rješenja, bavi se razvojem virtualnih asistenata (chatbotova), ostalih rješenja temeljenih na obradi prirodnog jezika (NLP), web scraping procesima te razvojem Python i Java aplikacije

Poduzećima web scraping pomaže na mnogo načina. Najčešće je riječ o kompetitivnim analizama cijena, dobivanju uvida kako se pozicionirati na tržištu ispred konkurencije te istraživanju tržišnih scenarija (trendova) prije plasiranja usluge ili proizvoda na tržište. Osim toga, dodatni agregirani podaci s weba uvijek dobro dođu i u raznim područjima umjetne inteligencije.

Obrada jezika

Obrada prirodnog jezika (eng. Natural Language Processing – NLP) jedno je od područja kojemu web scraping najviše pridonosi. NLP je zajedničko potpodručje jezikoslovlja i umjetne inteligencije kojemu je zadatak omogućiti kompjutorima vještinu čitanja i razumijevanja ljudskih jezika.

Ovdje kao vodeću svjetsku platformu za rješavanje NLP problema i integraciju NLP-a u vlastite poslovne procese valja istaknuti IBM Watson. IBM Watson kao skup alata popularan je zbog jednostavnosti njihove primjene u vlastitom poslovnom okružju. Natural Language Understanding, Tone Analyzer, Assistant i Studio samo su neki od IBM Watson alata za razne primjene umjetne inteligencije na tekstualnim podacima, a dodatna prednost platforme dolazi iz mogućnosti njihova kombiniranja.

image
Kontinuirani ciklus izmjene web scrapinga i web crawlinga

IBM Watson Studio

IBM Watson Studio jedan je od IBM Watson alata koji se koristi za iskorištavanje benefita umjetne inteligencije, točnije strojnog učenja na vlastitom skupu podataka. Ipak, veća količina i bolje informacije od velike su važnosti za procese strojnog učenja. Stoga valja posegnuti za dodatnim podacima iz web-prostora. IBM Watson Studio (a ni IBM Watson platforma) nema servis namijenjen web scrapingu (što je i logično s obzirom na raznolikost procesa web scrapinga), ali ima nešto mnogo fleksibilnije – podršku za Jupyter Notebook, interaktivnu open-source web-aplikaciju za kreiranje i dijeljenje dokumenata koji mogu sadržavati kôd, tekst i razne vizualizacije. Podržava više od 40 programskih jezika, uključujući Python, najpopularniju opciju za web scraping. Tako dobivamo dodirnu točku web scrapinga s IBM Watson platformom i s pomoću jednostavnih Python skripti možemo obogatiti kolekciju data asseta u alatu IBM Watson Studio kako bismo ih iskoristili za razne procese strojnog učenja i dobili vrijedne uvide.

Ako želite saznati više o web scrapingu i kako on može pomoći vama, slobodno se obratite stručnjacima tvrtke Megatrend poslovna rješenja na tel. +385 1 4091 300 ili na Ova e-mail adresa je zaštićena od spambota. Potrebno je omogućiti JavaScript da je vidite.. 

02. svibanj 2024 11:38