Semalt - Conas Leathanaigh Ghréasáin a Scrabhadh?

Is leabharlann Python é Beautiful Soup a úsáidtear go forleathan chun leathanaigh ghréasáin a scrabhadh trí chrann tanaí a chruthú ó dhoiciméid XML agus HTML. Úsáidtear scrapáil gréasáin, teicníc chun sonraí a bhaint as láithreáin ghréasáin agus leathanaigh, go forleathan i réimsí anailíse agus bainistíochta sonraí. I bhformhór na gcásanna, is réamhriachtanas í eolaíocht ríomhchlárúcháin Python san eolaíocht sonraí.

uirlisí agus modúil scrapála ag Python 3 is féidir leat a chur i bhfeidhm ar do thionscadal bainistíochta sonraí. Ag rith faoi láthair mar Anraith 4 álainn, tá an modúl seo comhoiriúnach le Python 3 agus Python 2.7. Tá modúl álainn Anraith 4 in ann crann tanaí a chruthú le haghaidh anraith tag neamh-dúnta. Sa rang teagaisc seo, foghlaimeoidh tú conas an leathanach a scrabhadh agus na sonraí scríobtha a scríobh chuig comhad CSV.

Ag tosú

Chun tús a chur leis, cuir freastalaí nó timpeallacht códaithe Python áitiúil ar do ríomhaire. Ba cheart duit modúl Anraith Álainn agus Iarrataí a shuiteáil ar do mheaisín freisin. Is réamhriachtanas riachtanach freisin eolas a bheith agat ar obair leis an dá mhodúl. Is buntáiste breise é eolas a bheith agat ar chlibeáil agus struchtúr HTML.

Do chuid sonraí a thuiscint

Sa chomhthéacs seo, úsáidfear fíor-shonraí ón nGailearaí Náisiúnta Ealaíne chun cabhrú leat tuiscint a fháil ar conas Anraith Álainn a úsáid. Cuimsíonn an Gailearaí Náisiúnta Ealaíne 120,000 píosa a dhéanann thart ar 13,000 ealaíontóir. Tá an Ealaín lonnaithe i Washington DC, Stáit Aontaithe Mheiriceá.

Níl eastóscadh sonraí gréasáin le Beautiful Soup chomh casta sin. Mar shampla, má dhíríonn tú ar litir Z, marcáil agus nóta síos an chéad ainm ar an liosta. Sa chás seo, is é an chéad ainm Zabaglia, Niccola. Ar mhaithe le comhsheasmhacht, léirigh líon na leathanach agus ainm an ealaíontóra dheireanaigh ar an leathanach sin.

Conas Iarratais agus leabharlann Anraith Álainn a iompórtáil

Chun leabharlanna a iompórtáil, gníomhaigh do thimpeallacht cláir Python 3. Seiceáil le cinntiú go bhfuil tú san eolaire céanna le do thimpeallacht cláir. Rith an t-ordú seo a leanas chun tosú. my_env / bin / gníomhachtú.

Cruthaigh comhad nua agus tosú ag iompórtáil leabharlanna Beautiful Soup and Requests. Ligfidh leabharlann na n-iarratas duit HTTP a úsáid i do chláir Python i bhformáidí inléite. Oibríonn Anraith Álainn, ar an láimh eile, chun leathanaigh a scrabhadh go gasta. Úsáid bs4 chun Anraith Álainn a iompórtáil.

Conas leathanach gréasáin a bhailiú agus a pharsáil

Bailigh Iarratais ag Úsáid URL de do chéad leathanach. Sannfar URL an chéad leathanaigh don leathanach inathraithe. Tóg réad BeautifulSoup ó Iarrataí agus déan an réad a pharsáil ó pharsálaí Python.

Sa rang teagaisc seo, is é an aidhm naisc agus ainmneacha na n-ealaíontóirí a bhailiú. Mar shampla, is féidir leat dátaí agus náisiúntachtaí ealaíontóirí a bhailiú. Maidir le húsáideoirí Windows, cliceáil ar dheis ar chéad ainm an ealaíontóra. Sa chás seo, bain úsáid as Zabaglia, Niccola. Maidir le húsáideoirí Mac OS, sconna ar "CTRL" agus cliceáil an t-ainm. Cliceáil ar an roghchlár "Inspect Element" a thaispeánann aníos ar do scáileán chun uirlisí forbróirí gréasáin a rochtain. Priontáil ainmneacha an ealaíontóra amach chun crann a dhéanamh go tapa.

Na naisc bun a bhaint

Chun na naisc íochtaracha ar do leathanach gréasáin a bhaint, déan iniúchadh ar an DOM trí chliceáil ar dheis ar an eilimint. Aithneoidh tú go bhfuil na naisc faoi thábla HTML. Ag baint úsáide as Anraith Álainn, bain úsáid as an “modh dianscaoilte” chun clibeanna a bhaint den chrann pár.

Conas ábhar a tharraingt ó chlib

Ní gá duit an chlib nasc iomlán a phriontáil, bain úsáid as Anraith Álainn chun ábhar a bhaint de chlib. Is féidir leat URLanna a bhaineann leis na healaíontóirí a ghabháil freisin trí Anraith Álainn 4 a úsáid.

Sonraí scraped a ghabháil chuig comhad CSV

Ligfidh comhad CSV duit sonraí struchtúrtha a stóráil i ngnáth-théacs, formáid a úsáidtear den chuid is mó le haghaidh bileoga sonraí. Moltar eolas ar láimhseáil gnáthchomhad téacs i Python.

Úsáidtear eastóscadh sonraí gréasáin chun leathanaigh a scrabhadh agus chun faisnéis a fháil. Bí tuisceanach ar na suíomhanna Gréasáin as a bhfuil tú ag baint faisnéise. Cuireann roinnt suíomhanna Gréasáin dinimiciúla srian ar eastóscadh sonraí gréasáin ar a suíomhanna. Tá sé chomh simplí leathanach a scrapeadh le Beautiful Soup agus Python 3.