ఇ-కామర్స్ సైట్లలో వెబ్ స్క్రాపింగ్ సవాళ్లను అధిగమించడం
వెబ్ స్క్రాపింగ్ ఉత్తేజకరమైనది మరియు నిరుత్సాహంగా ఉంటుంది, ప్రత్యేకించి మీరు ప్రక్రియకు కొత్తగా ఉన్నప్పుడు. డైనమిక్ వెబ్సైట్ను స్క్రాప్ చేయడంలో నా మొదటి ప్రయత్నం నాకు ఇప్పటికీ గుర్తుంది-ఇది మంచుతో కూడిన గాజు ద్వారా పుస్తకాన్ని చదవడానికి ప్రయత్నించినట్లు అనిపించింది. బ్యూటిఫుల్ సూప్ వంటి ప్లాట్ఫారమ్లతో, అవకాశాలు అంతంత మాత్రమే, కానీ సంక్లిష్టమైన HTML నిర్మాణాలను నావిగేట్ చేయడం వంటి సవాళ్లు మీ సహనాన్ని పరీక్షించగలవు. 🧑💻
ఈ దృష్టాంతంలో, మీరు ఇ-కామర్స్ వెబ్సైట్ నుండి డేటాను సంగ్రహించే పనిలో ఉన్నారు, కానీ HTML అంశాలు అంతుచిక్కనివిగా కనిపిస్తున్నాయి. మీరు వ్యవహరించే వెబ్సైట్ వంటి అనేక వెబ్సైట్లు, నిర్దిష్ట అంశాలను గుర్తించడం గమ్మత్తైన సమూహ నిర్మాణాలు లేదా డైనమిక్ కంటెంట్ను ఉపయోగిస్తాయి. ముఖ్యంగా మీరు పైథాన్ మరియు బ్యూటిఫుల్ సూప్ వంటి సాధనాలను ప్రారంభించినప్పుడు ఇది విసుగును కలిగిస్తుంది.
కానీ చింతించకండి; ప్రతి విజయవంతమైన వెబ్ స్క్రాపర్ ఒకసారి ఇదే అడ్డంకితో పోరాడింది. HTML నిర్మాణాన్ని విశ్లేషించడం, నమూనాలను గుర్తించడం మరియు మీ ఎంపికదారులను మెరుగుపరచడం నేర్చుకోవడం అనేది స్క్రాపింగ్ ప్రపంచంలో ఒక ఆచారం. పట్టుదల మరియు కొన్ని ప్రయత్నించిన మరియు నిజమైన టెక్నిక్లతో, మీరు చాలా మెలికలు తిరిగిన HTMLని కూడా నావిగేట్ చేసే కళలో త్వరలో ప్రావీణ్యం పొందుతారు.
ఈ కథనంలో, మేము HTMLని సమర్థవంతంగా నావిగేట్ చేయడానికి మరియు మీకు అవసరమైన ఖచ్చితమైన అంశాలను సేకరించేందుకు ఆచరణాత్మక వ్యూహాలను అన్వేషిస్తాము. ట్యాగ్లను అర్థం చేసుకోవడం నుండి డెవలపర్ సాధనాలతో పని చేయడం వరకు, ఈ అంతర్దృష్టులు మిమ్మల్ని విజయం కోసం సెటప్ చేస్తాయి. డైవ్ చేద్దాం! 🌟
| ఆదేశం | ఉపయోగం యొక్క ఉదాహరణ |
|---|---|
| find_all | HTML డాక్యుమెంట్లోని నిర్దిష్ట HTML ట్యాగ్ లేదా క్లాస్ యొక్క అన్ని సందర్భాలను తిరిగి పొందడానికి ఉపయోగించబడుతుంది. ఉదాహరణకు, soup.find_all("div", class_="productContainer") పేజీలోని అన్ని ఉత్పత్తి కంటైనర్లను తిరిగి పొందుతుంది. |
| requests.get | ఇచ్చిన URL యొక్క ముడి HTML కంటెంట్ని పొందేందుకు HTTP GET అభ్యర్థనను చేస్తుంది. ఉదాహరణ: ప్రతిస్పందన = requests.get(url) అన్వయించడం కోసం HTML పేజీని తిరిగి పొందుతుంది. |
| BeautifulSoup | HTML పార్సర్ని ప్రారంభిస్తుంది. ఉదాహరణ: సూప్ = BeautifulSoup(response.content, "html.parser") తదుపరి ప్రాసెసింగ్ కోసం HTML కంటెంట్ను సిద్ధం చేస్తుంది. |
| find_element | పేజీలో ఒకే మూలకాన్ని గుర్తించడానికి సెలీనియంతో ఉపయోగించబడుతుంది. ఉదాహరణ: product.find_element(By.CLASS_NAME, "name") ఉత్పత్తి పేరును తిరిగి పొందుతుంది. |
| find_elements | find_element లాగానే ఉంటుంది కానీ అన్ని సరిపోలే మూలకాలను తిరిగి పొందుతుంది. ఉదాహరణ: driver.find_elements(By.CLASS_NAME, "productContainer") పునరావృతం కోసం అన్ని ఉత్పత్తి కంటైనర్లను పొందుతుంది. |
| By.CLASS_NAME | మూలకాలను వాటి తరగతి పేరుతో గుర్తించడానికి సెలీనియం లొకేటర్ వ్యూహం. ఉదాహరణ: ద్వారా.CLASS_NAME, "ధర" పేర్కొన్న తరగతితో మూలకాలను గుర్తిస్తుంది. |
| assertGreater | విలువ మరొకదాని కంటే ఎక్కువగా ఉందని ధృవీకరించడానికి యూనిట్ పరీక్షలలో ఉపయోగించబడుతుంది. ఉదాహరణ: self.assertGreater(len(product_boxes), 0) స్క్రాపింగ్ సమయంలో ఉత్పత్తులు కనుగొనబడిందని నిర్ధారిస్తుంది. |
| ChromeDriverManager | సెలీనియం కోసం Chrome వెబ్డ్రైవర్ డౌన్లోడ్ మరియు సెటప్ను స్వయంచాలకంగా నిర్వహిస్తుంది. ఉదాహరణ: డ్రైవర్ = webdriver.Chrome(service=Service(ChromeDriverManager().install())). |
| text | HTML మూలకం యొక్క టెక్స్ట్ కంటెంట్ను తిరిగి పొందుతుంది. ఉదాహరణ: శీర్షిక = product.find("div", class_="name").టెక్స్ట్ ఉత్పత్తి పేరు కోసం కనిపించే వచనాన్ని సంగ్రహిస్తుంది. |
| unittest.TestCase | పరీక్ష కేసులను నిర్వచించడానికి ఉపయోగించే పైథాన్ యొక్క యూనిట్టెస్ట్ మాడ్యూల్ నుండి ఒక తరగతి. ఉదాహరణ: తరగతి TestWebScraper(unittest.TestCase) స్క్రాపర్ కోసం పరీక్షల సూట్ను సృష్టిస్తుంది. |
వెబ్ స్క్రాపింగ్ సొల్యూషన్స్ను విచ్ఛిన్నం చేయడం
మొదటి స్క్రిప్ట్ ప్రభావితం చేస్తుంది అందమైన సూప్, అందించిన ఇ-కామర్స్ సైట్ నుండి డేటాను సేకరించేందుకు, HTML పార్సింగ్ కోసం ఒక ప్రసిద్ధ పైథాన్ లైబ్రరీ. ఇది ఉపయోగించి ముడి HTMLను పొందడం ద్వారా పని చేస్తుంది అభ్యర్థనలు లైబ్రరీని ఆపై అందమైన సూప్లతో అన్వయించడం html.parser. HTML అన్వయించబడిన తర్వాత, స్క్రిప్ట్ ట్యాగ్లు మరియు తరగతి పేర్లను ఉపయోగించి నిర్దిష్ట అంశాలను గుర్తిస్తుంది, ఉత్పత్తి కంటైనర్, ఇది ఉత్పత్తి వివరాలను చుట్టడానికి భావించబడుతుంది. ఈ విధానం స్టాటిక్ HTML కోసం సమర్థవంతమైనది కానీ వెబ్సైట్ JavaScript ద్వారా రెండర్ చేయబడిన డైనమిక్ కంటెంట్ను ఉపయోగిస్తే కష్టపడవచ్చు. డైనమిక్ రెసిపీ వెబ్సైట్లో ఇలాంటి సమస్యలతో పోరాడుతున్నట్లు నాకు గుర్తుంది-అంతా సరిగ్గానే అనిపించింది, ఇంకా డేటా కనిపించలేదు! 🧑💻
రెండవ స్క్రిప్ట్లో, సెలీనియం అమలులోకి వస్తుంది. జావాస్క్రిప్ట్ ద్వారా లోడ్ చేయబడిన కంటెంట్ ఉన్న సైట్లకు ఈ సాధనం ప్రత్యేకంగా ఉపయోగపడుతుంది. నిజమైన బ్రౌజర్ సెషన్ను ప్రారంభించడం ద్వారా, సెలీనియం సైట్తో పరస్పర చర్య చేసే వినియోగదారుని అనుకరిస్తుంది. ఇది అన్ని మూలకాలు లోడ్ అయ్యే వరకు వేచి ఉండి, ఆపై అవసరమైన డేటాను సంగ్రహించడానికి అనుమతిస్తుంది. ఉదాహరణకు, ఇది తరగతి-ఆధారిత లొకేటర్లను ఉపయోగించి ఉత్పత్తి వివరాలను గుర్తిస్తుంది ద్వారా.CLASS_NAME. సెలీనియం శక్తివంతమైన సామర్థ్యాలను అందించినప్పటికీ, దీనికి జాగ్రత్తగా వనరు నిర్వహణ అవసరం-బ్రౌజర్ సెషన్ నుండి నిష్క్రమించడాన్ని గుర్తుంచుకోవడం వంటివి-లేదా అది అధిక మెమరీని వినియోగించుకోవచ్చు, నా ల్యాప్టాప్ స్తంభింపజేసినప్పుడు అర్థరాత్రి డీబగ్గింగ్ సెషన్లో నేను తెలుసుకున్నట్లుగా! 🖥️
ఈ స్క్రిప్ట్ల యొక్క మరొక ముఖ్య లక్షణం వాటి మాడ్యులర్ డిజైన్, వివిధ వినియోగ సందర్భాలలో వాటిని సులభంగా స్వీకరించేలా చేస్తుంది. పైథాన్లను ఉపయోగించి యూనిట్ టెస్ట్ స్క్రిప్ట్ ఏకపరీక్ష ఫ్రేమ్వర్క్ స్క్రాపింగ్ లాజిక్లోని ప్రతి ఫంక్షన్ సరిగ్గా పని చేస్తుందని నిర్ధారిస్తుంది. ఇది ఉత్పత్తి కంటైనర్లు కనుగొనబడిందని మరియు శీర్షికలు మరియు ధరలు సంగ్రహించబడిందని ధృవీకరిస్తుంది. వెబ్సైట్లు తరచుగా వాటి నిర్మాణాన్ని అప్డేట్ చేస్తున్నందున, మార్పులను స్క్రాప్ చేసేటప్పుడు విశ్వసనీయతను కాపాడుకోవడానికి ఇది చాలా ముఖ్యం. ఒకసారి, బ్లాగ్ సైట్ను స్క్రాప్ చేస్తున్నప్పుడు, అటువంటి పరీక్షల యొక్క ప్రాముఖ్యతను నేను గ్రహించాను-ఒక వారం పనిచేసినవి తర్వాతి వారానికి విరిగిపోయాయి మరియు పరీక్షలు నాకు గంటల తరబడి ట్రబుల్షూటింగ్ను ఆదా చేశాయి.
ఈ స్క్రిప్ట్లు ఆప్టిమైజేషన్ మరియు పునర్వినియోగాన్ని దృష్టిలో ఉంచుకుని నిర్మించబడ్డాయి. HTML పొందడం మరియు మూలకం పార్సింగ్ వంటి పునర్వినియోగ ఫంక్షన్లను వేరు చేయడం ద్వారా, వారు చిన్న సర్దుబాట్లతో అదే సైట్లోని ఇతర పేజీలు లేదా వర్గాలను నిర్వహించగలరు. ఈ మాడ్యులారిటీ స్క్రాపింగ్ ప్రాజెక్ట్ను విస్తరించడం నిర్వహించదగినదిగా ఉండేలా చేస్తుంది. మొత్తంమీద, బ్యూటిఫుల్ సూప్ మరియు సెలీనియం కలపడం వలన స్టాటిక్ మరియు డైనమిక్ కంటెంట్ స్క్రాపింగ్ రెండింటినీ సమర్థవంతంగా పరిష్కరించడానికి మిమ్మల్ని సన్నద్ధం చేస్తుంది. సహనం మరియు అభ్యాసంతో, వెబ్ స్క్రాపింగ్ నిరాశపరిచే పని నుండి డేటా సేకరణ కోసం బహుమతి సాధనంగా మారుతుంది. 🌟
అందమైన సూప్ని ఉపయోగించి ఇ-కామర్స్ సైట్ల నుండి డేటాను సంగ్రహించడం
HTML పార్సింగ్ మరియు వెబ్ స్క్రాపింగ్ కోసం పైథాన్ మరియు బ్యూటిఫుల్ సూప్ లైబ్రరీని ఉపయోగించడం
from bs4 import BeautifulSoupimport requests# URL of the target pageurl = "https://www.noon.com/uae-en/sports-and-outdoors/exercise-and-fitness/yoga-16328/"# Make a GET request to fetch the raw HTML contentresponse = requests.get(url)soup = BeautifulSoup(response.content, "html.parser")# Find all product boxesproduct_boxes = soup.find_all("div", class_="productContainer")for product in product_boxes:# Extract the titletitle = product.find("div", class_="name").text if product.find("div", class_="name") else "No title"# Extract the priceprice = product.find("div", class_="price").text if product.find("div", class_="price") else "No price"print(f"Product: {title}, Price: {price}")
సెలీనియంతో డైనమిక్ కంటెంట్ స్క్రాపింగ్
JavaScript-రెండర్ చేయబడిన కంటెంట్ని నిర్వహించడానికి సెలీనియంతో పైథాన్ని ఉపయోగించడం
from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.chrome.service import Servicefrom webdriver_manager.chrome import ChromeDriverManager# Set up Selenium WebDriverdriver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))url = "https://www.noon.com/uae-en/sports-and-outdoors/exercise-and-fitness/yoga-16328/"driver.get(url)# Wait for the products to loadproducts = driver.find_elements(By.CLASS_NAME, "productContainer")for product in products:try:title = product.find_element(By.CLASS_NAME, "name").textprice = product.find_element(By.CLASS_NAME, "price").textprint(f"Product: {title}, Price: {price}")except:print("Error extracting product details")driver.quit()
అందమైన సూప్ స్క్రాపర్ కోసం యూనిట్ పరీక్షలు
స్క్రాపింగ్ లాజిక్ను ధృవీకరించడానికి పైథాన్ యొక్క యూనిట్టెస్ట్ మాడ్యూల్ని ఉపయోగించడం
import unittestfrom bs4 import BeautifulSoupimport requestsclass TestWebScraper(unittest.TestCase):def setUp(self):url = "https://www.noon.com/uae-en/sports-and-outdoors/exercise-and-fitness/yoga-16328/"response = requests.get(url)self.soup = BeautifulSoup(response.content, "html.parser")def test_product_extraction(self):product_boxes = self.soup.find_all("div", class_="productContainer")self.assertGreater(len(product_boxes), 0, "No products found")def test_title_extraction(self):first_product = self.soup.find("div", class_="productContainer")title = first_product.find("div", class_="name").text if first_product.find("div", class_="name") else Noneself.assertIsNotNone(title, "Title not extracted")if __name__ == "__main__":unittest.main()
వెబ్ స్క్రాపింగ్లో అధునాతన సాంకేతికతలను అన్వేషించడం
వెబ్ స్క్రాపింగ్ కోసం సంక్లిష్ట వెబ్సైట్లను పరిష్కరించేటప్పుడు, డైనమిక్ కంటెంట్ను నిర్వహించడం అనేది పరిగణించవలసిన ముఖ్యమైన అంశం. అనేక ఆధునిక వెబ్సైట్లు ప్రారంభ HTML డెలివరీ చేయబడిన తర్వాత మూలకాలను లోడ్ చేయడానికి JavaScriptపై ఆధారపడతాయి. దీనర్థం వంటి సాధనాలు అందమైన సూప్, ఇది స్టాటిక్ HTMLని మాత్రమే అన్వయిస్తుంది, అవసరమైన మొత్తం డేటాను క్యాప్చర్ చేయడంలో విఫలం కావచ్చు. అటువంటి సందర్భాలలో, ఒక బ్రౌజర్ ఆటోమేషన్ సాధనాన్ని సమగ్రపరచడం సెలీనియం అత్యవసరం అవుతుంది. సెలీనియం నిజమైన వినియోగదారు వలె వెబ్సైట్తో పరస్పర చర్య చేయగలదు, మూలకాలు లోడ్ అయ్యే వరకు వేచి ఉండి తదనుగుణంగా డేటాను సంగ్రహిస్తుంది. కీ ఎలిమెంట్లను అసమకాలికంగా రెండర్ చేసే సైట్లను స్క్రాప్ చేసేటప్పుడు ఇది ప్రత్యేకంగా ఉపయోగపడుతుంది. 🌐
వెబ్సైట్ యొక్క నిర్మాణం మరియు దాని అంతర్లీన API మరొక కీలకమైన పరిశీలన. కొన్ని వెబ్సైట్లు కంటెంట్ను డైనమిక్గా లోడ్ చేయడానికి ఉపయోగించే నిర్మాణాత్మక API ముగింపు బిందువును బహిర్గతం చేస్తాయి. డెవలపర్ సాధనాల ద్వారా నెట్వర్క్ కార్యాచరణను తనిఖీ చేయడం ద్వారా, మీరు HTML కంటే సులభంగా సంగ్రహించే JSON డేటాను కనుగొనవచ్చు. ఉదాహరణకు, ఉత్పత్తి వివరాల కోసం బహుళ సమూహ ట్యాగ్లను అన్వయించడానికి బదులుగా, మీరు నేరుగా స్వచ్ఛమైన, నిర్మాణాత్మక డేటాను కలిగి ఉన్న JSON వస్తువులను పొందవచ్చు. ఈ పద్ధతి వేగవంతమైనది, మరింత నమ్మదగినది మరియు అనవసరమైన సర్వర్ అభ్యర్థనలను తగ్గిస్తుంది. వంటి లైబ్రరీలను ఉపయోగించడం అభ్యర్థనలు లేదా httpx API పరస్పర చర్య పనితీరును ఆప్టిమైజ్ చేయడానికి ఒక అద్భుతమైన విధానం.
చివరగా, నైతిక స్క్రాపింగ్ పద్ధతులు మరియు వెబ్సైట్ సేవా నిబంధనలకు అనుగుణంగా ఉండటం విస్మరించబడదు. robots.txtని గౌరవించడం, థ్రోట్లింగ్ ద్వారా అధిక సర్వర్ లోడ్ను నివారించడం మరియు నిజమైన వినియోగదారుని అనుకరించడానికి హెడర్లను ఉపయోగించడం ప్రాథమిక ఉత్తమ పద్ధతులు. అభ్యర్థనల మధ్య జాప్యాలను జోడించడం లేదా లైబ్రరీలను ఉపయోగించడం సమయం లేదా అసిన్సియో, మృదువైన ఆపరేషన్ నిర్ధారిస్తుంది. నేను మొదట వెబ్ స్క్రాపింగ్ని ప్రారంభించినప్పుడు, నేను ఈ మార్గదర్శకాలను విస్మరించాను, ఫలితంగా నా IP బ్లాక్ చేయబడింది-నేను మర్చిపోలేని పాఠం! సమర్థవంతమైన మరియు బాధ్యతాయుతమైన డేటా సేకరణను నిర్ధారించడానికి ఎల్లప్పుడూ ఈ అంశాలను పరిగణించండి. 🌟
పైథాన్తో వెబ్ స్క్రాపింగ్ గురించి తరచుగా అడిగే ప్రశ్నలు
- పైథాన్లో HTMLని అన్వయించడానికి ఉత్తమ లైబ్రరీ ఏది?
- అందమైన సూప్ HTML పార్సింగ్ కోసం అత్యంత ప్రజాదరణ పొందిన లైబ్రరీలలో ఒకటి, స్థిరమైన వెబ్పేజీలో మూలకాలను గుర్తించడానికి సులభమైన పద్ధతులను అందిస్తోంది.
- JavaScript ద్వారా అందించబడిన కంటెంట్ను నేను ఎలా స్క్రాప్ చేయగలను?
- మీరు వంటి సాధనాలను ఉపయోగించవచ్చు Selenium, ఇది వినియోగదారు పరస్పర చర్యలను అనుకరిస్తుంది మరియు బ్రౌజర్లో డైనమిక్గా ఎలిమెంట్లు లోడ్ అయ్యే వరకు వేచి ఉంటుంది.
- స్క్రాపింగ్ కోసం సరైన HTML మూలకాలను నేను ఎలా గుర్తించగలను?
- మీ బ్రౌజర్ డెవలపర్ సాధనాలను ఉపయోగించి, మీరు దీన్ని తనిఖీ చేయవచ్చు DOM structure మరియు మీకు అవసరమైన అంశాలకు సంబంధించిన ట్యాగ్లు, IDలు లేదా తరగతి పేర్లను గుర్తించండి.
- HTMLని అన్వయించకుండా డేటాను స్క్రాప్ చేయడం సాధ్యమేనా?
- అవును, వెబ్సైట్లో API ఉంటే, మీరు నేరుగా లైబ్రరీలను ఉపయోగించి నిర్మాణాత్మక డేటాను అభ్యర్థించవచ్చు requests లేదా httpx.
- స్క్రాప్ చేస్తున్నప్పుడు నేను బ్లాక్ చేయబడకుండా ఎలా నివారించగలను?
- వంటి శీర్షికలను ఉపయోగించండి "User-Agent" నిజమైన వినియోగదారులను అనుకరించడానికి, అభ్యర్థనల మధ్య జాప్యాలను జోడించండి మరియు సైట్ యొక్క robots.txt ఫైల్ను గౌరవించండి.
ఎఫెక్టివ్ వెబ్ స్క్రాపింగ్ కోసం కీలకమైన అంశాలు
డేటాను సమర్ధవంతంగా సేకరించడానికి వెబ్ స్క్రాపింగ్ అనేది ఒక ముఖ్యమైన నైపుణ్యం, అయితే దీనికి వెబ్సైట్ ఆకృతికి సరిపోయేలా మీ విధానాన్ని స్వీకరించడం అవసరం. కలపడం ద్వారా అందమైన సూప్ HTML పార్సింగ్ మరియు డైనమిక్ పేజీల కోసం సెలీనియం వంటి సాధనాల కోసం, మీరు డేటా వెలికితీతలో చాలా సాధారణ అడ్డంకులను అధిగమించవచ్చు.
జావాస్క్రిప్ట్ రెండరింగ్ లేదా API ముగింపు పాయింట్ల వంటి లక్ష్య సైట్ యొక్క సూక్ష్మ నైపుణ్యాలను అర్థం చేసుకోవడం విజయానికి కీలకం. బ్లాక్ చేయబడకుండా ఉండటానికి అభ్యర్థనలను త్రోసిపుచ్చడం వంటి నైతిక పద్ధతులను ఎల్లప్పుడూ అనుసరించండి. పట్టుదల మరియు సరైన సాధనాలతో, క్లిష్టమైన స్క్రాపింగ్ ప్రాజెక్ట్లు కూడా నిర్వహించదగినవి మరియు బహుమతిగా మారుతాయి. 🚀
మూలాలు మరియు సూచనలు
- కోసం అధికారిక డాక్యుమెంటేషన్ అందమైన సూప్ , HTML మరియు XML పత్రాలను అన్వయించడానికి ఉపయోగించే పైథాన్ లైబ్రరీ.
- నుండి మార్గదర్శకాలు మరియు ఉత్తమ అభ్యాసాలు సెలీనియం డాక్యుమెంటేషన్ , ఇది డైనమిక్ కంటెంట్ కోసం బ్రౌజర్ చర్యలను ఆటోమేట్ చేయడంలో అంతర్దృష్టులను అందిస్తుంది.
- మధ్యాహ్నం నుండి అంతర్దృష్టులు ఇ-కామర్స్ వేదిక , ఈ వెబ్ స్క్రాపింగ్ టాస్క్ కోసం లక్ష్యం చేయబడిన నిర్దిష్ట వెబ్సైట్.
- కమ్యూనిటీ సైట్ నుండి పైథాన్ అభ్యర్థనలు మరియు API నిర్వహణను ఉపయోగించడం కోసం సాంకేతికతలు నిజమైన పైథాన్ .
- అదనపు వ్యూహాలు మరియు నైతిక స్క్రాపింగ్ పద్ధతులు డేటా సైన్స్ వైపు .