పాండాస్ డేటాఫ్రేమ్లలో వరుసలను వడపోత
పాండాస్ అనేది డేటా మానిప్యులేషన్ మరియు విశ్లేషణ కోసం పైథాన్లోని శక్తివంతమైన లైబ్రరీ. SQL యొక్క SELECT * FROM టేబుల్ WHERE column_name = some_value లాంటి కాలమ్ విలువల ఆధారంగా డేటాఫ్రేమ్ నుండి అడ్డు వరుసలను ఎంచుకోవడం ఒక సాధారణ పని.
ఈ గైడ్ పాండాస్లో దీన్ని సాధించడానికి వివిధ పద్ధతుల ద్వారా మిమ్మల్ని నడిపిస్తుంది, మీ డేటాను సమర్థవంతంగా ఫిల్టర్ చేయడం సులభం చేస్తుంది. మీరు అనుభవశూన్యుడు లేదా అనుభవజ్ఞుడైన వినియోగదారు అయినా, ఈ చిట్కాలు మీ డేటా నిర్వహణ నైపుణ్యాలను మెరుగుపరుస్తాయి.
| ఆదేశం | వివరణ |
|---|---|
| pd.DataFrame(data) | డేటా నిఘంటువు నుండి డేటాఫ్రేమ్ను సృష్టిస్తుంది. |
| df[column_name] | పేరు ద్వారా డేటాఫ్రేమ్లోని నిలువు వరుసను యాక్సెస్ చేస్తుంది. |
| df[condition] | నిలువు వరుసకు వర్తించే షరతు ఆధారంగా డేటాఫ్రేమ్ను ఫిల్టర్ చేస్తుంది. |
| print(selected_rows) | డేటాఫ్రేమ్ లేదా దాని ఉపసమితిని కన్సోల్కు ప్రింట్ చేస్తుంది. |
| df[df['Age'] >df[df['Age'] > 25] | 'వయస్సు' నిలువు వరుస విలువలు 25 కంటే ఎక్కువ ఉన్న అడ్డు వరుసలను ఎంచుకుంటుంది. |
| df[df['City'] == 'Chicago'] | 'సిటీ' నిలువు వరుస విలువలు 'చికాగో'కి సమానంగా ఉన్న అడ్డు వరుసలను ఎంచుకుంటుంది. |
పాండాస్లో డేటాఫ్రేమ్ వరుస ఎంపికను అర్థం చేసుకోవడం
అందించిన స్క్రిప్ట్లు పైథాన్లోని పాండాస్ లైబ్రరీని ఉపయోగించి కాలమ్ విలువల ఆధారంగా డేటాఫ్రేమ్ నుండి అడ్డు వరుసలను ఎలా ఎంచుకోవాలో ప్రదర్శిస్తాయి. తో పాండాస్ లైబ్రరీని దిగుమతి చేసుకోవడం ద్వారా మొదటి స్క్రిప్ట్ ప్రారంభమవుతుంది import pandas as pd ఆదేశం. ఇది డేటా యొక్క నిఘంటువును ఉపయోగించి నమూనా డేటాఫ్రేమ్ను సృష్టిస్తుంది, ఇది డేటాఫ్రేమ్గా మార్చబడుతుంది pd.DataFrame(data) ఆదేశం. స్క్రిప్ట్ అడ్డు వరుస ఎంపిక కోసం రెండు పద్ధతులను వివరిస్తుంది: 'వయస్సు' నిలువు వరుస విలువ 25 కంటే ఎక్కువగా ఉన్న అడ్డు వరుసలను ఎంచుకోవడం df[df['Age'] > 25], మరియు 'సిటీ' కాలమ్ విలువ 'చికాగో' ఉన్న అడ్డు వరుసలను ఎంచుకోవడం df[df['City'] == 'Chicago']. ఈ ఫిల్టర్ చేయబడిన డేటాఫ్రేమ్లు ఉపయోగించి ముద్రించబడతాయి print() ఎంచుకున్న అడ్డు వరుసలను ప్రదర్శించడానికి ఫంక్షన్.
రెండవ స్క్రిప్ట్ ఒకే విధమైన నిర్మాణాన్ని అనుసరిస్తుంది కానీ విభిన్న డేటా మరియు ఎంపిక ప్రమాణాలను ఉపయోగిస్తుంది. ఇది 'ఉత్పత్తి', 'ధర' మరియు 'స్టాక్' నిలువు వరుసలతో సహా ఉత్పత్తి సమాచారంతో డేటాఫ్రేమ్ను సృష్టిస్తుంది. 'ధర' 200 కంటే తక్కువ లేదా సమానంగా ఉన్న చోట అడ్డు వరుసలు ఎంపిక చేయబడతాయి df[df['Price'] <= 200], మరియు 'స్టాక్' 40 కంటే ఎక్కువ వినియోగిస్తున్న చోట df[df['Stock'] > 40]. ఈ స్క్రిప్ట్ల యొక్క ఉద్దేశ్యం నిర్దిష్ట పరిస్థితుల ఆధారంగా డేటాఫ్రేమ్ అడ్డు వరుసలను ఎలా ఫిల్టర్ చేయాలో చూపడం, అలాగే మీరు నిలువు వరుస విలువ ఆధారంగా పట్టిక నుండి అడ్డు వరుసలను ఎంచుకోవడానికి SQL ప్రశ్నను ఎలా ఉపయోగిస్తారో అదే విధంగా ఉంటుంది. ఈ ఆదేశాలను అర్థం చేసుకోవడం మరియు వర్తింపజేయడం ద్వారా, మీరు మీ డేటాఫ్రేమ్లలో డేటాను సమర్ధవంతంగా మార్చవచ్చు మరియు విశ్లేషించవచ్చు.
పాండాస్లోని కాలమ్ విలువలను ఉపయోగించి డేటాఫ్రేమ్లో అడ్డు వరుసలను ఎంచుకోవడం
పాండాస్ లైబ్రరీతో పైథాన్
# Importing the necessary libraryimport pandas as pd# Creating a sample DataFramedata = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],'Age': [24, 27, 22, 32, 29],'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix']}df = pd.DataFrame(data)# Selecting rows where Age is greater than 25selected_rows = df[df['Age'] > 25]print(selected_rows)# Selecting rows where City is 'Chicago'chicago_rows = df[df['City'] == 'Chicago']print(chicago_rows)
కాలమ్ ప్రమాణాల ఆధారంగా డేటాఫ్రేమ్లో డేటాను ఫిల్టర్ చేయడం
పాండాస్ లైబ్రరీతో పైథాన్
# Importing pandas libraryimport pandas as pd# Creating a sample DataFramedata = {'Product': ['A', 'B', 'C', 'D', 'E'],'Price': [100, 150, 200, 250, 300],'Stock': [30, 60, 90, 20, 50]}df = pd.DataFrame(data)# Selecting rows where Price is less than or equal to 200affordable_products = df[df['Price'] <= 200]print(affordable_products)# Selecting rows where Stock is more than 40in_stock = df[df['Stock'] > 40]print(in_stock)
పాండాస్లో డేటాఫ్రేమ్ వరుసలను ఎంచుకోవడానికి అధునాతన సాంకేతికతలు
బూలియన్ ఇండెక్సింగ్ని ఉపయోగించి ప్రాథమిక ఫిల్టరింగ్తో పాటు, కాలమ్ విలువల ఆధారంగా అడ్డు వరుసలను ఎంచుకోవడానికి పాండాస్ అధునాతన పద్ధతులను అందిస్తుంది. ఒక శక్తివంతమైన పద్ధతిని ఉపయోగించడం query() ఫంక్షన్, ఇది ప్రశ్న వ్యక్తీకరణతో అడ్డు వరుసలను ఫిల్టర్ చేయడానికి మిమ్మల్ని అనుమతిస్తుంది, సింటాక్స్ క్లీనర్ మరియు తరచుగా మరింత స్పష్టమైనదిగా చేస్తుంది. ఉదాహరణకు, ఉపయోగించడానికి బదులుగా df[df['Age'] > 25], మీరు వ్రాయవచ్చు df.query('Age > 25'). మరింత సంక్లిష్టమైన పరిస్థితులతో వ్యవహరించేటప్పుడు లేదా నిలువు వరుసల పేర్లు ఖాళీలను కలిగి ఉన్నప్పుడు ఈ పద్ధతి ప్రత్యేకంగా ఉపయోగపడుతుంది. అదనంగా, ది isin() మీరు విలువల జాబితా ఆధారంగా అడ్డు వరుసలను ఫిల్టర్ చేయాలనుకున్నప్పుడు ఫంక్షన్ ప్రయోజనకరంగా ఉంటుంది. ఉదాహరణకు, 'సిటీ' కాలమ్ విలువ 'చికాగో' లేదా 'న్యూయార్క్' ఉన్న అడ్డు వరుసలను ఎంచుకోవడానికి, మీరు ఉపయోగించవచ్చు df[df['City'].isin(['Chicago', 'New York'])].
మరొక సాంకేతికత కలిగి ఉంటుంది loc మరియు iloc సూచికలు. ది loc ఇండెక్సర్ అనేది లేబుల్-ఆధారితమైనది, ఇది వరుస లేబుల్లు మరియు నిలువు వరుస పేర్ల ఆధారంగా అడ్డు వరుసలను ఎంచుకోవడానికి మిమ్మల్ని అనుమతిస్తుంది. iloc పూర్ణాంకం-స్థాన-ఆధారితమైనది, అడ్డు వరుస మరియు నిలువు వరుస సంఖ్యల ద్వారా ఎంపికను ప్రారంభిస్తుంది. వేరొక నిలువు వరుసకు వర్తించే షరతు ఆధారంగా అడ్డు వరుసలను ఎంచుకోవడానికి ఈ సౌలభ్యం ప్రత్యేకంగా ఉపయోగపడుతుంది. ఉదాహరణకి, df.loc[df['Age'] > 25, 'Name'] 25 ఏళ్ల కంటే ఎక్కువ వయస్సు ఉన్న వ్యక్తుల పేర్లను అందిస్తుంది. ఈ పద్ధతులు పాండాస్లో డేటాను సమర్థవంతంగా నిర్వహించడానికి మరియు విశ్లేషించడానికి మీ టూల్కిట్ను విస్తరింపజేస్తాయి, మరింత చదవగలిగే మరియు నిర్వహించదగిన కోడ్ను అందిస్తాయి.
డేటాఫ్రేమ్ వరుసలను ఎంచుకోవడం గురించి సాధారణ ప్రశ్నలు మరియు సమాధానాలు
- బహుళ షరతుల ఆధారంగా నేను అడ్డు వరుసలను ఎలా ఎంచుకోగలను?
- మీరు ఉపయోగించవచ్చు query() వంటి లాజికల్ ఆపరేటర్లతో కండిషన్స్ ఫంక్షన్ లేదా మిళితం & మరియు |. ఉదాహరణకి, df[(df['Age'] > 25) & (df['City'] == 'Chicago')].
- నేను విలువల జాబితా ఆధారంగా అడ్డు వరుసలను ఫిల్టర్ చేయవచ్చా?
- అవును, ఉపయోగించండి isin() ఫంక్షన్. ఉదాహరణకి, df[df['City'].isin(['Chicago', 'New York'])].
- రెండింటిలో తేడా ఏంటి loc మరియు iloc?
- loc లేబుల్ ఆధారితమైనది, అయితే iloc పూర్ణాంకం-స్థాన-ఆధారితమైనది. వా డు loc అడ్డు వరుస/నిలువు వరుస లేబుల్లతో మరియు iloc అడ్డు వరుస/నిలువు వరుస సూచికలతో.
- అడ్డు వరుసలను ఫిల్టర్ చేస్తున్నప్పుడు నేను నిర్దిష్ట నిలువు వరుసలను ఎలా ఎంచుకోగలను?
- మీరు ఉపయోగించవచ్చు loc. ఉదాహరణకి, df.loc[df['Age'] > 25, ['Name', 'City']].
- అడ్డు వరుసలను ఎంచుకున్నప్పుడు తప్పిపోయిన విలువలను నేను ఎలా నిర్వహించగలను?
- ఉపయోగించడానికి dropna() తప్పిపోయిన విలువలతో అడ్డు వరుసలను తీసివేయడానికి ఫంక్షన్, లేదా fillna() వాటిని నిర్దిష్ట విలువతో భర్తీ చేయడానికి.
- అడ్డు వరుసలను ఫిల్టర్ చేయడానికి నేను సాధారణ వ్యక్తీకరణలను ఉపయోగించవచ్చా?
- అవును, ది str.contains() తో ఫంక్షన్ regex=True పరామితి regex నమూనాల ఆధారంగా అడ్డు వరుసలను ఫిల్టర్ చేయడానికి మిమ్మల్ని అనుమతిస్తుంది. ఉదాహరణకి, df[df['Name'].str.contains('^A', regex=True)].
- సూచిక ఆధారంగా అడ్డు వరుసలను ఎలా ఫిల్టర్ చేయాలి?
- మీరు ఉపయోగించవచ్చు loc సూచిక పేరుతో. ఉదాహరణకి, df.loc[df.index == 'some_index'].
- నా నిలువు వరుస పేర్లలో ఖాళీలు లేదా ప్రత్యేక అక్షరాలు ఉంటే ఏమి చేయాలి?
- ఉపయోగించడానికి query() బ్యాక్టిక్లతో అటువంటి కాలమ్ పేర్లను నిర్వహించగల ఫంక్షన్. ఉదాహరణకి, df.query('`column name` == value').
డేటాఫ్రేమ్ వరుస ఎంపిక సాంకేతికతలపై తుది ఆలోచనలు
పాండాస్లోని కాలమ్ విలువల ఆధారంగా డేటాఫ్రేమ్ నుండి అడ్డు వరుసలను ఎంచుకోవడం అనేది డేటా మానిప్యులేషన్కు కీలకమైన నైపుణ్యం. బూలియన్ ఇండెక్సింగ్తో సహా వివిధ పద్ధతులు చర్చించబడ్డాయి, query(), isin(), మరియు లేబుల్-ఆధారిత మరియు పూర్ణాంకం-స్థాన-ఆధారిత ఇండెక్సింగ్ loc మరియు iloc, డేటాను సమర్థవంతంగా ఫిల్టర్ చేయడానికి శక్తివంతమైన సాధనాలను అందించండి. ఈ టెక్నిక్ల నైపుణ్యం మెరుగైన డేటా విశ్లేషణ మరియు క్లీనర్, మరింత మెయింటెనబుల్ కోడ్ని అనుమతిస్తుంది.