பாண்டாஸ் டேட்டாஃப்ரேம்களில் வரிசைகளை வடிகட்டுதல்
Pandas என்பது தரவு கையாளுதல் மற்றும் பகுப்பாய்விற்கான பைத்தானில் உள்ள சக்திவாய்ந்த நூலகமாகும். SQL இன் SELECT * FROM அட்டவணையில் உள்ள இடம் column_name = some_value போன்ற நெடுவரிசை மதிப்புகளின் அடிப்படையில் DataFrame இலிருந்து வரிசைகளைத் தேர்ந்தெடுப்பது பொதுவான பணியாகும்.
இந்த வழிகாட்டி Pandas இல் இதை அடைய பல்வேறு முறைகள் மூலம் உங்களை அழைத்துச் செல்லும், உங்கள் தரவை திறமையாக வடிகட்டுவதை எளிதாக்குகிறது. நீங்கள் ஒரு தொடக்கநிலை அல்லது அனுபவம் வாய்ந்த பயனராக இருந்தாலும், இந்த உதவிக்குறிப்புகள் உங்கள் தரவு கையாளும் திறனை மேம்படுத்தும்.
கட்டளை | விளக்கம் |
---|---|
pd.DataFrame(data) | தரவு அகராதியிலிருந்து DataFrame ஐ உருவாக்குகிறது. |
df[column_name] | DataFrame இல் ஒரு நெடுவரிசையை பெயரால் அணுகுகிறது. |
df[condition] | நெடுவரிசையில் பயன்படுத்தப்படும் நிபந்தனையின் அடிப்படையில் DataFrame ஐ வடிகட்டுகிறது. |
print(selected_rows) | DataFrame அல்லது அதன் துணைக்குழுவை கன்சோலில் அச்சிடுகிறது. |
df[df['Age'] >df[df['Age'] > 25] | 'வயது' நெடுவரிசை மதிப்புகள் 25ஐ விட அதிகமாக இருக்கும் வரிசைகளைத் தேர்ந்தெடுக்கும். |
df[df['City'] == 'Chicago'] | 'சிட்டி' நெடுவரிசை மதிப்புகள் 'சிகாகோ' க்கு சமமாக இருக்கும் வரிசைகளைத் தேர்ந்தெடுக்கிறது. |
பாண்டாஸில் டேட்டாஃப்ரேம் வரிசைத் தேர்வைப் புரிந்துகொள்வது
பைத்தானில் உள்ள பாண்டாஸ் லைப்ரரியைப் பயன்படுத்தி நெடுவரிசை மதிப்புகளின் அடிப்படையில் டேட்டாஃப்ரேமில் இருந்து வரிசைகளை எவ்வாறு தேர்ந்தெடுப்பது என்பதை வழங்கப்பட்ட ஸ்கிரிப்டுகள் விளக்குகின்றன. முதல் ஸ்கிரிப்ட் பாண்டாஸ் நூலகத்தை இறக்குமதி செய்வதன் மூலம் தொடங்குகிறது கட்டளை. இது தரவுகளின் அகராதியைப் பயன்படுத்தி ஒரு மாதிரி DataFrame ஐ உருவாக்குகிறது, இது DataFrame ஆக மாற்றப்படுகிறது. கட்டளை. ஸ்கிரிப்ட் வரிசையைத் தேர்ந்தெடுப்பதற்கான இரண்டு முறைகளை விளக்குகிறது: 'வயது' நெடுவரிசை மதிப்பு 25 ஐ விட அதிகமாக இருக்கும் வரிசைகளைத் தேர்ந்தெடுப்பது , மற்றும் 'சிட்டி' நெடுவரிசை மதிப்பு 'சிகாகோ' என இருக்கும் வரிசைகளைத் தேர்ந்தெடுக்கவும் df[df['City'] == 'Chicago']. இந்த வடிகட்டப்பட்ட DataFrames ஐப் பயன்படுத்தி அச்சிடப்படுகிறது தேர்ந்தெடுக்கப்பட்ட வரிசைகளைக் காண்பிக்கும் செயல்பாடு.
இரண்டாவது ஸ்கிரிப்ட் ஒரே மாதிரியான கட்டமைப்பைப் பின்பற்றுகிறது, ஆனால் வெவ்வேறு தரவு மற்றும் தேர்வு அளவுகோல்களைப் பயன்படுத்துகிறது. இது 'தயாரிப்பு', 'விலை' மற்றும் 'பங்கு' நெடுவரிசைகள் உள்ளிட்ட தயாரிப்புத் தகவலுடன் ஒரு DataFrame ஐ உருவாக்குகிறது. 'விலை' 200ஐ விட குறைவாகவோ அல்லது அதற்கு சமமாகவோ இருந்தால் வரிசைகள் தேர்ந்தெடுக்கப்படும்
பாண்டாஸில் டேட்டாஃப்ரேம் வரிசைகளைத் தேர்ந்தெடுப்பதற்கான மேம்பட்ட நுட்பங்கள்
பூலியன் அட்டவணையைப் பயன்படுத்தி அடிப்படை வடிகட்டலைத் தவிர, நெடுவரிசை மதிப்புகளின் அடிப்படையில் வரிசைகளைத் தேர்ந்தெடுப்பதற்கான மேம்பட்ட நுட்பங்களை பாண்டாஸ் வழங்குகிறது. ஒரு சக்திவாய்ந்த முறை பயன்படுத்தப்படுகிறது செயல்பாடு, இது ஒரு வினவல் வெளிப்பாட்டுடன் வரிசைகளை வடிகட்ட உங்களை அனுமதிக்கிறது, தொடரியல் சுத்தமாகவும் பெரும்பாலும் உள்ளுணர்வுடன் இருக்கும். உதாரணமாக, பயன்படுத்துவதற்கு பதிலாக , நீங்கள் எழுதலாம் . மிகவும் சிக்கலான நிலைமைகளைக் கையாளும் போது அல்லது நெடுவரிசைப் பெயர்கள் இடைவெளிகளைக் கொண்டிருக்கும் போது இந்த முறை மிகவும் பயனுள்ளதாக இருக்கும். கூடுதலாக, தி isin() மதிப்புகளின் பட்டியலின் அடிப்படையில் வரிசைகளை வடிகட்ட விரும்பும் போது செயல்பாடு பயனுள்ளதாக இருக்கும். எடுத்துக்காட்டாக, 'சிட்டி' நெடுவரிசை மதிப்பு 'சிகாகோ' அல்லது 'நியூயார்க்' ஆக இருக்கும் வரிசைகளைத் தேர்ந்தெடுக்க, நீங்கள் பயன்படுத்தலாம் .
மற்றொரு நுட்பம் இதில் அடங்கும் மற்றும் குறியீட்டாளர்கள். தி குறியீட்டு லேபிள் அடிப்படையிலானது, வரிசை லேபிள்கள் மற்றும் நெடுவரிசைப் பெயர்களின் அடிப்படையில் வரிசைகளைத் தேர்ந்தெடுக்க உங்களை அனுமதிக்கிறது. iloc முழு எண்-இருப்பிட அடிப்படையிலானது, வரிசை மற்றும் நெடுவரிசை எண்கள் மூலம் தேர்வை செயல்படுத்துகிறது. வேறு நெடுவரிசையில் பயன்படுத்தப்படும் நிபந்தனையின் அடிப்படையில் வரிசைகளைத் தேர்ந்தெடுப்பதற்கு இந்த நெகிழ்வுத்தன்மை மிகவும் பயனுள்ளதாக இருக்கும். உதாரணமாக, 25 வயதுக்கு மேற்பட்ட நபர்களின் பெயர்களை வழங்கும். இந்த முறைகள் பாண்டாஸில் தரவை திறமையாக கையாளவும் பகுப்பாய்வு செய்யவும் உங்கள் கருவித்தொகுப்பை விரிவுபடுத்துகிறது, மேலும் படிக்கக்கூடிய மற்றும் பராமரிக்கக்கூடிய குறியீட்டை வழங்குகிறது.
- பல நிபந்தனைகளின் அடிப்படையில் வரிசைகளை எவ்வாறு தேர்வு செய்வது?
- நீங்கள் பயன்படுத்தலாம் போன்ற தருக்க ஆபரேட்டர்களுடன் செயல்பாடு அல்லது நிபந்தனைகளை இணைக்கவும் மற்றும் . உதாரணத்திற்கு, df[(df['Age'] > 25) & (df['City'] == 'Chicago')].
- மதிப்புகளின் பட்டியலின் அடிப்படையில் வரிசைகளை வடிகட்ட முடியுமா?
- ஆம், பயன்படுத்தவும் செயல்பாடு. உதாரணமாக, .
- என்ன வித்தியாசம் மற்றும் ?
- லேபிள் அடிப்படையிலானது முழு எண்-இருப்பிடத்தை அடிப்படையாகக் கொண்டது. பயன்படுத்தவும் வரிசை/நெடுவரிசை லேபிள்கள் மற்றும் iloc வரிசை/நெடுவரிசை குறியீடுகளுடன்.
- வரிசைகளை வடிகட்டும்போது குறிப்பிட்ட நெடுவரிசைகளை எவ்வாறு தேர்ந்தெடுக்கலாம்?
- நீங்கள் பயன்படுத்தலாம் . உதாரணத்திற்கு, .
- வரிசைகளைத் தேர்ந்தெடுக்கும்போது விடுபட்ட மதிப்புகளை எவ்வாறு கையாள்வது?
- பயன்படுத்த விடுபட்ட மதிப்புகளுடன் வரிசைகளை அகற்றுவதற்கான செயல்பாடு அல்லது ஒரு குறிப்பிட்ட மதிப்புடன் அவற்றை மாற்றவும்.
- வரிசைகளை வடிகட்ட வழக்கமான வெளிப்பாடுகளைப் பயன்படுத்தலாமா?
- ஆம், தி உடன் செயல்பாடு regex வடிவங்களின் அடிப்படையில் வரிசைகளை வடிகட்ட அளவுரு உங்களை அனுமதிக்கிறது. உதாரணத்திற்கு, .
- குறியீட்டின் அடிப்படையில் வரிசைகளை வடிகட்டுவது எப்படி?
- நீங்கள் பயன்படுத்தலாம் குறியீட்டு பெயருடன். உதாரணத்திற்கு, .
- எனது நெடுவரிசைப் பெயர்களில் இடைவெளிகள் அல்லது சிறப்பு எழுத்துகள் இருந்தால் என்ன செய்வது?
- பயன்படுத்த அத்தகைய நெடுவரிசை பெயர்களை பேக்டிக்குகளுடன் கையாளக்கூடிய செயல்பாடு. உதாரணத்திற்கு, .
DataFrame வரிசை தேர்வு நுட்பங்கள் பற்றிய இறுதி எண்ணங்கள்
Pandas இல் உள்ள நெடுவரிசை மதிப்புகளின் அடிப்படையில் DataFrame இலிருந்து வரிசைகளைத் தேர்ந்தெடுப்பது தரவு கையாளுதலுக்கான ஒரு முக்கியமான திறமையாகும். பூலியன் அட்டவணைப்படுத்தல் உட்பட பல்வேறு முறைகள் விவாதிக்கப்பட்டன, , , மற்றும் லேபிள் அடிப்படையிலான மற்றும் முழு எண்-இருப்பிட அடிப்படையிலான அட்டவணைப்படுத்தல் மற்றும் iloc, தரவை திறம்பட வடிகட்டுவதற்கு சக்திவாய்ந்த கருவிகளை வழங்கவும். இந்த நுட்பங்களின் தேர்ச்சி சிறந்த தரவு பகுப்பாய்வு மற்றும் தூய்மையான, மேலும் பராமரிக்கக்கூடிய குறியீட்டை செயல்படுத்துகிறது.