அன்றாட மொழி வடிவங்களின் குறியீட்டை உடைத்தல்
தினசரி உரையாடல்களில் சில வார்த்தைகளை மற்றவர்களை விட பொதுவானதாக மாற்றுவது எது என்று நீங்கள் எப்போதாவது யோசித்திருக்கிறீர்களா? மொழி ஆர்வலர்கள் அல்லது டெவலப்பர்களுக்கு, அடிக்கடி பயன்படுத்தப்படும் வார்த்தைகளை குறிப்பது கவர்ச்சிகரமானதாகவும் சவாலாகவும் இருக்கும். நீங்கள் உருவாக்கிய தனிப்பயன் அகராதியைப் பயன்படுத்தும்போது இந்த செயல்முறை இன்னும் புதிரானதாக மாறும். 🧩
"வெப்பமான நாளில் குளிர்ச்சியான தண்ணீரைக் குடித்து மகிழ்கிறேன்" போன்ற ஒரு வாக்கியம் உங்களிடம் இருப்பதாகக் கற்பனை செய்துகொள்ளுங்கள், மேலும் வழக்கமான உரையாடல்களில் அதிகம் பயன்படுத்தப்படும் வார்த்தையைத் தீர்மானிக்க வேண்டும். அன்றாட பேச்சு முறைகளுடன் எதிரொலிப்பதால், பதில் "நீர்" என்று இருக்கலாம். ஆனால் பைதான் போன்ற நிரலாக்க கருவிகளைப் பயன்படுத்தி இதை எவ்வாறு பெறுவது? இயக்கவியலில் ஆழமாக மூழ்குவோம். 🐍
NLTK போன்ற நூலகங்கள் உரை பகுப்பாய்விற்கு சிறந்தவை என்றாலும், இந்த குறிப்பிட்ட தேவையை நிவர்த்தி செய்வதற்கான நேரடி செயல்பாட்டைக் கண்டறிவது மழுப்பலாக இருக்கும். செயல்முறையை மிகைப்படுத்தாமல் கையேடு தர்க்கம் மற்றும் தானியங்கு தீர்வுகளை சமநிலைப்படுத்துவதில் சவால் உள்ளது. AI அல்லது கணக்கீட்டு மொழியியலுக்குப் புதியவர்களுக்கு, இலக்கு பெரும்பாலும் தெளிவு மற்றும் எளிமை.
உங்கள் அகராதியில் இருந்து பிரபலமான சொற்களை எவ்வாறு திறமையாக அடையாளம் காண்பது என்பதை இந்தக் கட்டுரை ஆராய்கிறது. நீங்கள் ஒரு வார்த்தை யூகிக்கும் விளையாட்டை உருவாக்கினாலும் அல்லது மொழியியல் போக்குகளைப் பற்றி ஆர்வமாக இருந்தாலும், இந்த வழிகாட்டி பணியைச் சமாளிப்பதற்கான நடைமுறை முறைகளை உங்களுக்கு வழங்கும். 🚀
| கட்டளை | பயன்பாட்டின் உதாரணம் |
|---|---|
| nltk.download('stopwords') | ஸ்டாப்வேர்டு பட்டியல் போன்ற தேவையான NLTK தரவு பயன்பாட்டிற்கு இருப்பதை உறுதி செய்கிறது. பதிவிறக்கம் செய்யாமல், ஸ்டாப்வேர்ட்ஸ் தொகுதி பிழையை ஏற்படுத்தலாம். |
| nltk.word_tokenize(text) | உள்ளீட்டு உரையை தனிப்பட்ட சொற்களாக டோக்கனைஸ் செய்கிறது, ஒவ்வொரு வார்த்தையையும் தனித்தனியாக பகுப்பாய்வு செய்வதை அல்லது கையாளுவதை எளிதாக்குகிறது. |
| set(stopwords.words('english')) | "தி," "மற்றும்," மற்றும் "ஆன்" போன்ற பகுப்பாய்விலிருந்து விலக்குவதற்கான பொதுவான ஆங்கில நிறுத்த வார்த்தைகளின் தொகுப்பை உருவாக்குகிறது. |
| Counter(filtered_words) | வடிகட்டப்பட்ட சொற்களுக்கு அதிர்வெண் விநியோகத்தை உருவாக்குகிறது, இது மிகவும் பொதுவான வார்த்தையை விரைவாக அடையாளம் காண அனுமதிக்கிறது. |
| most_common = word_counts.most_common(1) | எதிர் பொருளில் இருந்து மேல் உள்ளீட்டை மீட்டெடுப்பதன் மூலம் தரவுத்தொகுப்பில் அடிக்கடி வரும் ஒற்றைச் சொல்லைக் கண்டறியும். |
| filtered_words.count(word) | தூய பைதான் அணுகுமுறையில் பயன்படுத்தப்படும் வடிகட்டப்பட்ட சொற்களின் பட்டியலில் ஒரு குறிப்பிட்ட வார்த்தையின் நிகழ்வுகளைக் கணக்கிடுகிறது. |
| max(word_counts, key=word_counts.get) | அதிக அதிர்வெண் மதிப்பைக் கொண்ட அகராதியில் விசையை (சொல்லை) கண்டறிகிறது. |
| pipeline("summarization") | ஹக்கிங் ஃபேஸ் டிரான்ஸ்ஃபார்மர்களைப் பயன்படுத்தி உரை சுருக்க மாதிரியைத் துவக்குகிறது, முக்கிய புள்ளிகளுக்கு உரையை ஒடுக்குவது போன்ற மேம்பட்ட NLP பணிகளை அனுமதிக்கிறது. |
| do_sample=False | சுருக்கமாக்கல் செயல்பாட்டில் சீரற்ற மாதிரியைத் தவிர்த்து, நிர்ணயிக்கும் வெளியீட்டை உருவாக்க சுருக்கமாக்கல் மாதிரியை அறிவுறுத்துகிறது. |
| summary[0]['summary_text'] | மேலும் பகுப்பாய்விற்காக ஹக்கிங் ஃபேஸ் சுருக்கமாக்கல் பைப்லைனிலிருந்து சுருக்கப்பட்ட உரை வெளியீட்டை அணுகுகிறது. |
பிரபலமான சொற்களைக் கண்டறியும் முறைகளை உடைத்தல்
முதல் ஸ்கிரிப்ட்டில், ஒரு உரையில் அடிக்கடி பயன்படுத்தப்படும் சொற்களை அடையாளம் காண NLTK நூலகத்தின் ஆற்றலைப் பயன்படுத்தினோம். `word_tokenize` ஐப் பயன்படுத்தி உள்ளீட்டு வாக்கியத்தை தனிப்பட்ட வார்த்தைகளில் டோக்கனைஸ் செய்வதன் மூலம் செயல்முறை தொடங்குகிறது. இந்தப் படியானது மேலும் பகுப்பாய்விற்காக உரையை நிர்வகிக்கக்கூடிய பகுதிகளாகப் பிரிக்கிறது. முக்கியமில்லாத சொற்களை வடிகட்ட, NLTK இலிருந்து `நிறுத்த வார்த்தைகள்` பட்டியலைப் பயன்படுத்தினோம், இதில் "the" மற்றும் "on" போன்ற பொதுவான ஆங்கிலச் சொற்கள் அடங்கும். இவற்றை நீக்குவதன் மூலம், அர்த்தமுள்ள தகவலைக் கொண்டு செல்லும் வார்த்தைகளில் கவனம் செலுத்துகிறோம். எடுத்துக்காட்டாக, "சூடான நாளில் குளிர்ந்த கிளாஸ் தண்ணீரை நான் அனுபவிக்கிறேன்" என்ற வாக்கியத்தில், "மகிழ்ச்சி", "குளிர்" மற்றும் "தண்ணீர்" போன்ற வார்த்தைகளை விட்டுவிட்டு, நிறுத்த வார்த்தைகள் விலக்கப்பட்டுள்ளன. இந்த வடிகட்டுதல் செயல்முறை மிகவும் பொருத்தமான உள்ளடக்கத்தை முன்னிலைப்படுத்த உதவுகிறது. 🧠
அடுத்து, சேகரிப்பு தொகுதியிலிருந்து பைத்தானின் `கவுண்டர்` ஐப் பயன்படுத்தினோம். வடிகட்டப்பட்ட பட்டியலில் உள்ள ஒவ்வொரு வார்த்தையின் அதிர்வெண்ணையும் இந்த எளிமையான கருவி திறமையாக கணக்கிடுகிறது. வார்த்தை எண்ணிக்கைகள் கிடைத்தவுடன், `most_common` முறை அதன் அதிர்வெண்ணின் அடிப்படையில் மேல் சொல்லைப் பிரித்தெடுக்கிறது. இந்த வழக்கில், "தண்ணீர்" என்ற வார்த்தையானது தினசரி பயன்பாட்டின் கருத்துடன் எதிரொலிப்பதால் அது வெளியீடாக இருக்கலாம். சிறிய மற்றும் நடுத்தர அளவிலான தரவுத்தொகுப்புகளை பகுப்பாய்வு செய்வதற்கு இந்த முறை மிகவும் பயனுள்ளதாக இருக்கும் மற்றும் அதிக கணக்கீட்டு மேல்நிலை இல்லாமல் துல்லியமான முடிவுகளை உறுதி செய்கிறது. NLTKஐப் பயன்படுத்தி, செயல்பாட்டுடன் எளிமையைச் சமப்படுத்துகிறோம். 💡
இரண்டாவது ஸ்கிரிப்ட்டில், வெளிப்புற நூலகங்களைத் தவிர்த்து, தூய பைதான் அணுகுமுறையைத் தேர்ந்தெடுத்தோம். நூலகத்தை நிறுவுவது சாத்தியமில்லாத அல்லது எளிமையாக இருக்கும் சூழ்நிலைகளுக்கு இந்த முறை சிறந்தது. ஸ்டாப்வேர்டுகளின் தனிப்பயன் பட்டியலை வரையறுப்பதன் மூலம், நிரல் முக்கியமற்ற சொற்களை கைமுறையாக வடிகட்டுகிறது. எடுத்துக்காட்டாக, அதே வாக்கியத்தைச் செயலாக்கும்போது, "நான்," "ஆன்," மற்றும் "அ" ஆகியவற்றைத் தவிர்த்து, "கண்ணாடி" மற்றும் "நாள்" போன்ற வார்த்தைகளை மையப்படுத்துகிறது. வார்த்தை அதிர்வெண் பின்னர் அகராதி புரிதலைப் பயன்படுத்தி கணக்கிடப்படுகிறது, இது ஒவ்வொரு வார்த்தையின் நிகழ்வுகளையும் திறமையாக கணக்கிடுகிறது. இறுதியாக, `max` செயல்பாடு அதிக அதிர்வெண் கொண்ட வார்த்தையை அடையாளம் காட்டுகிறது. இந்த அணுகுமுறை இலகுரக மற்றும் தனிப்பயனாக்கக்கூடியது, தனிப்பட்ட தேவைகளுக்கு நெகிழ்வுத்தன்மையை வழங்குகிறது.
கடைசியாக, AI-உந்துதல் அணுகுமுறை மிகவும் மேம்பட்ட தீர்வுக்காக ஹக்கிங் ஃபேஸ் டிரான்ஸ்ஃபார்மர்ஸ் லைப்ரரியை அறிமுகப்படுத்தியது. முன் பயிற்சி பெற்ற சுருக்க மாதிரியைப் பயன்படுத்தி, ஸ்கிரிப்ட் உள்ளீட்டு உரையை சுருக்கி, அதன் முக்கிய யோசனைகளில் கவனம் செலுத்துகிறது. இந்த சுருக்கப்பட்ட உரை பின்னர் அடிக்கடி பயன்படுத்தப்படும் வார்த்தைகளுக்கு பகுப்பாய்வு செய்யப்படுகிறது. இந்த முறை அதிக கணக்கீட்டு வளங்களை உள்ளடக்கியிருந்தாலும், இது சூழல்-விழிப்புணர்வு முடிவுகளை வழங்குகிறது, இது சிக்கலான மொழி செயலாக்க பணிகளுக்கு ஏற்றதாக அமைகிறது. உதாரணமாக, "வெப்பமான நாளில் குளிர்ந்த கிளாஸ் தண்ணீரை நான் அனுபவிக்கிறேன்" என்று சுருக்கமாகச் சொன்னால், "நான் தண்ணீரை அனுபவிக்கிறேன்", அதன் முக்கியத்துவத்தை எடுத்துக்காட்டுகிறது. AI ஐ பாரம்பரிய முறைகளுடன் இணைப்பது எளிமை மற்றும் நுட்பத்தை இணைக்கிறது, டெவலப்பர்கள் பல்வேறு சவால்களை திறம்பட சமாளிக்க அனுமதிக்கிறது. 🚀
தனிப்பயன் தரவுத்தொகுப்பிலிருந்து ஆங்கிலத்தில் பொதுவாகப் பயன்படுத்தப்படும் சொற்களை எவ்வாறு தீர்மானிப்பது
இயற்கை மொழி செயலாக்கத்திற்காக பைதான் மற்றும் NLTK நூலகத்தைப் பயன்படுத்தி தீர்வு
# Import necessary librariesimport nltkfrom nltk.corpus import stopwordsfrom collections import Counter# Ensure NLTK data is availablenltk.download('stopwords')# Define the input texttext = "I enjoy a cold glass of water on a hot day"# Tokenize the text into wordswords = nltk.word_tokenize(text.lower())# Filter out stop wordsstop_words = set(stopwords.words('english'))filtered_words = [word for word in words if word.isalpha() and word not in stop_words]# Count word frequenciesword_counts = Counter(filtered_words)# Find the most common wordmost_common = word_counts.most_common(1)print("Most common word:", most_common[0][0])
ஒரு தூய பைதான் அணுகுமுறையுடன் பொதுவான சொற்களை அடையாளம் காணுதல்
எளிமைக்காக வெளிப்புற நூலகங்கள் இல்லாமல் பைத்தானைப் பயன்படுத்தும் தீர்வு
# Define the input texttext = "I enjoy a cold glass of water on a hot day"# Define stop wordsstop_words = {"i", "a", "on", "of", "the", "and"}# Split text into wordswords = text.lower().split()# Filter out stop wordsfiltered_words = [word for word in words if word not in stop_words]# Count word frequenciesword_counts = {word: filtered_words.count(word) for word in set(filtered_words)}# Find the most common wordmost_common = max(word_counts, key=word_counts.get)print("Most common word:", most_common)
இயந்திர கற்றல் அணுகுமுறையுடன் பொதுவான சொற்களை அடையாளம் காண AI ஐப் பயன்படுத்துதல்
பைத்தானைப் பயன்படுத்தும் தீர்வு மற்றும் ஹக்கிங் ஃபேஸ் டிரான்ஸ்ஃபார்மர்ஸ் லைப்ரரியுடன் கூடிய முன் பயிற்சி பெற்ற AI மொழி மாதிரி
# Import necessary librariesfrom transformers import pipeline# Initialize the language model pipelinesummarizer = pipeline("summarization")# Define the input texttext = "I enjoy a cold glass of water on a hot day"# Generate a summarysummary = summarizer(text, max_length=10, min_length=5, do_sample=False)# Analyze for most common terms in the summarysummary_text = summary[0]['summary_text']words = summary_text.split()word_counts = {word: words.count(word) for word in set(words)}# Find the most common wordmost_common = max(word_counts, key=word_counts.get)print("Most common word:", most_common)
உரை செயலாக்கத்தில் அதிர்வெண் பகுப்பாய்வை ஆய்வு செய்தல்
அகராதியில் மிகவும் பிரபலமான சொற்களைத் தீர்மானிப்பதில் அடிக்கடி கவனிக்கப்படாத ஒரு அம்சம் சொல் சூழல் மற்றும் மொழியியல் வடிவங்கள் ஆகியவற்றின் பங்கு ஆகும். தினசரி உரையாடலில் பிரபலமான சொற்கள் பெரும்பாலும் இணைப்பாளர்களாக செயல்படுகின்றன அல்லது விமர்சனக் கருத்துக்களை வெளிப்படுத்துகின்றன, ஆனால் அவற்றின் முக்கியத்துவம் பாடத்தின் அடிப்படையில் மாறுபடும். உதாரணமாக, ஒரு சமையல் உரையில், "செய்முறை" மற்றும் "பொருட்கள்" போன்ற சொற்கள் ஆதிக்கம் செலுத்தலாம், அதே நேரத்தில் விளையாட்டு எழுத்தில், "விளையாட்டு" அல்லது "குழு" போன்ற சொற்கள் முன்னுரிமை பெறுகின்றன. சூழலைப் புரிந்துகொள்வது, தேர்ந்தெடுக்கப்பட்ட முறைகள் உரையின் தனித்துவமான பண்புகளை திறம்பட பூர்த்தி செய்வதை உறுதி செய்கிறது. 🌟
மற்றொரு கருத்தில் நிறுத்த வார்த்தைகள். அர்த்தமுள்ள வார்த்தைகளில் கவனம் செலுத்துவதற்காக இவை பொதுவாக அகற்றப்பட்டாலும், அவை உரையின் கட்டமைப்பைப் பற்றிய நுண்ணறிவுகளை வழங்கும் சூழ்நிலைகள் உள்ளன. எடுத்துக்காட்டாக, உரையாடல்களை பகுப்பாய்வு செய்வதற்கு, இயல்பான உரையாடல் முறைகளைப் படிக்க பொதுவான நிறுத்துச் சொற்களைத் தக்கவைத்துக் கொள்ள வேண்டும். Python இன் `nltk` அல்லது AI-இயங்கும் மொழி மாதிரிகள் போன்ற மேம்பட்ட கருவிகள் குறிப்பிட்ட தேவைகளுக்கு ஏற்ப ஸ்டாப்வேர்டு கையாளுதலுக்கு உதவும், இது செயல்திறன் மற்றும் விவரங்களுக்கு இடையே சமநிலையை ஏற்படுத்துகிறது.
கடைசியாக, டைனமிக் அகராதிகளை செயல்படுத்துவது இந்த செயல்முறையை கணிசமாக மேம்படுத்தும். இந்த அகராதிகள் உள்ளீட்டின் அடிப்படையில் மாற்றியமைக்கப்படுகின்றன, காலப்போக்கில் அடிக்கடி அல்லது தனித்துவமான சொற்களுக்கு முன்னுரிமை அளிக்க கற்றுக்கொள்கின்றன. இந்த அணுகுமுறை சாட்போட்கள் அல்லது உரை அடிப்படையிலான கேம்கள் போன்ற நீண்ட கால திட்டங்களுக்கு மிகவும் மதிப்புமிக்கது, அங்கு பயனர் தொடர்புடன் மொழி உருவாகிறது. டைனமிக் அகராதி கணிப்புகள் அல்லது பரிந்துரைகளைச் செம்மைப்படுத்த உதவுகிறது, உண்மையான நேரத்தில் சிறந்த முடிவுகளை வழங்குகிறது. சூழல், ஸ்டாப்வேர்டுகள் மற்றும் டைனமிக் முறைகளை கவனமாகக் கருத்தில் கொண்டு, உரை அதிர்வெண் பகுப்பாய்வு ஒரு பல்துறை மற்றும் வலுவான கருவியாக மாறும். 🚀
பிரபலமான சொற்களை அடையாளம் காண்பது பற்றிய பொதுவான கேள்விகள்
- வார்த்தை அதிர்வெண்களை எண்ணுவதற்கான மிகச் சிறந்த வழி எது?
- பைத்தானைப் பயன்படுத்துதல் Counter சேகரிப்பு தொகுதியிலிருந்து ஒரு உரையில் வார்த்தை நிகழ்வுகளை எண்ணுவதற்கான மிகச் சிறந்த முறைகளில் ஒன்றாகும்.
- உரை பகுப்பாய்வில் நிறுத்தற்குறிகளை எவ்வாறு கையாள்வது?
- பைத்தானைப் பயன்படுத்துவதன் மூலம் நிறுத்தற்குறிகளை நீக்கலாம் str.isalpha() முறை அல்லது மிகவும் சிக்கலான நிகழ்வுகளுக்கு வழக்கமான வெளிப்பாடுகளைப் பயன்படுத்துதல்.
- கூடுதல் கோப்புகளைப் பதிவிறக்காமல் நான் NLTK ஐப் பயன்படுத்தலாமா?
- இல்லை, ஸ்டாப்வேர்டு அகற்றுதல் அல்லது டோக்கனைசேஷன் போன்ற பணிகளுக்கு, குறிப்பிட்ட ஆதாரங்களைப் பயன்படுத்தி பதிவிறக்கம் செய்ய வேண்டும் nltk.download().
- இந்தச் செயல்பாட்டில் AI மாதிரிகளை எவ்வாறு சேர்ப்பது?
- நீங்கள் ஹக்கிங் ஃபேஸ் டிரான்ஸ்ஃபார்மர்களைப் பயன்படுத்தலாம்' pipeline() பாரம்பரிய அதிர்வெண் எண்ணிக்கையைத் தாண்டிய வடிவங்களுக்கான உரையைச் சுருக்கி அல்லது பகுப்பாய்வு செய்யும் முறை.
- அதிர்வெண் பகுப்பாய்வில் சில பொதுவான குறைபாடுகள் யாவை?
- நிறுத்துச் சொற்கள் அல்லது சூழலைப் புறக்கணிப்பது முடிவுகளைத் திசைதிருப்பலாம். கூடுதலாக, வடிவங்களைத் தரநிலையாக்க உரையை முன்கூட்டியே செயலாக்காதது (எ.கா., சிற்றெழுத்து மாற்றம்) பிழைகளுக்கு வழிவகுக்கும்.
அதிர்வெண் பகுப்பாய்வின் முக்கிய குறிப்புகள்
ஒரு உரையில் அடிக்கடி பயன்படுத்தப்படும் சொற்களைப் புரிந்துகொள்வது, மொழி வடிவங்கள் மற்றும் தகவல்தொடர்பு போக்குகள் பற்றிய சிறந்த நுண்ணறிவுகளை அனுமதிக்கிறது. போன்ற கருவிகள் கவுண்டர் மற்றும் மாறும் அகராதிகள் துல்லியம் மற்றும் தகவமைப்புத் தன்மையை உறுதி செய்தல், தனிப்பட்ட திட்டத் தேவைகளைப் பூர்த்தி செய்தல்.
நீங்கள் கேம், சாட்போட் அல்லது பகுப்பாய்வு திட்டத்தில் பணிபுரிந்தாலும், AI அல்லது பைதான் ஸ்கிரிப்ட்களை இணைப்பது செயல்முறையை மேம்படுத்துகிறது. பொருத்தமற்ற தரவை அகற்றி, அத்தியாவசிய விதிமுறைகளில் கவனம் செலுத்துவதன் மூலம், உங்கள் முடிவுகளில் செயல்திறன் மற்றும் தெளிவு ஆகிய இரண்டையும் நீங்கள் அடையலாம். 🌟
பைத்தானில் உரை பகுப்பாய்விற்கான ஆதாரங்கள் மற்றும் குறிப்புகள்
- இயல்பான மொழி செயலாக்கம் மற்றும் நிறுத்துச்சொல் வடிகட்டுதல் பற்றிய நுண்ணறிவுகளுக்கு, அதிகாரப்பூர்வ NLTK ஆவணத்தைப் பார்வையிடவும்: NLTK நூலகம் .
- சொல் அதிர்வெண் பகுப்பாய்விற்கான பைதான் `collections.Counter` தொகுதியைப் பயன்படுத்துவது பற்றிய விவரங்கள் இங்கே கிடைக்கின்றன: பைதான் தொகுப்புகள் .
- ஹக்கிங் ஃபேஸ் டிரான்ஸ்ஃபார்மர்களுடன் மேம்பட்ட AI அடிப்படையிலான உரை சுருக்கத்தை இங்கே ஆராயுங்கள்: கட்டிப்பிடிக்கும் முக மின்மாற்றி .
- அதிகாரப்பூர்வ பைதான் ஆவணத்தில் உரை செயலாக்கத்திற்கான பொது பைதான் நிரலாக்கத்தைப் பற்றி அறிக: பைதான் ஆவணம் .