23. ஒன்றைவிட இன்னொன்று.. எப்போதும் பெட்டர்!

collaborative filtering & content-based filtering இரண்டும் ஒன்றுபோல் தோன்றுகிறதா? நியாயமான கேள்வி. இரண்டும் ஒன்றைப்போல் தோன்றினாலும், இரண்டும் ஒன்றல்ல.
23. ஒன்றைவிட இன்னொன்று.. எப்போதும் பெட்டர்!

‘அதுக்கும் இதுக்கும் என்னய்யா சம்பந்தம்?’ என்று அலுத்துக்கொள்பவர்கள் நிறைய உண்டு. அது வேறு, இது வேறு என்றுதான் எப்போதும் நினைக்கத் தோன்றுகிறது. ஏதாவது ஒரு வகையில், இரண்டுக்கும் தொடர்பு இருக்கத்தான் செய்கிறது என்பதை லேசாக கோடு காட்டிவிட்டாலே போதும். ஆர்வத்தில் சீட்டின் நுனிக்கு வந்துவிடுகிறோம். ஐஸ்கிரீம் விற்பனைக்கும் ஒரு நகரத்தின் தட்பவெப்ப சூழ்நிலைக்கும் உள்ள தொடர்பைப் பற்றி ஏற்கெனவே பார்த்தோம்.

சென்னை போன்ற கணிக்கவே முடியாத பருவநிலை, வானிலை,  தட்பவெப்ப சூழல் கொண்ட நகரங்களை விட்டுத்தள்ளுவோம். இவற்றையெல்லாம் எந்நாளும் கணிக்கவே முடியாது.  டெல்லி, நாக்பூர் போன்ற நிலப்பகுதியின் நட்டநடுவில் உள்ள நகரங்களின் வானிலையை எளிதாகக் கணிக்கலாம். ஏன், மும்பை, கொச்சி போன்ற அரபிக்கடலை ஒட்டியுள்ள நகரங்களின் வானிலையைக்கூட கணித்துவிட முடியும். சரி, எதற்காக கணிக்க வேண்டும்? 

ஐஸ்கிரீம் விற்பனையை, நகரத்தின் வானிலை பாதிக்கிறது என்பது நன்றாகவே தெரிகிறது. அடுத்து, வானிலையை எப்படி கணிப்பது என்பதை நோக்கி நாம் நகர்ந்தாக வேண்டும். ஐஸ்கிரீம் நிறுவனத்தைச் சேர்ந்த மார்கெட்டிங் டீம், அதை நோக்கித்தான் நகர்கிறது. அடுத்த பிஸினெஸ் வாய்ப்புகளை முன்கூட்டியே கணிக்க வேண்டுமானால், இதற்குத் தயாராக இருந்தாக வேண்டும்.

சம்பந்தப்பட்ட நகரம், கடலில் இருந்து எவ்வளவு தூரம் தள்ளியிருக்கிறது? சராசரி வெப்பம், பருவமழை பெய்யும் காலம், பண்டிகைகள் கொண்டாடப்படும் காலம் என்பதைப் பொறுத்து காலநிலையைக் கணிக்க முடியும். மழைக்காலம் என்பதால் உள்ளாட்சித் தேர்தலையே தள்ளிவைக்கிறார்கள். கஜா புயல், தமிழகத்தில் டெல்டா பகுதியின் வாழ்க்கையை தலைகீழாக்கியுள்ள நிலையில், புயல், மழை என்னும் வார்த்தைகளைக் கேட்டாலே பீதியடைய நேர்கிறது என்பதால், ஐஸ்கிரீம் உதாரணத்தை கைவிட்டுவிட்டு, வேறு உதாரணத்தை எடுத்துக்கொள்வோம்.

பத்தாங்கிளாஸ் தேர்வில் 90 மதிப்பெண்களுக்கு மேல் பெறும் மாணவர்களில் எத்தனை பேர் பிளஸ்டூ தேர்விலும் 90 மதிப்பெண்கள் பெறுகிறார்கள்? எத்தனை பேர் 70 மதிப்பெண்கள் பெறுகிறார்கள்? எத்தனை பேர் தேர்வில் தோல்வியடைகிறார்கள்? (ஆச்சரியப்பட வேண்டாம், எதுவும் நடக்கும்!) இவற்றையெல்லாம் கணித்துச் சொல்லிவிட முடியுமா? நிச்சயம் முடியும். Regression, Correlation பற்றியெல்லாம் கேள்விப்பட்டதுண்டா? இப்போது, எட்டாங்கிளாஸ் வகுப்பிலேயே புள்ளியியல் பாடங்கள் சொல்லித் தரப்படுகின்றன.

ஒன்றை இன்னொன்று சார்ந்திருப்பதுதான் correlation. அது தெரிந்துவிட்டால், தொடர் நிகழ்வுகாக நிகழும் regression-ஐ கணிக்க முடியும். உதாரணத்துக்கு, ஐஸ்கிரீம் - மழைப்பொழிவு. இரண்டுக்கும் தொடர்பு இருக்கிறது என்பதை நிறுவிவிட்டால், அத்தனை ரெக்கார்டுகளையும் அலசி, துல்லியமாக்க் கவனித்துவிடலாம். அதெல்லாம் சரி, இது முழுக்க முழுக்க புள்ளியியல் சார்ந்த விஷயம். இதில் பிக் டேட்டா எங்கே வருகிறது?

புள்ளியியல் ஆய்வுக்கான தரவுகளைத் தருவது யார்? கோடிக்கணக்கான ரெக்கார்டுகளை அலசி, ஆராய வேண்டும் என்றால், அது பிக் டேட்டாவால் மட்டுமே முடியும். அதன்மூலம் கிடைக்கும் முடிவுகளின் துல்லியத்தை உறுதிப்படுத்த முடியும். பிக் டேட்டா முதலில் correlation-க்கு முக்கியத்துவம் தருகிறது. இரண்டு வெவ்வேறு காரணிகளுக்கு இடையே ஏதாவது தொடர்பு இருககிறதா என்பதை முதலில் உறுதிப்படுத்திக்கொள்கிறது. அதற்குப் பின்னர், regression கணிக்கிறது. Independent variable மதிப்புகளைத் தந்துவிட்டால், dependent variable மதிப்பைக் கண்டுபிடித்துவிடலாம்.

பிக் டேட்டா உலகில் அதிகமான பயன்பாட்டில் இருப்பது, ஃபில்டரிங் (filtering). பயனாளிகளுக்கு என்ன தேவையோ, அத்தகைய தகவல்களை மட்டும் வடிகட்டி சம்பந்தப்பட்டவர்களுக்கு அளிப்பது. ஏன் வடிகட்ட வேண்டும்?  எல்லோருக்கும் எல்லா தகவல்களும் தேவைப்படுவதில்லை. தேவைக்கு அதிகமான பாரத்தைத் தாங்காமல் மாடுகள் தள்ளாடுவதுபோல், மனிதர்களும் தள்ளாடுவது உண்டு. தேவைக்கு அதிகமான தகவல்களை யாராலும் சரியான முறையில் பயன்படுத்திக்கொள்ள முடியாது. பயனாளிகளும் அதை விரும்பவதில்லை. ஆகவே, ஃபில்டரிங் என்னும் வடிகட்டும் முறை எல்லா இடங்களிலும் அவசியமாகிறது.

சரி, ஃபில்டரிங்கை எல்லா இடங்களிலும் பயன்படுத்த முடியுமா? முடியும், ஆனால் சவாலான சில விஷயங்களையும் சந்திக்கவேண்டி இருக்கும். கடந்த ஐந்தாண்டுகளில், Net neutrality பற்றி அவ்வப்போது ஏராளமான செய்திகள் உலகம் முழுக்க வந்தவண்ணம் இருக்கின்றன. எந்த டேட்டா தேவை, எது தேவையில்லை என்பதை பயனாளிகள் மட்டுமே தீர்மானிக்க வேண்டும். அதைத்தான் Net Neurality வலியுறுத்துகிறது. நடுவில் இருப்பவர்கள் அதைத் தீர்மானிக்கும் பட்சத்தில், பெரும் பிரச்னையாகிவிடுகிறது. பயனாளிகளின் பயன்பாட்டைப் பொறுத்தே ஃபில்டரிங் என்பதைப் பயன்படுத்தியாக வேண்டும்.

பொதுவாக, ஃபில்டரிங் என்பது இருவகைகளில் பயன்பாட்டில் இருக்கிறது 1. Collaborative filtering 2. Content-based filtering. இவை இரண்டையும் விரிவாகவே பார்க்கலாம்.

Collaborating filerting என்பது பரவலாகப் பயன்பாட்டில் உள்ள ஒரு முறை. பயனாளிகளின் கடந்த கால நடவடிக்கைகள், அவர்களுடைய விருப்பு, வெறுப்புகள், வாங்கும் திறன். என்னவெல்லாம் வாங்கினார்கள், எதையெல்லாம் வெறுத்து ஒதுக்கினார்கள் அவர்களைப் போன்ற ஒத்த வயதுடைய, ஒத்த ரசனையுடைய, அதே பகுதியைச் சேர்ந்தவர்களின் அணுகுமுறை என பல்வேறு காரணிகளை எடுத்து வைத்துக்கொண்டு அலசி, ஆராய்ந்து முடிவுக்கு வருவது. சுருக்கமாகச் சொன்னால், வாடிக்கையாளர்களின் எண்ணத்தைப் படிப்பது. 

பிழைப்புக்கு வழியில்லாவிட்டாலும், ஜானி படத்து தீபாவுக்கு அலைபாயும் மனது. பற்றிக்கொள்ள மரத்தின் கிளை கிடைத்தவுடன், பறக்கத் துடிக்கிறது பறவை. தன்னுடைய தேர்வு, ரசனையை அடிக்கடி பரிசீலித்து, அவ்வப்போது மாற்றிக்கொள்ளும் முழுக்க முழுக்க சுயநலமான கேரக்டர். சட்டென்று முடிவுகளை மாற்றிக்கொள்கிறார். மாறாக, சோம்பேறியாகச் சித்தரிக்கப்படும் முடிவெட்டும் வித்யாசகர் கேரக்டர், சிந்தனையில் நிதானமாகத் தெரிகிறார். எதையும் கவனமாகத் தேர்ந்தெடுக்கிறார். சுற்றியிருப்பதை சந்தேகக் கண் கொண்டு பார்த்தபடி, தீர்க்கமான முடிவுகளை எடுக்கிறார். வாழ்க்கையில் எப்பவும் ஒண்ணு, இன்னொன்றைவிட பெட்டராத்தான் இருக்கும் என்கிற வசனத்தை மறக்க முடியுமா?

அடிப்படையில், ஒவ்வொரு வாடிக்கையாளரும் மற்ற வாடிக்கையாளர்களால் ஏதோ ஒருவகையில் ஈர்க்கப்படுகிறார்கள்.  இங்கே, வித்யாசாகர் போன்றவர்கள் குறைவு. தீபா போன்றவர்கள் நிறைய. குளியல் சோப்பும், கொசுவர்த்திச் சுருளும் வாங்குவதற்காகக் கடைக்குச் சென்றுவிட்டு, ஏராளமான தேவையில்லாத பொருள்களை வாங்கிக்கொண்டு வீட்டுக்கு வருபவர்கள் நிறைய பேர். ஏன் அப்படி நிகழ்கிறது?

டிபார்ட்மெண்ட் ஸ்டோரில் அடுக்கிவைக்கப்பட்டிருக்கும் பொருள்களை நாம் பார்க்கும்போது, எப்படியாவது வாங்கிவிட வேண்டும் என்னும் உணர்வு கச்சிதமாக தூண்டிவிடப்படுகிறது. கிரெடிட் கார்டு வேறு நம்முடைய கையில் இருப்பதால், எதையும் எப்போது வேண்டுமானாலும் வாங்கிவிடலாம் என்பது சாத்தியமாகிவிட்டது. நம்முடைய கண்களுக்கு எது தட்டுப்பட வேண்டும், எது தட்டப்படக் கூடாது என்பதையெல்லாம், டிபார்ட்மெண்டல் ஸ்டோர் ஊழியர்கள்தான் தீர்மானிக்கிறார்கள்.

கடந்த 20 ஆண்டுகளில், ஏராளமான டிபார்ட்மெண்டல் ஸ்டோர் குக்கிராமங்களில்கூட முளைத்திருக்கின்றன. நமக்குத் தேவையானதை நாமே பார்த்து வாங்கிக்கொள்ளலாம் என்கிற விஷயம், ஆரம்பத்தில் புதியதாகவும் கவர்ச்சிகரமாகவும் இருந்த காரணத்தால், மக்கள் டிபார்ட்மெண்டல் ஸ்டோரை நோக்கிப் படையெடுத்தார்கள். நாடார் கடையிலோ, அவர் கொடுக்கும் பொருளைத்தான் நாம் பயன்படுத்தியாக வேண்டும். வேறு ஏதாவது புதிய பொருள்கள் சந்தையில் அறிமுகமாகியிருந்தால், அவராகச் சொன்னால்தான் நமக்குத் தெரியும். மாறாக, டிபார்ட்மெண்ட்ல் ஸ்டோரில் அனைத்தும் பார்வைக்கு வைக்கப்படுகின்றன.

இங்குதான் தீபாக்கள் தடுமாறுகிறார்கள். ஒன்றைவிட இன்னொன்று பெட்டராகத் தெரிகிறது. அதனால் மனது ஊசலாடுகிறது. பெரும்பாலான வாடிக்கையாளர்கள், இரண்டு பொருள்களில் எந்த ஒன்றை வாங்குவது என்பதில் தடுமாறிப்போய், முடிவெடுக்க முடியாமல் இரண்டையும் வாங்கிவிடுவார்கள் அல்லது ஏதாவது ஒன்றைத் தேர்ந்தெடுத்தாலும், அடுத்த முறை வரும்போது விட்டதை மறக்காமல் வாங்கிக்கொள்வார்கள்.  ஆகவே, எதை முன் வைப்பது, எதை விடுப்பது என்பதில் Collaborative filerting முக்கியமான பங்கு வகிக்கிறது.

எப்போதும் விற்காத பொருள், லாபம் தராத பொருள் அல்லது மற்ற பொருள்களில் வியாபாரத்தைப் பாதிக்கும் எந்தவொரு பொருளும் கண்ணுக்கு எட்டிய தூரத்தில் இருப்பதில்லை. எங்கேயாவது ஓரமாக வைத்திருப்பார்கள். நாம்தான் தேடித் துழாவி எடுத்துக்கொள்ள வேண்டும். வித்யாசாகர் போன்று ஆயிரத்தில் ஒருவர் இருக்கத்தான் செய்வார்கள். தெளிவாக இதைத்தான் வாங்க வேண்டும் என்று தீர்மானித்துவிட்டு, தேடி எடுத்து வாங்கிக்கொண்டு போவார்கள். வித்யாசாகர் போன்று நான்கு பேர் தேடித் துழாவினால், அதை வெளியே கொண்டுவந்து பார்வைக்கு வைப்பதைத் தவிர அவர்களுக்கு வேறு வழியில்லை.

அடுத்து content-based filtering. இது, சம்பந்தப்பட்ட பயனாளிகளின் ரசனையைப் பொறுத்தது. எட்டு கிலோ துவரம் பருப்பு, நான்கு கிலோ உருளைக்கிழங்கு நீங்கள் வாங்கியிருந்தால், அடுத்த மாதம் வாங்க வரும்போது துவரம் பருப்பும், உருளைக்கிழங்கும் முதல் பக்கத்தில் கண் சிமிட்டும். இந்த மாதமும் வேண்டுமென்றால், கிளிக் செய்துவிட்டு உங்களது வாங்கும் லிஸ்டில் சேர்த்துக்கொள்ளலாம். இல்லாவிட்டால், உதாசீனப்படுத்திவிட்டு நகரலாம். இது தனிப்பட்ட நபர்களின் ரசனையைப் பொறுத்து ஃபில்டரிங் செய்யப்படும் முறை.

சரி, collaborative filtering & content-based filtering இரண்டும் ஒன்றுபோல் தோன்றுகிறதா? நியாயமான கேள்வி. இரண்டும் ஒன்றைப்போல் தோன்றினாலும், இரண்டும் ஒன்றல்ல. முன்னது, வெவ்வேறு வாடிக்கையாளர்களுக்கு இடையேயான ரசனையை, தேர்வை ஒப்பிட்டுப் பார்த்து, அதன்மூலம் ஒரு முடிவுக்கு வருகிறது. குழு மனப்பான்மை ஆதிக்கம் செலுத்துவதால் ஓரளவுக்கு கணிக்க முடியும்.

Content based filtering, முழுக்க முழுக்க தனிநபரின் தேர்வு. மற்றவர்களோடு ஒப்பிடப்படுவதில்லை. இரண்டில் எத்தகைய முறையை வேண்டுமானாலும் பின்பற்றலாம். இரண்டும் வெவ்வேறு பிஸினெஸ் காரணங்களுக்காகப் பயன்பாட்டில் இருக்கிறது என்பதை மட்டும் நாம் புரிந்துகொள்வோம்.

எதை, எங்கே பயன்படுத்த வேண்டும் என்பதுதான் சவாலான விஷயம். பணத்தை ஃபிக்ஸட் டெபாசிட்டில் போடுவதற்காக வங்கிக்கு வருபவரை வாசலிலேயே மடக்கிப் பிடிப்பது, மார்கெட்டிங் மாயாலாஜம்தான். ஆனால், வளைத்துப் பிடித்து பெர்ஸனல் லோன் வேண்டுமா என்று கேட்பதால் என்ன நடக்கும்? வெட்டி வேலை! அவர் பணத்தை வங்கியில் டெபாசிட் செய்ய வந்திருக்கிறார். அவருக்கு பணத்தின் தேவை தற்போதைக்கு இல்லை. அவருக்கு பெர்ஸனல் லோன் தேவைப்படாது. வங்கியின் வாடிக்கையாளர் என்பதற்காக, அவரிடம் பெர்ஸனல் லோன் வேண்டுமா என்பது கேட்பது அபத்தமாகிவிடுகிறது. இதுவே, நகையை அடகு வைத்து கடன் வாங்குவதற்காக வந்தவராக இருந்தால், ஒருவேளை பெர்ஸனல் லோன் வாங்குவது பற்றி யோசிக்கக்கூடும். ஆகவே, வாடிக்கையாளரை மேலோட்டமாக அணுகாமல், எந்தளவுக்கு ஆழமாகப் புரிந்து சரியானவரை தேர்ந்தெடுப்பதன் மூலமாகத்தான் வெற்றிகளைப் பெற முடியும். இது சாதாரண பிஸினெஸ் தந்திரம்தான். ஆனால், பிக் டேட்டா மந்திரத்தின் மீது முழு நம்பிக்கை வைத்தால், ராஜ தந்திரமாக எடுபடும்.

(தொடரும்)

தினமணி'யை வாட்ஸ்ஆப் சேனலில் பின்தொடர... WhatsApp

தினமணியைத் தொடர: Facebook, Twitter, Instagram, Youtube, Telegram, Threads, Koo

உடனுக்குடன் செய்திகளை தெரிந்து கொள்ள தினமணி செயலியை பதிவிறக்கம் செய்யவும் 

Related Stories

No stories found.
Dinamani
www.dinamani.com