முகப்பு
பிக் டேட்டா

14. ஷார்ப்பான ஷார்ட்

கூகிளில் இல்லையென்றால் உலகமே ஸ்தம்பித்துவிடும் என்கிற நிலையில், தொலைநோக்குப் பார்வையுடன் கூகிள் முன்னெடுத்த முயற்சிகளே இன்றைய பிக் டேட்டா புரட்சிக்குப் பெரிதும் காரணமாக அமைந்திருக்கின்றன.

Updated On : 24 ஜூலை 2018, 10:00 am IST
பகிர்:

கூகிள் பாஸ்வோர்டை மறந்துவிட்டு தேடிக்கொண்டிருந்தார் நண்பர். புத்தகம், டைரி, வாட்ஸ்அப், கீப் நோட்ஸ், பழைய நோட்டு, ஏன் ராணி முத்து காலண்டரின் பின்பக்கத்தைக்கூட விட்டுவைக்கவில்லை. பல மணி நேரம் தேடியும் கிடைக்கவில்லை. ‘வீட்டுக்காரம்மா செல்போன் நம்பரைக்கூட மறக்கலாம். நம்முடைய கூகிள் அக்கௌண்டின் பாஸ்வோர்டை மறக்கலாமா’ என்று கேட்டு கிண்டலடித்துக்கொண்டிருந்தோம். பாஸ்வோர்டு ரீசெட் செய்வது பெரிய விஷயமல்ல. இரண்டு நிமிடங்களில் செய்துவிடலாம். ஆனால், ஒரு முக்கியமான விஷயத்தைக்கூடவா நம்மால் நினைவில் வைத்திருக்க முடியவில்லை?

ஆண்ட்ராய்டு மொபைல் வைத்திருப்பவர்களில் 99 சதவீதம் பேர் ஜிமெயில் கணக்கு வைத்திருப்பார்கள். வேறு வழியில்லை! ஆனால், பெரும்பாலானவர்கள் இமெயில் அனுப்புவதில்லை. பரிமாற்றப்படுவது வாட்ஸ்அப் செய்திகள்தான். யூடியூப்பில் தொடர்ந்து படம் பார்க்கிறார்கள். என்னென்ன படங்களை, எப்போது பார்த்தோம்? இதையெல்லாம் மற்றவர்களால் பார்க்கமுடியும் என்பது சிலருக்குத் தெரியாது. பிரைவஸியை பாதுகாப்பதில் கவனமாக இருப்பவர்கள்கூட, அவ்வப்போது ரிவியூ செய்வது கிடையாது.

ஜிமெயில் அக்கௌண்டை ரிவியூ செய்வது எப்படி என்பதை பார்த்துவிடலாம். ஜிமெயில் கணக்கில் உள்ளே நுழைந்ததும் வலது புறத்தின் மேலே உங்களது புரொஃபைல் விவரங்களைக் காணலாம். அதில் ஜிமெயில் அக்கௌண்ட் என்பதை தேர்வு செய்து கிளிக்கினால், ரிவியூ பக்கம் திரையில் விரியும். Personal info & privacy செக்ஷனில் Manage Your Google Activity-யை தேர்ந்தெடுத்தால் Review Activity கண்ணில் தென்படும். சமீபத்தில் கூகுள் உதவியோடு நீங்கள் செய்த சேஷ்டைகள் அனைத்தும் அங்கே பட்டியலிடப்பட்டிருக்கும். தேவையில்லாததை நீக்கிவிடுவது உத்தமம்.

Advertisement

Advertisement

பத்து நாட்களுக்கு முன்னர் கூகிளில் தேடிய விஷயம், யூடியூப்பில் பார்த்த ஒளித்தொகுப்பு, முந்தின நாள் பார்த்த இணையத்தளத்தின் எட்டாவது பக்கம் எல்லாவற்றையும் கூகிளால் எப்படி சேமிக்க முடிகிறது? உலகெங்கும் உள்ள கோடிக்கணக்கான ஜிமெயில் வாடிக்கையாளர்களுக்கு அத்தகைய சேவையை எவ்வாறு தரமுடிகிறது? அதற்கேற்ற கட்டமைப்பு கூகிள் நிறுவனத்திடம் இருக்கிறதா? நிச்சயமாக இருக்கிறது. உண்மையில் பிக் டேட்டா தொழில்நுட்பத்தை வளர்த்தெடுத்த நிறுவனங்களில் முக்கியமானது கூகிள்தான்.

எப்படி முடிந்தது? திடீரென்று ஒரே நாளில் அறிமுகப்படுத்தப்பட்ட தொழில்நுட்பம் அல்ல இது. பல நாட்கள், பல இடங்கள், பல்வேறு பரிசோதனைகளுக்குப் பின்னரே இதை அமல்படுத்த கூகிள் முடிவெடுத்தது. கூகிளில் இல்லையென்றால் உலகமே ஸ்தம்பித்துவிடும் என்கிற நிலையில், தொலைநோக்குப் பார்வையுடன் கூகிள் முன்னெடுத்த முயற்சிகளே இன்றைய பிக் டேட்டா புரட்சிக்குப் பெரிதும் காரணமாக அமைந்திருக்கின்றன.

ஆரம்பத்தில், ரிலேஷனல் டேட்டாபேஸை மேம்படுத்தலாம் என்றுதான் ஆரம்பித்தார்கள். மிகப்பெரிய அளவில் உள்ள டேட்டாபேஸை, சிறு பகுதிகளாகப் பிரிப்பது அவர்களது நோக்கம். ஏரியாவுக்கு ஏற்றபடி டேட்டாபேஸ்! அமெரிக்க வாடிக்கையாளர்களுக்குத் தனி டேட்டாபேஸ், சீனர்களுக்குத் தனி டேட்டாபேஸ். இந்தியாவுக்குத் தனி. தெற்காசியாவுக்குத் தனி. இந்தியாவிலிருந்து யாராவது கூகிளில் தேடினால், சம்பந்தப்பட்ட விவரங்கள் முதலில் அந்தந்த பிராந்திய டேட்டாபேஸில் முதலில் சேமிக்கப்படும். இபே, ஃபிளிப்கார்ட் போன்ற இணையத்தளங்கள் வேகமாகச் செயல்படுவதற்கு இதுதான் காரணம். ஒரு கிளஸ்டரில் எல்லா டேட்டாவையும் இணைப்பதற்குப் பதிலாக, பிராந்திய தகவல்களை மட்டுமே வைக்கமுடியும். இதனால், வேகம் மட்டுமல்ல நிலைத்தன்மையும் (stability) மேம்படும்.

பெரிய டேட்டா பேஸை சிறிய அளவில் கட்டுடைப்பதுதான் இதன் சூட்சுமம். கட்டுடைத்து, சிறுசிறு பகுதிகளாக்குவது. இத்தகைய சிறு பகுதிகளுக்கு டேட்டா ஷார்ட் (data shard) என்று பெயர். இங்கே ஷார்ட் என்பது ஒரு பெரிய பகுதியின் சிறிய பிரிவு. உதாரணத்துக்கு, உலகெங்கும் உள்ள அமேசான் நிறுவனத்தின் வாடிக்கையாளர்களைக் கொண்ட டேட்டாபேஸை ஒரே இடத்தில் வைத்திருக்காமல், அதை 32 பகுதிகளாகப் பிரித்து, 32 இடங்களில் சேமிப்பது.

எதை, எப்படி, எங்கே சேமிப்பது? வாடிக்கையாளர்களின் பெயரை மட்டும் கருத்தில் கொண்டு, ஆங்கில வரிசைப்படி அமைக்கலாம். நம்மூரில் R, S, M போன்ற எழுத்துகளில் ஆரம்பிக்கும் பெயர்கள் அதிகம். Q, X, Z எழுத்துகளில் ஆரம்பிக்கும் பெயர்கள் வெகு குறைவு. ஆகவே, வாடிக்கையாளர்களின் பெயர்களை வைத்து முடிவெடுக்க முடியாது. தொலைபேசி எண், பிறந்த தேதி, வாடிக்கையாளர்களாக இணைந்த நாள், அடிக்கடி இணையத்தளத்துக்கு வரும் வாடிக்கையாளர் இப்படி ஏதாவது ஒரு முறையில் வகைப்படுத்தலாம்.

ஷார்ட் கட்டமைப்பு (Shard structure) - எதை அடிப்படையாக வைத்து மாஸ்டர் டேட்டாபேஸை, சிறு சிறு டேட்டாபேஸாக பிரிக்கலாம் என்பதை முடிவு செய்யும் சட்டகம் இதுதான். வாடிக்கையாளர்களின் பெயரா, தொலைபேசி எண்ணா, பிறந்த தேதியா எதன் அடிப்படையில் பிரிக்க வேண்டும் என்பதை பிஸினெஸ்தான் முடிவு செய்தாக வேண்டும். எந்தளவுக்கு பரிமாற்றங்கள் நிகழ்கின்றன, இணையத்தளத்தில் நிலைத்தன்மை (availability & stability) போன்ற அனைத்து விஷயங்களும் கருத்தில் கொள்ளப்பட்டு, அதன் பின்னரே முடிவுகள் மேற்கொள்ளப்படுகின்றன. இருந்தாலும், சில ஷார்ட் லாஜிக் சாம்பிள் உண்டு.

அடிப்படையில் ஏராளமான ஷார்ட் கட்டமைப்புகள் (Shard structure) தற்போது பயன்பாட்டில் இருக்கின்றன. முக்கியமான மூன்று ஷார்ட் கட்டமைப்புகளை மட்டும் பார்க்கலாம்.

1.   செயல்பாடுகளை அல்லது முக்கிய அம்சத்தைப் பொறுத்து பிரிப்பது (Feature-based shard or functional segmentation) -  இணையத்தளத்தை, தரப்பட்டுள்ள முக்கிய அம்சங்கள் அவற்றின் பயன்பாடுகளைப் பொறுத்து டேட்டாபேஸை பிரிப்பது. உதாரணத்துக்கு ஃபிளிப்கார்டு, இபே போன்ற இணையத்தளங்களில் விற்பனைக்கு வைக்கப்படும் பொருட்கள் பற்றிய விவரங்கள் தனியாகவும், வாடிக்கையாளர்கள் பற்றிய விவரங்கள் தனியாகவும், சம்பந்தப்பட்ட வாடிக்கையாளர்களின் பரிமாற்றங்கள் தனியாகவும் சேமிக்கப்படும். பேஸ்புக், பதிவுகளைத் தனியாகவும், பதிவுகளுக்கு வரும் எதிர்வினைகளைத் தனியாகவும் சேமிக்கிறது. பிஸினெஸ் இயங்கும் தன்மை, அதற்கு கிடைக்கும் வரவேற்பைப் பொறுத்து முடிவுசெய்யப்படுகின்றன.

2.   கீ அல்லது ஹாஷ் முறை (key based sharding) - டேட்டாவின் முக்கியப் பகுதியை மட்டும் ஹாஷ் முறையில் சேமிப்பது. முந்தைய முறையைவிட வேகமானதாகவும், எளிமையானதாகவும் இருக்கும். இது குறித்து பின்னர் விரிவாக பார்க்கப் போகிறோம்.

3.   தேடல் அட்டவணை (lookup table) - டெலிபோன் டைரக்டரியில் தேடுவது போன்றதுதான். கிளஸ்டரில் உள்ள ஒவ்வொரு நோடும், ஒரு டெலிபோன் டைரக்டரியாக செயல்படும். தொலைபேசி எண்ணுக்கான முகவரியைக் கண்டுபிடிக்க, சம்பந்தப்பட்ட பகுதியைக் கண்டுபிடித்து, பின்னர் அகரவரிசைப்படி தேடுவது. இதில் வேகமும் இருக்கும், துல்லியமும் இருக்கும். ஆனால், நிறைய சிக்கல்கள் உண்டு. செயல்படும் திறன் அடிக்கடி பாதிக்கப்படும. ஒவ்வாரு முறையும் தேடல் அட்டவணையை தேடுவதால் பெர்மான்ஸ் பாதிக்கப்படும். சில நேரங்களில் டேட்டாபேஸ் செயலிழக்கவும் காரணமாகிவிடும்.

ஷார்ட் என்பதை ஷேர்டு நத்திங் (shared-nothing) என்றும் சொல்வார்கள். ஒவ்வொரு நோடும் சுதந்திரமாக இயங்கும். ஒன்றை இன்னொன்று சார்ந்திருக்கத் தேவையில்லை. எந்தவொரு நோடுக்கும் இடையே பொதுவான விஷயங்கள் இருக்க வேண்டிய அவசியமில்லை. 1986-ல் மைக்கேல் ஸ்டோன் பிரேக்கர் என்பவர் முதல்முறையாக ஷேர்டு நத்திங் என்னும் வார்த்தையைப் பயன்படுத்தினார். The case for Shared Nothing என்னும் ஆய்வறிக்கையை கலிபோர்னியா பல்கலைக் கழகத்தில் சமர்ப்பித்தார். 20 ஆண்டுகளில் தொழில்நுட்பம் எங்கேயோ போய்விட்டது. ஷேர்டு நத்திங் என்னும் வார்த்தை தற்போது உலகெங்கும் மிகப் பிரபலம். இதையும் பிரபலமாக்கியது வேறு யார்? கூகிள்தான்!

(தொடரும்)

தினமணி செய்திமடலைப் பெற... Newsletter

தினமணி'யை வாட்ஸ்ஆப் சேனலில் பின்தொடர... WhatsApp

தினமணியைத் தொடர: Facebook, Twitter, Instagram, Youtube, Telegram, Threads, Arattai, Google News

உடனுக்குடன் செய்திகளை அறிய தினமணி App பதிவிறக்கம் செய்யவும்.

கருத்துகள்

பின்னூட்டத்தில் வெளியாகும் கருத்துகளுக்கு அவற்றைப் பதிவிடுவோரே முழுப் பொறுப்பு; அவை தினமணியின் கருத்துகளைப் பிரதிபலிக்கவில்லை.தனிநபர், சமூகம், மதம் அல்லது நாடு ஆகியவற்றுக்கு எதிராக அவமதிக்கிற அல்லது ஆபாசமான விதத்திலுள்ள எந்தவொரு கருத்தும் இந்திய அரசின் தகவல் தொழில்நுட்பக் கொள்கைப்படி தண்டனைக்குரிய குற்றம். இதுபோன்ற கருத்துகளுக்கு எதிராக உரிய சட்ட நடவடிக்கை எடுக்கப்படும்.

Show comments