வியாழக்கிழமை 20 செப்டம்பர் 2018

14. ஷார்ப்பான ஷார்ட்

By ஜெ. ராம்கி| Published: 24th July 2018 10:00 AM

 

கூகிள் பாஸ்வோர்டை மறந்துவிட்டு தேடிக்கொண்டிருந்தார் நண்பர். புத்தகம், டைரி, வாட்ஸ்அப், கீப் நோட்ஸ், பழைய நோட்டு, ஏன் ராணி முத்து காலண்டரின் பின்பக்கத்தைக்கூட விட்டுவைக்கவில்லை. பல மணி நேரம் தேடியும் கிடைக்கவில்லை. ‘வீட்டுக்காரம்மா செல்போன் நம்பரைக்கூட மறக்கலாம். நம்முடைய கூகிள் அக்கௌண்டின் பாஸ்வோர்டை மறக்கலாமா’ என்று கேட்டு கிண்டலடித்துக்கொண்டிருந்தோம். பாஸ்வோர்டு ரீசெட் செய்வது பெரிய விஷயமல்ல. இரண்டு நிமிடங்களில் செய்துவிடலாம். ஆனால், ஒரு முக்கியமான விஷயத்தைக்கூடவா நம்மால் நினைவில் வைத்திருக்க முடியவில்லை?

ஆண்ட்ராய்டு மொபைல் வைத்திருப்பவர்களில் 99 சதவீதம் பேர் ஜிமெயில் கணக்கு வைத்திருப்பார்கள். வேறு வழியில்லை! ஆனால், பெரும்பாலானவர்கள் இமெயில் அனுப்புவதில்லை. பரிமாற்றப்படுவது வாட்ஸ்அப் செய்திகள்தான். யூடியூப்பில் தொடர்ந்து படம் பார்க்கிறார்கள். என்னென்ன படங்களை, எப்போது பார்த்தோம்? இதையெல்லாம் மற்றவர்களால் பார்க்கமுடியும் என்பது சிலருக்குத் தெரியாது. பிரைவஸியை பாதுகாப்பதில் கவனமாக இருப்பவர்கள்கூட, அவ்வப்போது ரிவியூ செய்வது கிடையாது.

ஜிமெயில் அக்கௌண்டை ரிவியூ செய்வது எப்படி என்பதை பார்த்துவிடலாம். ஜிமெயில் கணக்கில் உள்ளே நுழைந்ததும் வலது புறத்தின் மேலே உங்களது புரொஃபைல் விவரங்களைக் காணலாம். அதில் ஜிமெயில் அக்கௌண்ட் என்பதை தேர்வு செய்து கிளிக்கினால், ரிவியூ பக்கம் திரையில் விரியும். Personal info & privacy செக்ஷனில் Manage Your Google Activity-யை தேர்ந்தெடுத்தால் Review Activity கண்ணில் தென்படும். சமீபத்தில் கூகுள் உதவியோடு நீங்கள் செய்த சேஷ்டைகள் அனைத்தும் அங்கே பட்டியலிடப்பட்டிருக்கும். தேவையில்லாததை நீக்கிவிடுவது உத்தமம்.

பத்து நாட்களுக்கு முன்னர் கூகிளில் தேடிய விஷயம், யூடியூப்பில் பார்த்த ஒளித்தொகுப்பு, முந்தின நாள் பார்த்த இணையத்தளத்தின் எட்டாவது பக்கம் எல்லாவற்றையும் கூகிளால் எப்படி சேமிக்க முடிகிறது? உலகெங்கும் உள்ள கோடிக்கணக்கான ஜிமெயில் வாடிக்கையாளர்களுக்கு அத்தகைய சேவையை எவ்வாறு தரமுடிகிறது? அதற்கேற்ற கட்டமைப்பு கூகிள் நிறுவனத்திடம் இருக்கிறதா? நிச்சயமாக இருக்கிறது. உண்மையில் பிக் டேட்டா தொழில்நுட்பத்தை வளர்த்தெடுத்த நிறுவனங்களில் முக்கியமானது கூகிள்தான்.

எப்படி முடிந்தது? திடீரென்று ஒரே நாளில் அறிமுகப்படுத்தப்பட்ட தொழில்நுட்பம் அல்ல இது. பல நாட்கள், பல இடங்கள், பல்வேறு பரிசோதனைகளுக்குப் பின்னரே இதை அமல்படுத்த கூகிள் முடிவெடுத்தது. கூகிளில் இல்லையென்றால் உலகமே ஸ்தம்பித்துவிடும் என்கிற நிலையில், தொலைநோக்குப் பார்வையுடன் கூகிள் முன்னெடுத்த முயற்சிகளே இன்றைய பிக் டேட்டா புரட்சிக்குப் பெரிதும் காரணமாக அமைந்திருக்கின்றன.

ஆரம்பத்தில், ரிலேஷனல் டேட்டாபேஸை மேம்படுத்தலாம் என்றுதான் ஆரம்பித்தார்கள். மிகப்பெரிய அளவில் உள்ள டேட்டாபேஸை, சிறு பகுதிகளாகப் பிரிப்பது அவர்களது நோக்கம். ஏரியாவுக்கு ஏற்றபடி டேட்டாபேஸ்! அமெரிக்க வாடிக்கையாளர்களுக்குத் தனி டேட்டாபேஸ், சீனர்களுக்குத் தனி டேட்டாபேஸ். இந்தியாவுக்குத் தனி. தெற்காசியாவுக்குத் தனி. இந்தியாவிலிருந்து யாராவது கூகிளில் தேடினால், சம்பந்தப்பட்ட விவரங்கள் முதலில் அந்தந்த பிராந்திய டேட்டாபேஸில் முதலில் சேமிக்கப்படும். இபே, ஃபிளிப்கார்ட் போன்ற இணையத்தளங்கள் வேகமாகச் செயல்படுவதற்கு இதுதான் காரணம். ஒரு கிளஸ்டரில் எல்லா டேட்டாவையும் இணைப்பதற்குப் பதிலாக, பிராந்திய தகவல்களை மட்டுமே வைக்கமுடியும். இதனால், வேகம் மட்டுமல்ல நிலைத்தன்மையும் (stability) மேம்படும்.

பெரிய டேட்டா பேஸை சிறிய அளவில் கட்டுடைப்பதுதான் இதன் சூட்சுமம். கட்டுடைத்து, சிறுசிறு பகுதிகளாக்குவது. இத்தகைய சிறு பகுதிகளுக்கு டேட்டா ஷார்ட் (data shard) என்று பெயர். இங்கே ஷார்ட் என்பது ஒரு பெரிய பகுதியின் சிறிய பிரிவு. உதாரணத்துக்கு, உலகெங்கும் உள்ள அமேசான் நிறுவனத்தின் வாடிக்கையாளர்களைக் கொண்ட டேட்டாபேஸை ஒரே இடத்தில் வைத்திருக்காமல், அதை 32 பகுதிகளாகப் பிரித்து, 32 இடங்களில் சேமிப்பது.

எதை, எப்படி, எங்கே சேமிப்பது? வாடிக்கையாளர்களின் பெயரை மட்டும் கருத்தில் கொண்டு, ஆங்கில வரிசைப்படி அமைக்கலாம். நம்மூரில் R, S, M போன்ற எழுத்துகளில் ஆரம்பிக்கும் பெயர்கள் அதிகம். Q, X, Z எழுத்துகளில் ஆரம்பிக்கும் பெயர்கள் வெகு குறைவு. ஆகவே, வாடிக்கையாளர்களின் பெயர்களை வைத்து முடிவெடுக்க முடியாது. தொலைபேசி எண், பிறந்த தேதி, வாடிக்கையாளர்களாக இணைந்த நாள், அடிக்கடி இணையத்தளத்துக்கு வரும் வாடிக்கையாளர் இப்படி ஏதாவது ஒரு முறையில் வகைப்படுத்தலாம்.

ஷார்ட் கட்டமைப்பு (Shard structure) - எதை அடிப்படையாக வைத்து மாஸ்டர் டேட்டாபேஸை, சிறு சிறு டேட்டாபேஸாக பிரிக்கலாம் என்பதை முடிவு செய்யும் சட்டகம் இதுதான். வாடிக்கையாளர்களின் பெயரா, தொலைபேசி எண்ணா, பிறந்த தேதியா எதன் அடிப்படையில் பிரிக்க வேண்டும் என்பதை பிஸினெஸ்தான் முடிவு செய்தாக வேண்டும். எந்தளவுக்கு பரிமாற்றங்கள் நிகழ்கின்றன, இணையத்தளத்தில் நிலைத்தன்மை (availability & stability) போன்ற அனைத்து விஷயங்களும் கருத்தில் கொள்ளப்பட்டு, அதன் பின்னரே முடிவுகள் மேற்கொள்ளப்படுகின்றன. இருந்தாலும், சில ஷார்ட் லாஜிக் சாம்பிள் உண்டு.

அடிப்படையில் ஏராளமான ஷார்ட் கட்டமைப்புகள் (Shard structure) தற்போது பயன்பாட்டில் இருக்கின்றன. முக்கியமான மூன்று ஷார்ட் கட்டமைப்புகளை மட்டும் பார்க்கலாம்.

1.   செயல்பாடுகளை அல்லது முக்கிய அம்சத்தைப் பொறுத்து பிரிப்பது (Feature-based shard or functional segmentation) -  இணையத்தளத்தை, தரப்பட்டுள்ள முக்கிய அம்சங்கள் அவற்றின் பயன்பாடுகளைப் பொறுத்து டேட்டாபேஸை பிரிப்பது. உதாரணத்துக்கு ஃபிளிப்கார்டு, இபே போன்ற இணையத்தளங்களில் விற்பனைக்கு வைக்கப்படும் பொருட்கள் பற்றிய விவரங்கள் தனியாகவும், வாடிக்கையாளர்கள் பற்றிய விவரங்கள் தனியாகவும், சம்பந்தப்பட்ட வாடிக்கையாளர்களின் பரிமாற்றங்கள் தனியாகவும் சேமிக்கப்படும். பேஸ்புக், பதிவுகளைத் தனியாகவும், பதிவுகளுக்கு வரும் எதிர்வினைகளைத் தனியாகவும் சேமிக்கிறது. பிஸினெஸ் இயங்கும் தன்மை, அதற்கு கிடைக்கும் வரவேற்பைப் பொறுத்து முடிவுசெய்யப்படுகின்றன.

2.   கீ அல்லது ஹாஷ் முறை (key based sharding) - டேட்டாவின் முக்கியப் பகுதியை மட்டும் ஹாஷ் முறையில் சேமிப்பது. முந்தைய முறையைவிட வேகமானதாகவும், எளிமையானதாகவும் இருக்கும். இது குறித்து பின்னர் விரிவாக பார்க்கப் போகிறோம்.

3.   தேடல் அட்டவணை (lookup table) - டெலிபோன் டைரக்டரியில் தேடுவது போன்றதுதான். கிளஸ்டரில் உள்ள ஒவ்வொரு நோடும், ஒரு டெலிபோன் டைரக்டரியாக செயல்படும். தொலைபேசி எண்ணுக்கான முகவரியைக் கண்டுபிடிக்க, சம்பந்தப்பட்ட பகுதியைக் கண்டுபிடித்து, பின்னர் அகரவரிசைப்படி தேடுவது. இதில் வேகமும் இருக்கும், துல்லியமும் இருக்கும். ஆனால், நிறைய சிக்கல்கள் உண்டு. செயல்படும் திறன் அடிக்கடி பாதிக்கப்படும. ஒவ்வாரு முறையும் தேடல் அட்டவணையை தேடுவதால் பெர்மான்ஸ் பாதிக்கப்படும். சில நேரங்களில் டேட்டாபேஸ் செயலிழக்கவும் காரணமாகிவிடும்.

ஷார்ட் என்பதை ஷேர்டு நத்திங் (shared-nothing) என்றும் சொல்வார்கள். ஒவ்வொரு நோடும் சுதந்திரமாக இயங்கும். ஒன்றை இன்னொன்று சார்ந்திருக்கத் தேவையில்லை. எந்தவொரு நோடுக்கும் இடையே பொதுவான விஷயங்கள் இருக்க வேண்டிய அவசியமில்லை. 1986-ல் மைக்கேல் ஸ்டோன் பிரேக்கர் என்பவர் முதல்முறையாக ஷேர்டு நத்திங் என்னும் வார்த்தையைப் பயன்படுத்தினார். The case for Shared Nothing என்னும் ஆய்வறிக்கையை கலிபோர்னியா பல்கலைக் கழகத்தில் சமர்ப்பித்தார். 20 ஆண்டுகளில் தொழில்நுட்பம் எங்கேயோ போய்விட்டது. ஷேர்டு நத்திங் என்னும் வார்த்தை தற்போது உலகெங்கும் மிகப் பிரபலம். இதையும் பிரபலமாக்கியது வேறு யார்? கூகிள்தான்!

(தொடரும்)

 

Tags : பிக் டேட்டா கூகிள் பாஸ்வேர்டு மொபைல் டேட்டாபேஸ் ஷார்ட் shard big data database google mobile password

More from the section

19. ஸ்கீமா என்னும் எனிமா!
18. ஹடூப் என்னும் அணைக்கட்டு
17. ஜிஎப்எஸ் என்னும் ஜீசஸ்!
16. டேட்டா சயின்டிஸ்ட் / இன்ஜினீயரிங் - கலக்குவது யார்?
15. கிருஷ்ணா, ராமா சேவா!