கூகிள் பாஸ்வோர்டை மறந்துவிட்டு தேடிக்கொண்டிருந்தார் நண்பர். புத்தகம், டைரி, வாட்ஸ்அப், கீப் நோட்ஸ், பழைய நோட்டு, ஏன் ராணி முத்து காலண்டரின் பின்பக்கத்தைக்கூட விட்டுவைக்கவில்லை. பல மணி நேரம் தேடியும் கிடைக்கவில்லை. ‘வீட்டுக்காரம்மா செல்போன் நம்பரைக்கூட மறக்கலாம். நம்முடைய கூகிள் அக்கௌண்டின் பாஸ்வோர்டை மறக்கலாமா’ என்று கேட்டு கிண்டலடித்துக்கொண்டிருந்தோம். பாஸ்வோர்டு ரீசெட் செய்வது பெரிய விஷயமல்ல. இரண்டு நிமிடங்களில் செய்துவிடலாம். ஆனால், ஒரு முக்கியமான விஷயத்தைக்கூடவா நம்மால் நினைவில் வைத்திருக்க முடியவில்லை?

ஆண்ட்ராய்டு மொபைல் வைத்திருப்பவர்களில் 99 சதவீதம் பேர் ஜிமெயில் கணக்கு வைத்திருப்பார்கள். வேறு வழியில்லை! ஆனால், பெரும்பாலானவர்கள் இமெயில் அனுப்புவதில்லை. பரிமாற்றப்படுவது வாட்ஸ்அப் செய்திகள்தான். யூடியூப்பில் தொடர்ந்து படம் பார்க்கிறார்கள். என்னென்ன படங்களை, எப்போது பார்த்தோம்? இதையெல்லாம் மற்றவர்களால் பார்க்கமுடியும் என்பது சிலருக்குத் தெரியாது. பிரைவஸியை பாதுகாப்பதில் கவனமாக இருப்பவர்கள்கூட, அவ்வப்போது ரிவியூ செய்வது கிடையாது.

ஜிமெயில் அக்கௌண்டை ரிவியூ செய்வது எப்படி என்பதை பார்த்துவிடலாம். ஜிமெயில் கணக்கில் உள்ளே நுழைந்ததும் வலது புறத்தின் மேலே உங்களது புரொஃபைல் விவரங்களைக் காணலாம். அதில் ஜிமெயில் அக்கௌண்ட் என்பதை தேர்வு செய்து கிளிக்கினால், ரிவியூ பக்கம் திரையில் விரியும். Personal info & privacy செக்ஷனில் Manage Your Google Activity-யை தேர்ந்தெடுத்தால் Review Activity கண்ணில் தென்படும். சமீபத்தில் கூகுள் உதவியோடு நீங்கள் செய்த சேஷ்டைகள் அனைத்தும் அங்கே பட்டியலிடப்பட்டிருக்கும். தேவையில்லாததை நீக்கிவிடுவது உத்தமம்.

பத்து நாட்களுக்கு முன்னர் கூகிளில் தேடிய விஷயம், யூடியூப்பில் பார்த்த ஒளித்தொகுப்பு, முந்தின நாள் பார்த்த இணையத்தளத்தின் எட்டாவது பக்கம் எல்லாவற்றையும் கூகிளால் எப்படி சேமிக்க முடிகிறது? உலகெங்கும் உள்ள கோடிக்கணக்கான ஜிமெயில் வாடிக்கையாளர்களுக்கு அத்தகைய சேவையை எவ்வாறு தரமுடிகிறது? அதற்கேற்ற கட்டமைப்பு கூகிள் நிறுவனத்திடம் இருக்கிறதா? நிச்சயமாக இருக்கிறது. உண்மையில் பிக் டேட்டா தொழில்நுட்பத்தை வளர்த்தெடுத்த நிறுவனங்களில் முக்கியமானது கூகிள்தான்.

எப்படி முடிந்தது? திடீரென்று ஒரே நாளில் அறிமுகப்படுத்தப்பட்ட தொழில்நுட்பம் அல்ல இது. பல நாட்கள், பல இடங்கள், பல்வேறு பரிசோதனைகளுக்குப் பின்னரே இதை அமல்படுத்த கூகிள் முடிவெடுத்தது. கூகிளில் இல்லையென்றால் உலகமே ஸ்தம்பித்துவிடும் என்கிற நிலையில், தொலைநோக்குப் பார்வையுடன் கூகிள் முன்னெடுத்த முயற்சிகளே இன்றைய பிக் டேட்டா புரட்சிக்குப் பெரிதும் காரணமாக அமைந்திருக்கின்றன.

ஆரம்பத்தில், ரிலேஷனல் டேட்டாபேஸை மேம்படுத்தலாம் என்றுதான் ஆரம்பித்தார்கள். மிகப்பெரிய அளவில் உள்ள டேட்டாபேஸை, சிறு பகுதிகளாகப் பிரிப்பது அவர்களது நோக்கம். ஏரியாவுக்கு ஏற்றபடி டேட்டாபேஸ்! அமெரிக்க வாடிக்கையாளர்களுக்குத் தனி டேட்டாபேஸ், சீனர்களுக்குத் தனி டேட்டாபேஸ். இந்தியாவுக்குத் தனி. தெற்காசியாவுக்குத் தனி. இந்தியாவிலிருந்து யாராவது கூகிளில் தேடினால், சம்பந்தப்பட்ட விவரங்கள் முதலில் அந்தந்த பிராந்திய டேட்டாபேஸில் முதலில் சேமிக்கப்படும். இபே, ஃபிளிப்கார்ட் போன்ற இணையத்தளங்கள் வேகமாகச் செயல்படுவதற்கு இதுதான் காரணம். ஒரு கிளஸ்டரில் எல்லா டேட்டாவையும் இணைப்பதற்குப் பதிலாக, பிராந்திய தகவல்களை மட்டுமே வைக்கமுடியும். இதனால், வேகம் மட்டுமல்ல நிலைத்தன்மையும் (stability) மேம்படும்.

பெரிய டேட்டா பேஸை சிறிய அளவில் கட்டுடைப்பதுதான் இதன் சூட்சுமம். கட்டுடைத்து, சிறுசிறு பகுதிகளாக்குவது. இத்தகைய சிறு பகுதிகளுக்கு டேட்டா ஷார்ட் (data shard) என்று பெயர். இங்கே ஷார்ட் என்பது ஒரு பெரிய பகுதியின் சிறிய பிரிவு. உதாரணத்துக்கு, உலகெங்கும் உள்ள அமேசான் நிறுவனத்தின் வாடிக்கையாளர்களைக் கொண்ட டேட்டாபேஸை ஒரே இடத்தில் வைத்திருக்காமல், அதை 32 பகுதிகளாகப் பிரித்து, 32 இடங்களில் சேமிப்பது.

எதை, எப்படி, எங்கே சேமிப்பது? வாடிக்கையாளர்களின் பெயரை மட்டும் கருத்தில் கொண்டு, ஆங்கில வரிசைப்படி அமைக்கலாம். நம்மூரில் R, S, M போன்ற எழுத்துகளில் ஆரம்பிக்கும் பெயர்கள் அதிகம். Q, X, Z எழுத்துகளில் ஆரம்பிக்கும் பெயர்கள் வெகு குறைவு. ஆகவே, வாடிக்கையாளர்களின் பெயர்களை வைத்து முடிவெடுக்க முடியாது. தொலைபேசி எண், பிறந்த தேதி, வாடிக்கையாளர்களாக இணைந்த நாள், அடிக்கடி இணையத்தளத்துக்கு வரும் வாடிக்கையாளர் இப்படி ஏதாவது ஒரு முறையில் வகைப்படுத்தலாம்.

ஷார்ட் கட்டமைப்பு (Shard structure) - எதை அடிப்படையாக வைத்து மாஸ்டர் டேட்டாபேஸை, சிறு சிறு டேட்டாபேஸாக பிரிக்கலாம் என்பதை முடிவு செய்யும் சட்டகம் இதுதான். வாடிக்கையாளர்களின் பெயரா, தொலைபேசி எண்ணா, பிறந்த தேதியா எதன் அடிப்படையில் பிரிக்க வேண்டும் என்பதை பிஸினெஸ்தான் முடிவு செய்தாக வேண்டும். எந்தளவுக்கு பரிமாற்றங்கள் நிகழ்கின்றன, இணையத்தளத்தில் நிலைத்தன்மை (availability & stability) போன்ற அனைத்து விஷயங்களும் கருத்தில் கொள்ளப்பட்டு, அதன் பின்னரே முடிவுகள் மேற்கொள்ளப்படுகின்றன. இருந்தாலும், சில ஷார்ட் லாஜிக் சாம்பிள் உண்டு.

அடிப்படையில் ஏராளமான ஷார்ட் கட்டமைப்புகள் (Shard structure) தற்போது பயன்பாட்டில் இருக்கின்றன. முக்கியமான மூன்று ஷார்ட் கட்டமைப்புகளை மட்டும் பார்க்கலாம்.

1. செயல்பாடுகளை அல்லது முக்கிய அம்சத்தைப் பொறுத்து பிரிப்பது (Feature-based shard or functional segmentation) - இணையத்தளத்தை, தரப்பட்டுள்ள முக்கிய அம்சங்கள் அவற்றின் பயன்பாடுகளைப் பொறுத்து டேட்டாபேஸை பிரிப்பது. உதாரணத்துக்கு ஃபிளிப்கார்டு, இபே போன்ற இணையத்தளங்களில் விற்பனைக்கு வைக்கப்படும் பொருட்கள் பற்றிய விவரங்கள் தனியாகவும், வாடிக்கையாளர்கள் பற்றிய விவரங்கள் தனியாகவும், சம்பந்தப்பட்ட வாடிக்கையாளர்களின் பரிமாற்றங்கள் தனியாகவும் சேமிக்கப்படும். பேஸ்புக், பதிவுகளைத் தனியாகவும், பதிவுகளுக்கு வரும் எதிர்வினைகளைத் தனியாகவும் சேமிக்கிறது. பிஸினெஸ் இயங்கும் தன்மை, அதற்கு கிடைக்கும் வரவேற்பைப் பொறுத்து முடிவுசெய்யப்படுகின்றன.

2. கீ அல்லது ஹாஷ் முறை (key based sharding) - டேட்டாவின் முக்கியப் பகுதியை மட்டும் ஹாஷ் முறையில் சேமிப்பது. முந்தைய முறையைவிட வேகமானதாகவும், எளிமையானதாகவும் இருக்கும். இது குறித்து பின்னர் விரிவாக பார்க்கப் போகிறோம்.

3. தேடல் அட்டவணை (lookup table) - டெலிபோன் டைரக்டரியில் தேடுவது போன்றதுதான். கிளஸ்டரில் உள்ள ஒவ்வொரு நோடும், ஒரு டெலிபோன் டைரக்டரியாக செயல்படும். தொலைபேசி எண்ணுக்கான முகவரியைக் கண்டுபிடிக்க, சம்பந்தப்பட்ட பகுதியைக் கண்டுபிடித்து, பின்னர் அகரவரிசைப்படி தேடுவது. இதில் வேகமும் இருக்கும், துல்லியமும் இருக்கும். ஆனால், நிறைய சிக்கல்கள் உண்டு. செயல்படும் திறன் அடிக்கடி பாதிக்கப்படும. ஒவ்வாரு முறையும் தேடல் அட்டவணையை தேடுவதால் பெர்மான்ஸ் பாதிக்கப்படும். சில நேரங்களில் டேட்டாபேஸ் செயலிழக்கவும் காரணமாகிவிடும்.

ஷார்ட் என்பதை ஷேர்டு நத்திங் (shared-nothing) என்றும் சொல்வார்கள். ஒவ்வொரு நோடும் சுதந்திரமாக இயங்கும். ஒன்றை இன்னொன்று சார்ந்திருக்கத் தேவையில்லை. எந்தவொரு நோடுக்கும் இடையே பொதுவான விஷயங்கள் இருக்க வேண்டிய அவசியமில்லை. 1986-ல் மைக்கேல் ஸ்டோன் பிரேக்கர் என்பவர் முதல்முறையாக ஷேர்டு நத்திங் என்னும் வார்த்தையைப் பயன்படுத்தினார். The case for Shared Nothing என்னும் ஆய்வறிக்கையை கலிபோர்னியா பல்கலைக் கழகத்தில் சமர்ப்பித்தார். 20 ஆண்டுகளில் தொழில்நுட்பம் எங்கேயோ போய்விட்டது. ஷேர்டு நத்திங் என்னும் வார்த்தை தற்போது உலகெங்கும் மிகப் பிரபலம். இதையும் பிரபலமாக்கியது வேறு யார்? கூகிள்தான்!

(தொடரும்)