பிக் டேட்டா

11. வீ, வீ, வீ.. மூன்று வீ!

ஜெ.ராம்கி

டோக்கியோ மாநகரக் காவல் துறைக்கு சென்ற ஆண்டு முழுவதும் பெரிய தலைவலி. திடீரென்று குற்றங்கள் அதிகமாகியது அவர்களை கவலைப்பட வைத்தது. 45 ஆயிரம் காவல் துறையினர் உண்டு. டோக்கியோ நகரம் முழுவதும் ரோந்து வரலாம். இரண்டாயிரம் சதுர  கிலோமீட்டர் பரப்பளவு உள்ள இடம். அதில் நெருக்கியடித்துக்கொண்டு, ஏறக்குறைய நான்கு கோடி மக்கள் வசிக்கிறார்கள்.

தெருத்தெருவாக, வீடு வீடாகப் போய் காவல் துறையினர் அடிக்கடி சோதனை நடத்தினால்கூட எதுவும் தேறாது. ஒரே நேரத்தில் நகரம் முழுவதும் தேடினால், சந்தேகத்துக்கு இடமான ஆசாமிகளை பிடித்துவிடலாம். ஆனால், சட்ட நடைமுறைகளால் விஷயம் இன்னும் சிக்கலாகிவிடும். அதேசமயம், குற்றம் நடக்கட்டுமே என்று அசிரத்தையாகவும் இருந்துவிடக் கூடாது.

காவல் துறையினரின் கடமை என்பது குற்றவாளிக்குத் தண்டனை வாங்கித் தருவது மட்டுமல்ல; குற்றங்கள் நடைபெறாமல் தடுத்தாக வேண்டும். எப்படியாவது தடுத்தாக வேண்டும். அதுதான் காவல் துறையின் நிஜமான வெற்றி. டோக்கியோ மாநகரக் காவல் துறையும் அதை நினைத்துதான் கவலைப்பட்டது.

ஏதாவது செய்தாக வேண்டும். குற்றங்கள் எந்தெந்த பகுதியில் நடைபெறுகின்றன என்பதைக் கண்டறிந்தாக வேண்டும். அதன்பிறகு, சம்பந்தப்பட்ட பகுதியில் சல்லடை போட்டு அலசிவிடலாம். திருட்டு, கொலை, கொள்ளைக்கான முயற்சிகள் எங்கே நடக்கின்றன என்பதை முன்கூட்டியே தெரிந்துகொண்டால், சர்வநிச்சயமாக அதைத் தடுத்துவிடலாம். எப்படிச் செய்வது? உதவிக்கு வந்தார் கஜிதா!

டோக்கியோ பல்கலைக் கழகத்தில் படிக்கும் கஜிதா, இத்தாலியில் சில காலம் வாழ்ந்திருக்கிறார். கணிதத்தில் கெட்டிக்காரர். குற்றச் செயல்கள் எங்கே நடக்கக்கூடும் என்பதை ஓரளவு கணிப்பதாகத் தெரிவித்தார். இதுவொன்றும் புதிதல்ல. பல ஐரோப்பிய நாடுகளில் நடைமுறையில் உள்ளதுதான்.

இங்கிலாந்தின் மான்செஸ்டர் மாநகரக் காவல் துறை, இதற்காகவே ஒரு மென்பொருளை உருவாக்கியிருக்கிறது. கென்ட் காவல் துறை, 2013 தொடங்கி PredPol என்னும் மென்பொருளை வெற்றிகரமாகப் பயன்படுத்திவருகிறது. கொள்ளை, வழிப்பறி, வன்முறைச் செயல்கள், பாலியல் குற்றங்கள் நிகழ்வதற்கு வாய்ப்புள்ள இடங்களை முன்கூட்டியே கண்டுபிடித்து, குற்றத் தடுப்பு நடவடிக்கைகளில் ஈடுபட்டுவருகிறது.

மென்பொருளில் பயன்படுத்தப்படும் லாஜிக், எளிமையானதுதான். குறிப்பிட்ட கால இடைவெளியில் எத்தனை முறை பூகம்பம் வரும், எத்தனை முறை மழை வரும் என்பதை ஏற்கெனவே பதிவு செய்து வைத்துள்ள ரெக்கார்டுகளின்படி அலசி, கணிக்கும் பழைய முறைதான். ஏராளமான சாம்பிள்கள் ஆராயப்படுவதுதான் இங்கே புதிய விஷயம்.

டோக்கியோ மாநகரக் காவல் துறை ஒத்துழைத்தது. தன்னிடமிருந்த தகவல்களை கஜிதாவிடம் பகிர்ந்துகொண்டது. தனக்குக் கிடைத்த தகவல்களை வைத்து, எந்தெந்த பகுதியில் குற்றங்கள் நிகழ வாய்ப்பு இருக்கிறது என்பதைக் குறுகிய காலத்தில் கஜிதா கண்டுபிடித்துவிட்டார். குற்ற மோசடிக்காரர்கள் எந்தத் தெருவில் இருக்கிறார்கள் என்பதைக் கண்டுபிடிக்க, இன்னும் சில உறுதியான தகவல்கள் வேண்டும். சம்பந்தப்பட்ட பகுதியைச் சேர்ந்த மக்களின் நடமாட்டம், சந்தேகத்துக்குரிய தொலைபேசி அழைப்புகள், சமூக வலைத்தளங்களில் மக்களின் நடவடிக்கைகளை போன்றவற்றை உன்னிப்பாகக் கவனித்தால் இன்னும் நெருங்கிவிடலாம்.

2020-ல், டோக்கியோ மாநகரத்தில் ஒலிம்பிக் போட்டிகள் நடைபெற இருக்கின்றன. இந்நிலையில், குற்றங்களைத் தடுப்பது, கடுமையாகக் கண்காணிப்பது, குற்றவாளிகளை முடக்குவது போன்ற நடவடிக்கைகள் தொடங்கப்பட்டுள்ளன. உலகெங்கும் உள்ள பார்வையாளர்கள், ஒலிம்பிக் போட்டிகளைக் காண டோக்கியோவில் குவியப்போகும் நேரத்தில் இத்தகைய நடவடிக்கைகள் அவசியமாகின்றன. கஜிதா, ஆட்டத்தை ஆரம்பித்து வைத்திருக்கிறார். இனி, கண்காணிப்பு வளையத்தை அகலப்படுத்த வேண்டும். அதற்கு ஆழமான கற்றல் முறை (deep learning) தேவைப்படுகிறது.

இங்கே நாம் கவனிக்க வேண்டிய விஷயம், ஆழமான கற்றல் (deep learning). ஏராளமான தகவல்களை உள்வாங்கிக்கொண்டு, மிகவும் விரைவாக அலசி, ஆராய வேண்டும். பிக் டேட்டாவால் அது சாத்தியப்படும். டோக்கியோ காவல் துறையும் ஏற்கெனவே களத்தில் இறங்கிவிட்டது.

பிக் டேட்டா தொழில்நுட்பத்தில் இடப்பற்றாக்குறையெல்லாம் பிரச்னையே இல்லை. எத்தனை டெராபைட் டேட்டாவையும் சேமிக்க முடியும். ஆனால், எதை எடுப்பது, எதை தவிர்ப்பது என்பதை ஆரம்பத்திலேயே முடிவு செய்வது நல்லது. தேவையில்லாத தகவல்களைச் சேர்த்துவைப்பதும் குப்பைதான். எடுக்கும்போதே, தேவையான தகவல்களை மட்டும் எடுக்க வேண்டும். அதற்கு இயந்திரத்தின் மூலமாக கற்றல் முறை (machine learning) உதவும்.

மனிதர்களின் ஆயுள்காலத்தைவிட டேட்டாவின் ஆயுள்காலம் மிக மிகச் சிறியது. 20 ஓவர் ஆடப்படும் வரையிலான சாதனைகளின் ஆயுள்காலம், அந்த ஓவர் ஆடப்படும் வரைதான். 21-வது ஓவர் தொடங்கிவிட்டால் எல்லாமே காலாவதியாகிவிடும். ஆகவே, டேட்டாவை கையாளும்போது காலம் என்பது மிக முக்கியம். பெரிய நிறுவனங்களில் சில விநாடிகள் தவறு நடந்து, தவறான தகவல்கள் பரிமாறப்படுவதால் கோடிக்கணக்கில் இழப்புகளும் ஏற்படுவது உண்டு.

விமானங்கள் தரையிறங்கும்போது நேரும் ஒரு சில நிமிட தவறுகள்கூட, பல இழப்புகளை ஏற்படுத்திவிடக்கூடும். ஆகவே, ஒவ்வொரு செயலும் முந்தைய முடிவுகளிலிருந்தே தீர்மானிக்கப்படுகின்றன. இதில் நிறைய சவால்களும் உண்டு. வேறு வழியில்லை, சந்தித்துதான் ஆக வேண்டும்.

பிக் டேட்டா கலெக்ஷன் என்பது சாதாரண டேட்டா கலெக்ஷனிலிருந்து முற்றிலும் மாறுபட்டது. நினைத்துப் பார்க்கவே முடியாத வேகம், வெவ்வேறு வகையான தரவுகள், அதிகப்படியான சாம்பிள்கள். இவையெல்லாம் எதற்காக? அப்போதுதான் ஆழமாக கற்றல் (deep learning) என்பது சாத்தியப்படும். 40 மாணவர்கள் உள்ள வகுப்பறையில், 4 அல்லது 5 மாணவர்களை மட்டும் வைத்து ஒட்டுமொத்த மாணவர்களின் திறனை முடிவு செய்துவிடமுடியாது. குறைந்தபட்சம் 30 மாணவர்களையாவது கண்காணித்து, அலச வேண்டும்.

வேகம் (velocity), வகைகள் (variety), கொள்ளளவு (volume) - இவைதான் பிக் டேட்டாவின் முக்கியமான மூன்று அங்கங்கள். ஏற்கெனவே சொன்னதுபோல், இன்றைய உலகில் வேகம் என்பது முக்கியமானது. ஒவ்வொரு நொடியும் முக்கியம். அதற்கேற்றபடி டேட்டா மாறிவிடக்கூடியது. அதேபோல் டேட்டாவை அலசி ஆராய அதிகமான சாம்பிள் தேவை. எந்தளவுக்குக் கொள்ளளவு அதிகமாக இருக்கிறதோ, அந்த அளவுக்குத் துல்லியத்தை எதிர்பார்க்கலாம்.

(தொடரும்)

தினமணி'யை வாட்ஸ்ஆப் சேனலில் பின்தொடர... WhatsApp

தினமணியைத் தொடர: Facebook, Twitter, Instagram, Youtube, Telegram, Threads, Koo

உடனுக்குடன் செய்திகளை தெரிந்து கொள்ள தினமணி செயலியை பதிவிறக்கம் செய்யவும் 

ஒத்திகைப் பயிற்சி: இஸ்ரேல் தூதரகம் அருகே போக்குவரத்துக் கட்டுப்பாடு

மும்பை வடக்கு மத்திய தொகுதி பாஜக வேட்பாளா் பிரபல வழக்குரைஞா் உஜ்வல் நிகம்

பெங்களூரு குண்டுவெடிப்பு வழக்கு: கைதானவரை சென்னை அழைத்து வந்து என்ஐஏ விசாரணை

குரல் குளோனிங் மூலம் பண மோசடி: சைபா் குற்றப்பிரிவு எச்சரிக்கை

கோவை தொகுதி தோ்தல் முடிவை வெளியிட தடை கோரி வழக்கு

SCROLL FOR NEXT