ടെസ്സറാക്റ്റ് ചിത്രാക്ഷരച്ചാത്തൻ

ഒരു വെബ്‌സൈറ്റിൽ ചേർക്കാനായി കുറച്ചുനാൾ മുമ്പൊരു ദിവസം ഒരു പത്തു പതിനഞ്ച് പ്രിന്റഡ് പേപ്പറുകളുടെ സ്കാൻ ചെയ്ത കോപ്പി മെയിലിൽ വന്നു. അര പേജ് ടൈപ്പ് ചെയ്തപ്പോഴെയ്ക്കും മടുത്തു. കുറെ സമയവുമെടുത്തു, ഈ നില പോയാൽ രണ്ടാഴ്ച്ചകൊണ്ടും പണി തീരുകയുമില്ല, ടൈപ്പ് ചെയ്തു ചെയ്തു എന്റെ കൈ തേയുകയും ചെയ്യും എന്ന് വന്നപ്പോൾ പണി നിർത്തി. പണ്ട് കൊച്ചിയിലെ മറ്റൊരു പരസ്യ ഏജൻസിയിൽ പണിയെടുക്കുമ്പോൾ ആബി ഫൈൻ റീഡർ എന്ന ഒരു ഒസീആർ പ്രോഗ്രാം ഉപയോഗിച്ചിരുന്നു – അതിന് ഒടുക്കത്തെ വിലയും ക്ലോസ്ഡ് സോഴ്സും. സാദാ ഞാൻ അതൊക്കെ എങ്ങനെ ഉപയോഗിക്കാൻ? മാത്രവുമല്ല സോഴ്സ് പൂഴ്ത്തിയ സോഫ്റ്റ്‌വെയർ നമ്മെ പോലുള്ള സ്വാത്രന്ത്ര്യ വാദികൾ കയ്യോണ്ട് തൊടില്ലാലോ. വീട്ടിൽ വന്ന് വലിയ പ്രതീക്ഷകളൊന്നും ഇല്ലാതെ “ചേട്ടാ, ഓസീആർ ഉപകരണങ്ങൾ വല്ലതുമുണ്ടോ എന്ന്” എന്റെ ഡെബിയൻ മെഷീനിലെ apt സംഭരണിയിൽ ചോദിച്ചു നോക്കി. “ടെസ്സറാക്റ്റ് എന്ന ഓസീആർ ഉണ്ടല്ലോ ചങ്ങാതീ” എന്ന് സംഭരണി ഉവാച.

ഇനി കൂടുതലൊന്നും പറയാനില്ല. ടെസ്സറാക്റ്റ് എന്നൊരു സോഫ്റ്റ്‌വെയർ ഉണ്ട്. ചിത്രങ്ങളിൽ നിന്ന് അക്ഷരത്തെ തിരിച്ചറിഞ്ഞു അത് ഫോണ്ട് ആക്കി മാറ്റുകയാണ് ഇഷ്ടന്റെ ജോലി. ഒറ്റവാക്കിൽ പറഞ്ഞാൽ ഒരു ചിത്രാക്ഷരച്ചാത്തൻ. പിന്നെ വെബ്ബിൽ പരതിയപ്പോൾ, ഇത് പണ്ടേ ഉള്ള സാധനമാണെന്ന് മനസ്സിലായി (ചക്രം ഇപ്പോൾ മാത്രമേ ഞാൻ കണ്ടു പിടിച്ചോള്ളോ എന്നൊരു ജാള്യതയും തോന്നി). കലശലായി ജാള്യത തോന്നിയതിനാൽ ബ്ലോഗിൽ പോസ്റ്റി ചളമാക്കണ്ട എന്നു തീരുമാനിക്കുകയും ചെയ്തതാണ്. മലയാളക്കരയിലുള്ള സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിംഗ് എന്ന ഡവലപ്പർ കൂട്ടായ്മ മലയാളം ചിത്രങ്ങൾ അക്ഷരങ്ങളിലെയ്ക്ക് മാറ്റാൻ ചിത്രാക്ഷരച്ചാത്തനെ പഠിപ്പിച്ചു കൊണ്ടിരിക്കുകയാണെന്നും അറിഞ്ഞപ്പോൾ ബ്ലോഗണ്ട പോസ്റ്റണ്ട എന്നൊക്കെ ഒന്നൂടി ഉറപ്പിച്ചതാ. ന്നാലും, ചുമ്മാ ഒന്നു പോസ്റ്റഡാ എന്ന് അന്തരംഗം മുറവിളി കൂട്ടിയതിനാൽ ചുമ്മാ ഒന്ന് തലോടി പോസ്റ്റി വിട്ടേക്കാം എന്ന് കരുതി.

ഓപ്പണ്‍ സോഴ്സ് ആയി ഇന്ന് ലഭ്യമായ ഏറ്റവും മികച്ച ഒസീആർ യന്ത്രമാണ് ടെസ്സറാക്റ്റ്. 1985 – 94 കാലഘട്ടത്തിൽ ഹ്യൂലറ്റ് പക്കാർഡ് ആണ് ഇത് സൃഷ്ടിച്ചത്. പിന്നീട് 2005-ൽ ഹ്യൂലറ്റ് പക്കാർഡ് ഇത് ഓപ്പണ്‍ സോഴ്സ് ആക്കി റിലീസ് ചെയ്തു. 2006 മുതൽ ഗൂഗിൾ ആണ് ഇതിന്റെ വികസനത്തിൽ ഏറ്റവും കാര്യമായ പങ്കു വഹിക്കുന്നത്.

ഉപയോഗമുറ

നല്ല ഫലത്തിനായി കിട്ടിയിരിക്കുന്ന ഇമേജ് ഫയൽ ഗിമ്പിൽ തുറന്നു കൂടുതൽ വ്യക്തത വരുത്തുന്നത് നന്നായിരിക്കും. ഉദാഹരണത്തിന് ഇങ്ങനൊരു പീഡിയെഫ് ഫയലാണ് അക്ഷരമാക്കേണ്ടതെങ്കിൽ ഇത് ഗിമ്പ് ഉപയോഗിച്ച് ആദ്യം ഗ്രേസ്കെയിൽ ആക്കുക. പിന്നെ അതിന്റെ ലെവൽസ് ക്രമീകരിച്ചു വെളുപ്പും കറുപ്പും മാത്രം നിറങ്ങളുള്ള ഒരു ടിഫ് ഫയൽ ആക്കി മാറ്റിയതിനു ശേഷം താഴെയുള്ള കോഡ് ഉപയോഗിച്ച് ചിത്രത്തെ ടെക്സ്റ്റ്‌ ആയി പരിവർത്തനം ചെയ്യാം.

tesseract /home/crunchbang/downloads/proclamation-publick-occorances.tif /home/crunchbang/documents/proclamation.txt

സൊ സിമ്പിൾ.

അറബി, ബൾഗെറിയൻ, കറ്റാലൻ, ചെക്ക്‌, ഡാനിഷ്,ഡച്ച്, ഇംഗ്ലീഷ്, ഫിന്നിഷ്, ഫ്രഞ്ച്, ജർമൻ, ഗ്രീക്ക്, ഹിന്ദി, ഹങ്കേറിയൻ, ഇന്തോനേഷ്യൻ, ഇറ്റാലിയൻ, ലാത്വിയൻ, ലിത്വേനിയൻ, നോർവീജിയൻ, പോളിഷ്, പോർച്ചുഗീസ്, റൊമാനിയൻ, റഷ്യൻ, സെർബിയൻ, സ്ലോവാക്, സ്ലോവേനിയൻ, സ്പാനിഷ്, സ്വീഡിഷ്, ടാഗലോഗ്, തായ്‌, തമിഴ്, ടർക്കിഷ്, ഉക്രേനിയൻ, വിയറ്റ്നാമീസ് എന്നു തുടങ്ങി വളരെയധികം ഭാഷകളിൽ ഇന്ന് ടെസ്സറാക്റ്റ് എഞ്ചിൻ ലഭ്യമാണ്. മലയാളത്തിലും ഇത് ഏറെ വൈകാതെ ലഭ്യമാകും (ഇപ്പോൾത്തന്നെ മലയാളത്തിലും ടെസ്സറാക്റ്റ് ലഭ്യമാണെങ്കിലും ട്രെയിനിംഗ് ഡാറ്റയുടെ കൃത്യത കുറവാണ്).

മലയാളം ട്രെയിനിംഗ് ഡാറ്റയുമായി ബന്ധപ്പെട്ട സ്വമകയുടെ പ്രവർത്തനങ്ങൾ കാണാൻ ഇവിടെ ക്ലിക്കുക.

Advertisements