Назарбаев Университетінің ғалымдары ым тілін ілгерілету бойынша зерттеулер жүргізуде

Біздің айналамыздағы әлем өте жылдам өзгеруде, қазіргі уақытта  адамдардың бізге күнделікті міндеттердің барған сайын ең жаңа инновациялық шешімдері ұсынылатынына бойлары үйренген. Бүкіл әлемде, оның ішінде Қазақстанда, жоғары технологиялық шешімдерді іздеу бойынша зерттеушілердің күш-жігерінің арқасында біз өзімізді қоршаған әлемнің тіршілік ету үшін “ең жақсы орынға” айналуының куәсі болып отырмыз. Әңгіме бизнес, білім беру, медицина, әскери немесе әлеуметтік қызмет туралы болып отырғанына қарамастан, біздің қоғамымыз бетпе-бет келіп отырған түрлі проблемалар мен мәселелерді шешу жолдарын табу үшін күн сайын өзіне өршіл талап қоятын адамдар аз емес. Біздің бүгінгі кейіпкеріміз Назарбаев Университетінің Инженерия және цифрлық ғылымдар мектебінің Ассистент профессоры Анара Сандығұлова – осындай энтузиаст-зерттеушілердің бірі.

Компьютерлік ғылымдар докторы, Анара Сандыгулова Инженерия және цифрлық ғылымдар мектебінің робот техникасы және мехатроника кафедрасының Ассистент профессоры болып жұмыс істейді. Қазіргі уақытта ол қазақтың ым-ишара тілін танудың K-SLARS автоматты жүйесі бойынша зерттеу жобасын басқарады. Жоба қазірдің өзінде іске асырыла бастады және НУ мектебі дамыту бағдарламасының қаржылық қолдауымен 36 айға есептелген.

Анара Сандығұлова жобаның мәнін түсіндіру кезінде бүкіл әлемдегі саңыраулар қоғамы бірінші тіл ретінде осы елде пайдаланылатын сөйлеу тіліне байланысы жоқ ым тілін пайдаланатынын атап көрсетті. Мысалы, американдық ым тілі мен британдық ым тілі осы елдердің сөйлеу тілі ағылшын тілі екендігіне қарамастан бір-бірінен әжептәуір ерекшеленеді. Осыған ұқсас, әрбір ел немесе өңір грамматика мен ережелері әр түрлі өздерінің ым тілдеріне ие болып отыр, бұл бүгінгі таңда әлемде пайдаланылатын жүздеген ым тілінің болуына әкеледі. Бүгінгі таңда  Қазақстанда саңыраулар мен нашар еститіндердің саны 18 мыңнан астам. Ғалымның айтуынша, Қазақстанның Ресеймен, Молдовамен және ТМД-ның басқа да елдерімен ым тілі бірдей, бұл бұрынғы Кеңестер Одағында болған орталықтандырылған жүйемен түсіндіріледі.

– Ымдау тілдерін тану, оларды жинақтау және аудару саласындағы зерттеулер  жоғары ықпал ету әлеуетіне ие, – деп пайымдайды зерттеуші. Сөйлеуді автоматты түрде тану коммерциялық қол жетімді болған кезде, ымдау тілін автоматты тану әлі күнге дейін пайда болған жоқ. Сөйлеу тілдеріне қолдау көрсетудің (ауызша да, жазбаша да) көптеген инновациялық шешімдері бар алайда, көптеген саңырау адамдар өздері тұратын елдердің сөйлеу тілін меңгермеген. Осылайша, олар көп жағдайларда, қоғамнан оқшауланған және өз өмірінің барлық аспектілерінде әлеуметтік және коммуникациялық кедергілерге тап болып отыр. Егер ым тілдерін мәтінді автоматты түрде бейне жазбаға ауыстыруға арналған  субтитрлерді YouTube-де орналастыру сияқты сөйлеуді өңдеу бойынша шешімдер бар болса, саңырау адамдар жаңа құзыреттіліктер алу үшін онлайн контентті пайдалана алған болар еді. Алайда, басты шектеулердің бірі – ым тілдері туралы деректердің аса үлкен, қорытындылынатын, нақты жиынтықтарының көптігінде болып отыр.

Анара Сандыгулова ым тілдеріндегі белгілер белгілі бір ережелер бойынша жинақталған фонологиялық компоненттерден тұрады деп түсіндіреді. Лингвистер белгілерде бар мынадай негізгі компоненттерді бөліп көрсетеді: қолдардың қай түрде болуы, денеде орналасуы, қозғалыс, бағдар, мимика және ерін үлгілері. Бұл жоба машинамен оқытуға және  лингвистикалық зерттеулер үшін жарамды болатын қазақ тілі белгілерінің бірінші корпусын құруға бағытталған. Бейнематериалдардың кез-келген жиынтығы сияқты, ым-ишара тілдердің (қолмен және қолсыз жасалатын компоненттер) қолмен жасау аннотациясы өте көп еңбекті қажет ететін және ресурсты қажетсінетін еңбек болып табылады. Біз қолмен және қолсыз жасалатын компоненттерді автоматты түрде аннотациялайтын жартылай автоматты аннотация құралын жасауға ұмтылудамыз, осылайша деректердің аннотацияланған жиынын барынша жылдам жасауға көмектесеміз.  Сонымен бір мезгілде, бұдан әрі алгоритмдер адам-компьютер/робот өзара әрекетінің түрлі қосымшалары үшін ым тілдерін автоматты түрде тану үшін қолданылатын болады, – деп атап көсетті ол.

Жобаның негізгі уәждеуші факторы KSL өңдеу үшін деректерді мұқият және жүйелі ұйымдастыру қажеттілігі болып табылады. “Осындай деректер жиынтығы бүкіл әлемде басқа тілдердің белгілері үшін де бар, алайда олар көбінесе сөздік қорының көлемі, белгілердің өзгергіштігі бойынша айтарлықтай шектеулі және оларда нақты емес белгілер қамтылған, өйткені олар көбінесе шабан және интерпретациясы барынша қарапайым. Міне, сондықтан K-SLARS краудсорсинг техникасын пайдаланатын тәуелсіз, нақты деректер жиынтығын жинауға ұмтылады”, – деді Анара.

 Зерттеу жобасы Назарбаев Университетінің Инженерия және цифрлық ғылымдар мектебінің ғылыми-зерттеу зертханалары базасында жүзеге асырылуда. Зерттеуге бірнеше жергілікті мамандар, оның ішінде магистранттар мен аспиранттар қатысты. Біз Норвегиядағы Берген университетінің сурдоаудармашысы, қауымдастырылған профессор Вадим Киммельманмен тығыз ынтымақтастықта жұмыс істейміз, оның орыс сурдоаудармашысымен жұмыс тәжірибесінің жобаның табысты болуы үшін шешуші мәні бар. Жоба ғылыми этика қағидаттарын, басқарудың этикалық рәсімдерін, зияткерлік адалдықтың жоғары стандарттарын сақтауды және ғылыми деректерді бұрмалауға, бұрмалауларға, плагиатқа және жалған авторлыққа жол бермеуді қамтамасыз етеді деп күтілуде.

“Біздің команда беделді халықаралық конференцияларда екі басылымды қамтамасыз етті”. Сайып келгенде, жоба бағдарламалық қамтамасыз ету, деректер жиынтығы, ноу-хау және зияткерлік меншік ретінде қаралатын нәтижелер комбинациясына ие болады”, – деп қорытындылады Анара Сандығұлова. Зерттеудің нәтижесі жаңа ым тілдері бойынша деректер жиынтығы болады және ым тілдері үшін арнайы жартылай автоматты аннотация құралы болады деп күтілуде.