НОВА AL АЛАТКА НА „МЕТА” ЗА ПРЕВОД И ТРАНСКРИПЦИЈА

0
409

Во својата потрага да развие вештачка интелигенција која може да разбере низа различни дијалекти, компанијата „Мета платформи“ објави нова алатка со вештачка интелигенција, модел на AI наречен SeamlessM4T кој служи за за превод и транскрипција на говор и текст.

Достапен во отворен извор заедно со SeamlessAlign, нова база на податоци за превод, „Мета” тврди дека SeamlessM4T претставува „значаен напредок“ во оваа област. Тоа е потенцијална основа за алатки за комуникација во реално време, која ќе ги премостува јазичните бариери.

„Нашиот уникатен модел обезбедува преводи преку барање кои им овозможуваат на луѓето кои зборуваат различни јазици да комуницираат поефективно“, пишува „Мета” во блог пост споделен со TechCrunchSeamlessM4T имплицитно ги препознава изворните јазици без потреба од посебен модел за идентификација на јазикот“.

SeamlessM4T е нешто како духовен наследник на Meta’s No Language Left Behind, модел на машинско преведување текст во текст и Universal Speech Translator, еден од ретките системи за директно преведување говор што го поддржува јазикот Хокиен. Покрај тоа, овој систем гради Massively Multilingual Speech, рамка на „Мета” која обезбедува технологија за препознавање говор, идентификација на јазикот и синтеза на говор на повеќе од 1.100 јазици.

„Мета” не е единствената компанија која инвестира ресурси во развојот на софистицирани алатки за преведување и транскрипција со вештачка интелигенција.

Покрај богатството на комерцијални услуги и модели со отворени извори кои се веќе достапни од Amazon, Microsoft, OpenAI и голем број стартапи, Google го создава она што го нарекува Универзален модел на говор, дел од големиот напор на технолошкиот гигант да изгради модел кој може да разбере 1.000 најзборувани јазици во светот. Во меѓувреме, Mozilla беше на чело на Common Voice, една од најголемите повеќејазични збирки на гласови за обука на алгоритми за автоматско препознавање говор.

Но, SeamlessM4T е еден од поамбициозните напори за комбинирање на способностите за превод и транскрипција во еден модел.

При развивањето, „Мета” вели дека избришале јавно достапен текст (по редослед од „десетици милијарди реченици“) и говор (4 милиони часа) од вебот. Во интервју за TechCrunch, Хуан Пино, истражувачки научник од одделот за истражување на вештачката интелигенција на „Мета” и соработник во проектот, не ги откри точните извори на податоците, велејќи само дека има повеќе нивни варијации.

Не секој креатор на содржина се согласува со практиката на користење јавни податоци за обука на модели кои би можеле да се користат комерцијално. Некои покренаа тужби против компании кои создаваат алатки за вештачка интелигенција над јавно достапните податоци, тврдејќи дека продавачите треба да бидат принудени да обезбедат кредит, ако не компензација – и јасни начини за откажување.

Но, oд „Мета” тврдат дека податоците што ги откриле, кои може да содржат информации за лична идентификација, не биле заштитени со авторски права и првенствено дошле од отворен извор или лиценцирани извори.

Без оглед на случајот, компанијата ги користеше избришаните текстови и говори за да создаде база на податоци за обука за SeamlessM4T, наречена SeamlessAlign. Истражувачите порамнија 443.000 часа говор со текстови и создадоа 29.000 часа „говор во говор“, што го „научи“ SeamlessM4T како да го транскрибира говорот во текст, да преведува текст, да генерира говор од текст, па дури и да преведува зборови изговорени на еден јазик во зборови на друг јазик.

„Мета” тврди дека според внатрешен репер, SeamlessM4T има подобри резултати во однос на звуците во позадина и „варијациите на звучниците“ во задачите со транскрипција на говор во текст во споредба со сегашниот најсовремен модел за транскрипција на говор. Ова го припишува на богатата комбинација на говорни и текстуални податоци во базата на податоци за обука, за која „Мета” верува дека му дава предност на SeamlessM4T во однос на моделите кои служат само за говор и само за текст.

„Со најсовремените резултати, веруваме дека SeamlessM4T е важен чекор напред во потрагата на заедницата за вештачка интелигенција која е насочена кон создавање универзални системи за повеќе задачи“, пишуваат од „Мета” на блогот.
Но, се прашуваме какви бази би можел да содржи моделот.

Неодамнешен текст во The Conversation ги посочува бројните недостатоци во преводот со вештачка интелигенција, вклучувајќи различни форми на родова пристрасност.

Алгоритмите за препознавање говор, исто така, често содржат предрасуди. Студијата објавена во Зборникот на Националната академија на науките покажа дека системите за препознавање говор од водечките компании имаат двојно поголема веројатност неправилно да го транскрибираат звукот од црните звучници за разлика од белите звучници.
Овој податок не е изненадувачки, SeamlessM4T не е единствен во овој поглед.

Во белата книга објавена заедно со објавата на блогот, „Мета” открива дека моделот „прегенерализира до машки форми при преведување од неутрални термини“ и подобро функционира кога преведува од референца од машки род (на пример, именки како „тој“ на англиски) за повеќето јазици.

Покрај тоа, во отсуство на информации за полот, SeamlessM4T претпочита да ја преведува машката форма околу 10% од времето – можеби поради „преголемата застапеност на машката лексика“ во податоците за обуката, шпекулира „Мета”.

„Мета” тврди дека SeamlessM4T не додава огромна количина токсичен текст во своите преводи, што е вообичаен проблем со преводот и генеративните Al модели на текст. Но, не е совршен. На некои јазици, како што е бенгалскиот и киргистанскиот, SeamlessM4T прави повеќе токсични преводи – што значи, преводи во кои преовладува говор на омраза или профани преводи – за социо-економскиот статус и културата. И воопшто, SeamlessM4T е потоксичен во преводите кои се занимаваат со сексуална ориентација и религија.

Мета забележува дека јавното демо за SeamlessM4T содржи филтер за токсичност во внесениот говор, како и филтер за потенцијално токсично излезен говор. Меѓутоа, тој филтер стандардно не е присутен во изданието со отворен извор на моделот.

Најголемиот проблем со Al преведувачите што не е опфатен во белата книга е губењето на лексичкото богатство што може да резултира од нивната прекумерна употреба. За разлика од вештачката интелигенција, кога преведуваат од еден јазик на друг човечките толкувачи прават оригинални избори, автентични за нив. Тие може да објаснат, нормализираат или да кондензираат и сумираат. Системите за вештачка интелигенција можат да генерираат „попрецизни“ преводи, но резултатите од тие преводи  можат да одат на сметка на разновидноста на преводот.

Веројатно затоа „Мета” советува SeamlessM4T да не се користи за долги и заверени преводи, како оние што ги бараат владините агенции и преведувачките авторитети.

„Мета”, исто така, ја обесхрабрува употребата на SeamlessM4T за медицински или правни цели, што најверојатно е обид да ги заштити своите бази во случај на погрешен превод.

Тоа е мудра одлука, бидејќи имало барем неколку случаи кога погрешните Al преводи резултирале со грешки за органите за спроведување на законот. Во септември 2012 година, од страна на полицијата по грешка бил обвинет човек со курдско потекло за финансирање тероризам поради погрешно преведена СМС порака. И во 2017 година, полицаец во Канзас користел Google Translate за да праша некој што зборува шпански дали може да го пребара неговиот автомобил поради сомнение за поседување дрога, но бидејќи преводот бил неточен, возачот не разбрал целосно на што се согласил и случајот на крајот бил исфрлен.

„Овој единствен системски пристап ги намалува грешките и доцнењата, зголемувајќи ја ефикасноста и квалитетот на процесот на преведување, доближувајќи нè до овозможување беспрекорен превод“, вели Пино.

„Во иднина, сакаме да истражиме како овој основен модел може да овозможи нови комуникациски способности, за на крајот да нè донесе поблиску до свет во кој секој може да биде разбран.”
Да се надеваме дека во иднината луѓето нема да бидат целосно исфрлени од процесот на преведување.