Google не перестает удивлять. Мало того, что они стали самым лучшим поисковиком, напридумывали кучу сервисов, сделали слово "google" нарицательным, так теперь еще и это... Но, обо всем по порядку.

Когда я был маленьким... Нет, на самом деле, не таким уж и маленьким. Когда я был на втором курсе, я впервые попал на "настоящую компьютерную выставку". Это была WinExpo'95, которая проходила тогда на ВВЦ. Начало названия выставки - "Win" - и год ее проведения говорят о том, что тогда только что вышла Windows 95, и выставка была посвящена самой ОС и софту под нее.

Самым большим впечатлением от ОС стал крутящийся на десятке компьютеров по всей выставке чумовой клип Aerosmith "Cryin'". Разбитная Алисия Сильверстоун в коротком платье - это, безусловно, отпад... Но главное, понимаете - видео! Настоящее, без запинок, в окошке 320x240, видео на самом обычном компьютере! Вот это была фантастика!

Но самое главное, конечно, что тогда показывала Microsoft - это приложения, с помощью которых люди могли бы реально делать что-то на компьютере. Был там и MS Office 95, и распознавалка сканированного текста CunieForm от фирмы Cognitive Technologies (никакого FineReader'а там еще не было), какой-то софт по обработке изображений и много-много другой научной фантастики. Тогда я как раз подумал, что с программированием под ДОС, возможно, надо уже завязывать. Потому что все это изобилие недвусмысленно намекало: это и есть будущее.

Там я впервые увидел переводчик Stylus (сейчас он переименовался в линейку продуктов "ПРОМТ". А поскольку я был одним из тех странных редких студентов, которые на выставках больше задают вопросы, и меньше собирают халявные журналы в халявные пакетики, то я подошел, и попросил показать, как это, вообще, выглядит - автоматический перевод. Выглядел он ужасно :-(. Самое большее, на что можно было расчитывать - это приблизительно понять по стоящим рядом словам, о чем могло быть сказано в исходном тексте. А иногда подобранные синонимы складывались настолько неудачно, что текст превращался в полную бессмыслицу.

Прошло много лет...

Теперь, если вы попробуете автоматически перевести текст с русского на английский или обратно, то вы уже можете расчитывать на то, чтобы приблизительно понять по стоящим рядом словам, о чем могло быть сказано в исходном тексте, а иногда подобранные синонимы складываются настолько неудачно, что текст превращается в полную бессмыслицу. М-да...

Впрочем, я совсем ничего плохого не хочу сказать в адрес разработчиков систем автоматического перевода. Просто, это очень сложно. Очевидно, синтаксического анализа текста не хватает для качественного перевода. А чтобы разбирать семнатику... о-о-о, это совсем заоблачные вершины. Существующая машинная логика очень плохо подходит для анализа таких неточных, нерегулярных, построенных на нечетких ассоциациях вещей, как человеческие языки.

Но человеческий ум хорошо творчеством. Сегодня на блоге Азы Доцлера мне на глаза попалась ссылка на статью о совсем другом подходе к переводу, который сейчас активно разрабатывает Google. Вот вам мой (неавтоматический) перевод ключевого момента:

Как они это делают? Конечно, такую систему сложно спрограммировать, но лежащий в основе принцип прост - настолько прост, что исследователи, работающие над системой, смогли перевести ею текст с китайского на английский, сами при этом не зная китайского. Система воспринимает любой язык одинаково, нет никаких вручную заданных грамматический правил, метафор и всего такого. Вместо этого система обучается на основе существующих человеческих переводов. Google полагается на большую базу текстов, которые есть в переводах на разные языки.

Да, они, пожалуй, подошли к этому так, как это должны были сделать именно они. Берутся два текста, про которые известно, что это одно и то же на разных языках. Машина анализирует их и ставит в соответствие совпадающие части. Она не знает ничего ни про отдельные слова, ни, тем более, про их смысл. Просто она видит, что в большинстве русских текстов набор символов "и т.д." употребляется там же, где в английских - "etc." И все.

Результаты мне тоже понравились. Русского варианта нет, но вот, например, фразу с арабского, которую традиционные переводчики превращают при переводе на английский в "Alpine white new presence tape registered for coffee confirms Laden", гугловская система переводит как "The White House Confirmed the Existence of a New Bin Laden Tape". Осмысленно, даже если сделать скидку на то, что это только пример, который приводят сами разработчики.

Единственное сомнение, которое у меня возникло - это возможность найти такое большое количество разноязычных текстов, с правильным и, главное, одинаковым переводом (русские переводы "Гарри Поттера" явно не пойдут), чтобы выдрать из них большинство употребимых в языке выражений. Но с другой стороны, когда начинаешь думать о том, каким огромным объемом текстовой информации обладает Google, то, чем черт не шутит, может это все и заработает.

Кстати, вот, что подумалось... Microsoft'у должно быть стыдно уже просто употреблять само слово "инновация", учитывая существование такой компании, как Google :-).

Комментарии: 7

  1. Alena

    Это мне напомнило историю, как я сдала работу по английскому, переведенную Стилусом. Стилус получил двойку :-).

  2. Jim

    Так, где эту инновацию пощупать то можно? Уж простите меня, практика. Бла-бла-бла, это, конечно, тоже здорово. Ура гуглю и все такое.... :-)

  3. Иван Сагалаев

    Нигде :-). Говорят, что это появится в этом или следующем году. Видимо, все пока в варианте жестокой альфа-версии.

  4. slaff

    Конечно современные технологии и всё такое. Гугл зажигает, но я никогда этим переводчикам не доверял. Всегда всё сам перевожу. Даже проверку орфографии и грамматики в ворде игнорирую.

    Пользуюсь изредка только словарями, не более.

  5. Jim

    Говорят, что это появится в этом или следующем году.

    А... Понял. Я так уже который год жду электронную книгу, которую все по очереди обещают "в следующем году". На деле же, ничего лучшего, чем REB 2000 года разлава, так никто и не выкатил :-)

    Самое время разразиться в адрес маркетологов-обещалкиных, какой-нибудь пафосной обвинительной речью... Но лень :-)

  6. Иван Сагалаев

    Самому переводить - это, безусловно, качественней. Уже хотя бы потому, что человек, например, умеет осмысленно подбирать синонимы...

    Но попробуй-ка перевести с венгерского или китайского? Основной смысл всего этого сервиса не только сделать самый крутой переводчик, а сделать людям доступным гораздо больше интернета. Нужность этого становится очевидной на страничке любой англоязычной категории на Technorati.

  7. Amzin

    Сдается мне, корпуса текстов ООН им в любом случае не хватит - переводчики ООН вряд ли густо использовали метафоры, да и художественная литература чисто структурно отличается от всевозможных распоряжений, межправительственных соглашений и инструкций :)

    Впрочем, я тоже жду новинки с нетерпением.

    ps. Недавно читал "худший перевод-2005" - Дуглас Коупленд, "Рабы Майкрософта". Сдается мне, Google сможет достичь как раз такого уровня.

Добавить комментарий