Microsoft Translator
Microsoft Translator (ранее известный как Bing Translator) — это многоязычный облачный сервис машинного перевода, разрабатываемый и поддерживаемый корпорацией Microsoft. Данная служба входит в состав Microsoft Cognitive Services и интегрирована в широкий спектр продуктов для конечных пользователей, разработчиков и корпоративных клиентов. Среди них — Bing, Microsoft Office, SharePoint, Microsoft Edge, Microsoft Lync, Yammer, Skype Translator, Visual Studio, а также мобильные приложения Microsoft Translator для Windows, Windows Phone, iPhone, Apple Watch, Android и Android Wear.
Кроме того, Microsoft Translator предоставляет бизнес-услуги по переводу текста и речи через облачные API. Переводчик текста доступен в нескольких вариантах: от бесплатного тарифа, поддерживающего до двух миллионов символов в месяц, до платных подписок, рассчитанных на миллиарды символов. Услуги перевода речи реализованы через Microsoft Speech Services и учитывают продолжительность аудиопотока.
Сервис обеспечивает перевод текста между множеством языков и их диалектов, а также поддерживает системы речевого перевода, используемые в таких продуктах, как функция живого общения Microsoft Translator, Skype Translator, Skype для Windows, а также в мобильных приложениях для iOS и Android.
- История
Первая версия системы машинного перевода Microsoft была создана в 1999–2000 годах в исследовательском центре Microsoft Research. Она базировалась на семантических предикатно-аргументных структурах, известных как логическая форма (LF), и развивалась из функции исправления грамматики в Microsoft Word. Впоследствии эта система применялась для перевода всей базы знаний Microsoft на испанский, французский, немецкий и японский языки.
В 2011 году сервис был расширен за счёт внедрения облачного API, что позволило интегрировать Microsoft Translator в продукты для частных и корпоративных пользователей. В марте 2016 года добавилась возможность перевода речи.
В мае 2018 года состоялось обновление API, в котором нейронный машинный перевод стал методом по умолчанию. Новая версия также включила функции транслитерации и двуязычного словаря для поиска слов, альтернативных переводов и примеров употребления в предложениях.
- Методология перевода и исследования
Microsoft Translator применяет машинный перевод для мгновенного преобразования текста с одного естественного языка на другой. Система основывается на четырёх направлениях исследований в области компьютерного обучения:
| Тип обучения | Влияние на перевод | |--------------|-------------------| | Нейронные сети | Нейросетевой перевод имитирует работу мозга, проходя два этапа: моделирование слова в контексте предложения и преобразование этой модели на целевой язык. Этот метод является стандартным для API Microsoft Translator. | | SMT на основе синтаксиса | Перевод строится на синтаксических единицах, а не на отдельных словах или фразах. Это улучшает склонения и порядок слов, особенно в технических текстах. | | SMT на основе фраз | Система обучается на параллельных текстах без привлечения лингвистических знаний, что ускоряет процесс и повышает качество перевода. | | Выравнивание слов по битексту | Определение соответствий между словами в параллельных текстах ускоряет алгоритмы и улучшает качество перевода благодаря дискриминационным и генеративным подходам. | | Языковая модель | Использование N-граммных моделей обеспечивает плавность и читаемость перевода на целевом языке. |
- Точность
Качество переводов Microsoft Translator оценивается с помощью алгоритма BLEU (Bilingual Evaluation Understudy), который сравнивает машинный перевод с человеческим. BLEU является одной из первых метрик, достигших высокой корреляции с оценками людей, и остаётся популярным инструментом для автоматической оценки.
Поскольку машинный перевод основан на статистических алгоритмах, он не всегда абсолютно точен. Для улучшения качества Microsoft Translator внедрил механизмы обратной связи, такие как Collaborative Translation Framework, позволяющие пользователям предлагать альтернативные варианты перевода. Эти предложения затем используются для обучения алгоритмов.
В ноябре 2016 года Microsoft Translator перешёл на глубокие нейронные сети для девяти наиболее популярных языков, включая все языки с поддержкой речи и японский. Нейронные сети обеспечивают более высокое качество перевода по сравнению со статистическими методами.
- Поддерживаемые языки
Список поддерживаемых языков доступен на официальном сайте Microsoft Translator и может быть получен программно через облачные сервисы. По состоянию на текущий год сервис поддерживает 179 языков и их вариантов, включая:
- Азербайджанский - Албанский - Амхарский - Английский (включая британский вариант) - Арабский (включая египетский и марокканский диалекты, а также романизацию) - Армянский - Ассамский - Астурийский - Африкаанс - Ачехский (латиница) - Балийский - Баскский - Тоба - Башкирский - Белорусский - Бенгальский - Бикольский - Бирманский - Бодо - Болгарский - Боснийский - Бходжпури - Валлийский - Варайский - Венгерский - Венетский (современный) - Верхнелужицкий - Вьетнамский - Гаитянский креольский - Галисийский - Луганда - Греческий - Грузинский - Гуджарати - Дари - Датский - Догри - Зулу - Ибанский - Иврит - Игбо - Идиш (диалекты) - Илоканский - Индонезийский - Инуиннактун - Инуктитут (включая латиницу) - Ирландский - Исландский - Испанский - Итальянский - Йоруба - Кабувердьяну - Казахский - Каннада - Стандартный кантонский (традиционная китайская письменность) - Капампанганский - Каталанский - Кашмирский - Руанда - Киргизский - Классический китайский - Китайский (традиционные и упрощённые иероглифы) - Клингонский (латиница) - Конкани - Корейский - Корсиканский - Коса - Крио - Курдский (курманджи и сорани) - Кхмерский - Лаосский - Латинский - Латышский - Лигурский (генуэзский диалект) - Лимбургский - Лингала - Литовский - Ломбардский - Люксембургский - Маврикийский креольский - Майтхили - Македонский - Малагасийский - Малайский - Малаялам - Мальдивский - Мальтийский - Маори - Маратхи - Марвари - Минангкабау (латиница) - Монгольский (кириллица и старомонгольское письмо) - Немецкий - Непальский - Нидерландский - Нижнелужицкий - Норвежский (букмол и новонорвежский) - Ньянджа - Окситанский - Ория - Отоми (Керетаро) - Панджаби (гурмукхи и шахмукхи) - Папьяменто - Персидский - Польский - Португальский (бразильский и европейский варианты) - Пушту - Румынский - Рунди - Русский - Самоанский - Санскрит - Сардинский - Себуанский - Северный сото - Сейшельский креольский - Сербский (вуковица и гаевица) - Сесото - Тсвана - Сингальский - Синдхи - Сицилийский - Словацкий - Словенский - Сомалийский - Суахили - Сунданский - Таджикский - Таитянский - Тайский - Тамильский - Татарский - Телугу - Тетум - Тибетский - Тигринья - Ток-писин - Тонганский - Турецкий - Туркменский - Узбекский (латиница) - Уйгурский - Украинский - Урду - Фарерский - Фиджийский - Филиппинский - Финский - Французский (включая канадский вариант) - Фризские языки - Фриульский - Хауса - Хилигайнон - Хинди - Хмонг - Хорватский - Чешский - Чхаттисгархи - Шведский - Шона - Эсперанто - Эстонский - Юкатекский - Яванский - Ямайский креольский - Японский
- Примечания
- Ссылки
Ссылки[править | править код]
- Веб-служба Bing Translator
- Блог переводчика Майкрософт
- Сайт Microsoft Translator
- https://datamarket.azure.com/dataset/bing/microsofttranslator|access-date=2014-12-08|archive-url=https://web.archive.org/web/20180206203347/http://datamarket.azure.com/dataset/bing/microsofttranslator|archive-date=2018-02-06|url-status=dead}}
- https://www.microsoft.com/en-us/translator/languages.aspx|access-date=2023-01-06}}
- http://research.microsoft.com/en-us/people/arulm/}}
- http://blogs.msdn.com/b/translation/archive/2016/03/30/microsoft-translator-brings-end-to-end-speech-translation-to-everyone-with-the-world-s-first-speech-translation-api.aspx|title=Microsoft
- https://www.microsoft.com/en-us/translator/translatorapi.aspx/|title=Microsoft
- https://web.archive.org/web/20190902184414/https://www.microsoft.com/en-us/translator/business/translator-api/|archive-date=2019-09-02}}
- https://www.microsoft.com/en-us/research/project/machine-translation-2/}}
- https://microsofttranslator.uservoice.com/knowledgebase/articles/1099027-what-is-neural-network-based-translation|access-date=2016-11-28|archive-date=2021-02-08|archive-url=https://web.archive.org/web/20210208195336/https://microsofttranslator.uservoice.com/knowledgebase/articles/1099027-what-is-neural-network-based-translation|url-status=dead}}
- http://www.aclweb.org/anthology-new/H/H05/H05-1011.pdf|archive-url=https://web.archive.org/web/20080720142028/http://www.aclweb.org/anthology-new/H/H05/H05-1011.pdf|url-status=dead|archive-date=2008-07-20}}
- http://research.microsoft.com/en-us/projects/mt/w07-0711.pdf}}
- http://research.microsoft.com/apps/video/default.aspx?id=193716}}
- https://blogs.msdn.microsoft.com/translation/2016/11/15/microsoft-translator-launching-neural-network-based-translations-for-all-its-speech-languages/}}
- https://docs.microsoft.com/en-us/azure/cognitive-services/translator/language-support}}
- https://www.bing.com/translator
- https://datamarket.azure.com/dataset/bing/microsofttranslator
- https://www.microsoft.com/en-us/translator/languages.aspx
- http://research.microsoft.com/en-us/people/arulm/
- http://blogs.msdn.com/b/translation/archive/2016/03/30/microsoft-translator-brings-end-to-end-speech-translation-to-everyone-with-the-world-s-first-speech-translation-api.aspx
- https://www.microsoft.com/en-us/translator/translatorapi.aspx/
- https://www.microsoft.com/en-us/research/project/machine-translation-2/
- https://microsofttranslator.uservoice.com/knowledgebase/articles/1099027-what-is-neural-network-based-translation
- http://www.aclweb.org/anthology-new/H/H05/H05-1011.pdf
- http://research.microsoft.com/en-us/projects/mt/w07-0711.pdf
- http://research.microsoft.com/apps/video/default.aspx?id=193716
- https://blogs.msdn.microsoft.com/translation/2016/11/15/microsoft-translator-launching-neural-network-based-translations-for-all-its-speech-languages/
- https://docs.microsoft.com/en-us/azure/cognitive-services/translator/language-support