Выбор онлайн-переводчика для web-приложения
Краткий обзор и экспресс - сравнение девяти онлайн-переводчиков
Онлайн-переводчики, как и звезды, рождаются и умирают. Относительно недавно появился ресурс itranslate4.eu, и не так давно был поглощен и, увы, буквально перестал существовать многими любимый Babelfish. Из 10 переводчиков, упомянутых в обзоре 2001 года, 3-х переводчиков уже не существует.
Для тех, у кого стоит проблема, что же выбрать, есть интересные обзоры, как на русском, так и на английском.Когда мы выбирали онлайн-переводчик для разрабатываемого нами web-приложения , то оказалось, что данные обзоры нам не совсем подходят. Для нас, кроме адекватности и точности перевода, были важны: наличие удобного API и понятная ценовая политика (отлично, если - free). Проведя экспресс-сравнение девяти онлайн-переводчиков, мы, с некоторым удивлением, обнаружили, что ресурсы таких гигантов, как, например, Google или Яндекс, в нашем списке оказались ближе к концу. Если вам интересно, как мы сравнивали, и что у нас получилось, читайте далее...
Актуальный поиск привел к следующим ресурсам ( в скобках указано количество языков):
Google Translate(64), Prompt(7), Яндекс(5), Trident software(59), Bing translator (Microsoft, поглотитель Babelfish - 38), WorldLingo(33), Babylon(30), Reverso(13), Systran(15), itranslate4.eu(36) - агрегатор, в который входят Trident software, Prompt, Systran и др.
1) Оценка точности перевода
Точность перевода - комплексный показатель, который может включать в себя довольно много параметров, таких как:
- языки и направления перевода в паре;
- грамматическая корректность перевода спряжений и склонений, наклонений и форм предложений;
- корректность перевода фразеологических оборотов и т.д.
Полноценный анализ - это довольно трудоемкая работа, на которую у нас не оказалось ни времени, ни желания. Нужен был простой и в то же время действенный способ проверки качества перевода. При этом, уровень перевода должен был решать задачи нашего web-приложения.
Во-первых, мы сузили количество языков и направление перевода. На данный момент нас пока интересует только направление "английский - русский".
Во-вторых, поскольку единицей текста является предложение, а наиважнейшей составной частью структуры предложения является сказуемое, то мы решили посмотреть, насколько адекватно на русский язык переводятся 26 форм английского сказуемого.
Поэтому тестовый материал включал в себя 26 простых фраз с глаголом "to ask".
Правильность перевода определялась вручную. Если фраза имела правильный перевод, то ставилась оценка в один балл, если форма сказуемого была переведена неправильно, то - ноль баллов. Если были ошибки или неточности, но не с формой сказуемого, а скажем, с падежом дополнения, например: "Они не спросили ему?" - ставилась оценка в пол-балла. Возможно, кто-то поставил бы ноль, но нас интересовала точность перевода именно глагольной формы сказуемого (то есть части "они не спросили..."). Результат можно увидеть в файле google spreadsheet.
Для того, чтобы полученные оценки можно было сравнивать с оценками по другим критериям, а в итоге получить некую интегральную оценку, было решено, что шкалу от 0 до 26 правильных ответов мы делим на три интервала и каждому интервалу присваиваем балл от 0 до 2:
2 балла (от 20 до 26 правильных ответов) набрали:
Prompt(24), Trident software(21), itranslate4.eu (так как он включает в себя оба этих переводчика).
1 балл (от 10 до 20 правильных ответов) набрали:
WorldLingo(17), Systran(17).
0 баллов (менее 10 правильных ответов) набрали:
Google Translate(9), Bing translator(7), Babylon(7), Reverso(7.5) и Яндекс(5).
2) Оценка API
Решили оценивать следующим образом:
Есть открытый API - 2 балла: WorldLingo, Яндекс, Google Translate, Bing translator, itranslate4.eu
API по запросу - 1 балл: Babylon, Prompt.
Информации по API не обнаружено - 0 баллов: Systran, Reverso, Trident software.
3) Стоимость
Бесплатные ресурсы - 2 балла: Bing translator, Яндекс, itranslate4.eu (до 10 тыс. знаков)
Платные ресурсы: за основу была взята стоимость перевода 1 млн знаков.
Платные ресурсы с открытой ценовой политикой - 1 балл : itranslate4.eu 7€ ( свыше 10 тыс. знаков - 1.5 балла), Prompt ~ 15$ (минимум 30 тыс р), Google - 20$
По запросу - 0 баллов.
Итоговый рейтинг
Наиболее важным и ценным критерием для нас является точность перевода, поэтому и весовой коэффициент (коэффициент важности) ему был присвоен - 2.
Общую оценку переводчика мы получили по следующей формуле:
общая оценка = K * A
где A - балл того критерия; K - коэффициент важности для критерия
|
ресурс |
кол-во правильно переведенных фраз из 26 |
точность перевода (балл) |
API |
API (балл) |
Стоимость(1 млн. знаков) |
Стоимость (балл) |
Общая оценка |
|
коэффициент важности |
2 |
1 |
1 |
|
|||
|
itranslate4.eu |
24 |
2 |
открытый |
2 |
0-7 euro |
1,5 |
7,5 |
|
Prompt |
24 |
2 |
по запросу |
1 |
15$ |
1 |
6 |
|
Bing translator |
7 |
0 |
открытый |
2 |
free |
2 |
4 |
|
Яндекс |
5 |
0 |
открытый |
2 |
free |
2 |
4 |
|
WorldLingo |
17 |
1 |
открытый |
2 |
? |
0 |
4 |
|
Trident software |
21 |
2 |
не нашли |
0 |
? |
0 |
4 |
|
Google Translate |
9 |
0 |
открытый |
2 |
$20 |
1 |
3 |
|
Systran |
17 |
1 |
не нашли |
0 |
? |
0 |
2 |
|
Babylon |
7 |
0 |
по запросу |
1 |
? |
0 |
1 |
|
Reverso |
7.5 |
0 |
не нашли |
0 |
? |
0 |
0 |
Для двух параметров "качество перевода" (простых грамматических конструкций) и "стоимость" можно построить такую таблицу:
|
Перевод |
Дорого |
Недорого |
Бесплатно (пока) |
|
Хорошо |
itranslate4.eu |
||
|
Плохо |
Google Translate |
Bing translator, Яндекс |
Примечания:
1) Ресурсы Trident, Reverso, Babylon, WorldLingo и Systran не вошли в таблицу, так как стоимость использования их неизвестна.
2) Ресурс Prompt из-за минимальной суммы в 30 тыс. рублей, скорее, можно отнести к категории "хорошо, дорого".
Итог
Для нашего web-приложения, разработанного для Речевого Тренажера, задача которого - отработка простых речевых конструкций на английском языке, мы выбрали два ресурса: itranslate4.eu и Bing translator. Второй был выбран в надежде, что достоинства Babelfish, будут реализованы в Bing translator.
P.S. Пару слов о Речевом Тренажере. Он был разработан, в частности, по мотивам курса "Английский за 16 часов" Дмитрия Петрова. Мы, как и Дмитрий Петров, считаем, что ежедневные 10-15-ти минутные самостоятельные занятия помогают сформировать речевые автоматизмы, необходимые для свободного владения иностранным языком.
PP.S. По поводу Babelfish. Ранее мы сравнивали его переводы с переводами Systran и WorldLingo. По схожести перевода фраз сложилось такое ощущение, что ядро во всех переводчиках одно. Хотя, очень небольшие различия все - таки были. Не так давно старый добрый Babelfish перестал существовать, так как новый собственник Microsoft (изначально Babelfish принадлежал Аltavista, потом перешел к Yahoo) заменил его своим довольно сомнительным переводчиком, чем вызвал разочарование и недоумение у поклонников Babelfish (смотрим комменты от конца мая сего года к решению Microsoft).
С уважением команда Lingup (Попробуй этих свежих он-лайн технологий в изучении языков, да выпей же чаю!)

