Volume 17, No. 1 
January 2013

 
  Ilya Ulitkin



 
 

Front Page

 
 
Выберите одну из 62 предыдущих проблем.

 


 
Index 1997-2013

 
TJ Interactive: Translation Journal Blog

 
  Translator Profiles
Translation Can Be Fun
by John C. Alleman

 
  The Profession
The Bottom Line
by Fire Ant and Worker Bee
 
Found in Translation by Nataly Kelly and Jost Zetzsche
reviewed by Gabe Bokor

 
  Translators and the Computer
Human Translation vs. Machine Translation: Rise of the Machines
Автор Илья Улиткин
 
Friendly Files and Fancy Formats
by Jost Zetzsche

 
  Medical Translation
Hints and Links for Medical Translators
by Palma Chatonnet-Marton

 
Translation Theory
Translation Strategies: A Review and Comparison of Theories
by Zohre Owji, M.A.
 
TTR Changes in Different Directions of Translation
by Sergiy Fokin, PhD, AP

 
Business & Finance
Terminology for the English ⇔ Spanish translation of mercantile documents used in international trade
by Karina Socorro Trujillo

 
Interpreting
The Challenges of Interpreting Humor (a.k.a. “Don’t Kill the Killjoy”)
by Paula J. Liendo

 
Португальский
How to Challenge a Brazilian Rear Admiral to a Duel
by Danilo Nogueirao

 
Translator Education
Methods of Enhancing Speaking Skills of Elementary Level Students
by Yulia Morozova
 
Looking for New Methods to Study the Regulation of Reading Comprehension
by Christian Soto, Valentina Carrasco
 
La innovación del Espacio Europeo de Educación Superior vs. la tradición educativa: la terminología y la fraseología del ámbito académico (español ⇔ inglés)
Esther Vázquez y del Árbol

 
  Caught in the Web
Web Surfing for Fun and Profit
by Cathy Flick, Ph.D.
 
Translators’ On-Line Resources
by Gabe Bokor
 
Translators’ Best Websites
by Gabe Bokor

 
  Translators' Tools
Translators’ Emporium

 
Call for Papers and Editorial Policies
  Translation Journal
The Translator & the Computer
 
 

Человеческий перевод против машинного перевода:

Восстание машин

Автор Илья Улиткин

Существует несколько абстрактных подходов к автоматической оценке качества машинного перевода (МП). Мы описываем несколько методов автоматической оценки качества МП, такие, как методы, основанные на сравнении строк и n-граммные модели. Переводы, выполненные с помощью Google и PROMT, были сопоставлены с эталонным переводом с помощью программы для автоматической оценки перевода. Результаты приведены ниже.

Ключевые слова: автоматическая оценка, качество перевода, машинный перевод, BLEU, F-мера, TER.


1. Введение

Идея машинного перевода естественных языков впервые возникла в 17 веке, но стала реальностью лишь только в конце 20 века. В наши дни, компьютерные программы широко используются для автоматизации процесса перевода. Несмотря на то, что был достигнут большой прогресс в этой сфере, перевод, выполненный машиной, всё еще далек от совершенства. Тем не менее, страны продолжают инвестировать миллионы долларов в эту сферу. В начале 90-ых, правительство США спонсировало соревнование среди систем МП. Возможно, одним из ценных результатов этого предприятия было вручную произведенное улучшение качества МП, вручную произведенное со вниманием относительно эталонных переводов [1]. Развитие систем МП дало толчок к огромному количеству исследований, тем самым воодушевив множество исследователей к поиску надежных методов автоматического улучшения качества МП.

Эволюция МП служит двум целям: относительная оценка позволяет узнать, насколько одна система МП лучше другой, а безусловная оценка (имеющая оценку от 0 до 1) показывает эффективность (например, когда оценка равна 1, это означает, что перевод идеален).

Несмотря на то, что был достигнут большой прогресс в этой сфере, перевод, выполненный машиной, всё еще далек от совершенства.
Несмотря на это, развитие методов для численной оценки качества МП является сложной задачей. Во многих областях науки существуют показатели, измеряющие эффективность, например различие между предполагаемым и полученным результатом. Так как естественные языки сложны, оценить качество перевода очень трудно. Две абсолютно разных последовательности слов, могут быть абсолютно идентичны по смыслу (Ваза на столе и На столе стоит ваза), и две последовательности, практически не отличающиеся друг от друга, имеют абсолютно разное значение (На столе стоит ваза и На столе не стоит ваза).

Традиционно, основной оценкой качества МТ является адекватность перевода (перевод сохраняет смысл оригинального текста) и плавность (перевод верен с грамматической точки зрения). Большинство современных методов оценки качества МП основываются на сопоставлении. Ранние подходы были основаны на том, насколько похож текст, переведенный машиной, на тот, который был переведен профессиональным переводчиком, т.е. количество баллов было равно количеству совпавших слов [2]. Практически в то же время был предложен другой метод. Он был основан на том, что совпадающие по переводу слова, расположенные в том же порядке, что и в тексте перевода профессионального переводчика, должны оцениваться большим количеством баллов, нежели просто совпавшие по переводу [3].

Иными словами, чем длиннее смежные последовательности совпадающих слов, тем выше должна быть оценка. Папинени и др. [4] доложили, что конкретная версия этой идеи, которую они назвали “BLEU”, очень схожа с системой человеческих суждений. Доддингтон [5] предложил другую версию этой идеи, в данное время известной как система оценивая “NIST”. Не смотря на то, что критерии BLEU и NIST могут быть полезны для сравнения относительного качества различных результатов МП, сложно разобраться в таких оценках [6].

В этой статье мы рассмотрим различные методы оценки качества МП и проанализируем машинные переводы и тексты, переведенные профессионалами. В следующих разделах мы опишем несколько методов оценки качества МП: некоторые из них основаны на сопоставлении строк, остальные, такие как n-граммные модели, основаны на использовании информационного поиска. Далее, мы оценим качество перевода, используя специальные программы.

2. Методы автоматической оценки качества МП

На данный момент, главный подход к оценке качества языковых моделей для систем МП основывается на использовании статистического метода. В этом случае, модель – это, по сути, распределение вероятности на ряде всех предложений языка. В действительности, невозможно применить модель таким образом, поэтому используются более компактные алгоритмы. Кратко рассмотрим, какие модели в данное время используются в коммерческих и экспериментальных системах оценки качества МП с неограниченным запасом слов.

2.1 Метод приблизительного соответствия строки

В информатике, приблизительное соответствие строки (часто в разговорной речи называемое нечетким поиском строки) – это метод поиска строк, которые приблизительно соответствуют эталону (а не точно). Проблема поиска приблизительно совпадающих строк обычно разделяется на две подпроблемы: нахождение приблизительной подстроки внутри уже данной строки и нахождение словарных последовательностей, примерно соответствующие эталону [7].

Коэффициент ошибочных слов (КОС) – это метрика, основанная на этом подходе. КОС рассчитывается, как сумма вставок, удалений и замен, нормированная длиной эталонного предложения. Если КОС равен нулю, то перевод идентичен эталонному тексту. Основная проблема заключается в том, что итоговая оценка не всегда находится в диапазоне от 0 до 1. В некоторых случаях, когда перевод неправильный, КОС может превышать 1.

Другой версией КОС является метрика КОСг, в которой сумма вставок удалений и замен, нормирована расстоянием Левенштейна, т.е. длинной правки. В информационной теории и компьютерной лингвистике расстояние Левенштейна (редакционное расстояние или длинна редактирования) между двумя строками определяется как минимальное количество исправлений, необходимых для преобразования одной строки в другую с допустимыми редакционными операциями, такими как вставка, удаление или замена одного символа [8]. Преимущество этой меры состоит в том, что оценка качества перевода всегда будет в пределах от 0 до 1 (даже в самом худшем случае совпадения, или в отсутствии перевода, значение не превышает единицы).

Эксперименты, проведенные Блаттсомом и др. показали, что метрика КОСг не надежна и не согласовывается с оценками, полученными, когда машинный перевод анализировался людьми [9].

Коэффициент позиционно-независимых ошибок (КПО) пренебрегает порядком слов при сопоставлении строк. В этом случае, высчитывается различие между текстом, переведенным машиной, и эталонным переводом, нормированное длинной эталонного перевода [10].

Другая метрика, которая часто используется при оценке качества перевода – это коэффициент ошибок перевода (КОП). Эта метрика позволяет измерить количество правок, необходимых для изменения результатов системы в один из данных эталонных переводов [11].

По сути, любая метрика соответствия строки может быть использована для оценки качества МП. Один из таких примеров – “ядро строки”, которое позволяет принимать во внимание разные уровни естественного языка (например, морфологический, лексический, и т.д.), или отношения между синонимами [12].

2.2 N-граммные модели.

В n-граммных языковых моделях используется явное предположение того, что следующее слово в предложении зависит от предыдущих n-1 слов. На практике используются модели, где n=1, 2, 3 и 4. Для английского языка самые успешные модели, где n=3 или 4. На сегодняшний день, практически все системы автоматической оценки качества МП основываются на моделях n-грамм. В этом случае вероятность всего предложения высчитывается как произведение вероятностей его n-граммных составляющих

Главное преимущество n-граммных моделей заключается в их относительной простоте и возможности составления модели, которая может быть обучена достаточно большому корпусу языка. Тем не менее, такие модели не лишены недостатков. N-граммные модели позволяют имитировать семантические и прагматические отношения в языке. По факту, если словарь содержит N слова, то количество возможных пар слов будет N2. Даже если всего лишь 0.1% из них встречается в языке, минимальный объем языкового корпуса, необходимого для получения статистически достоверных оценок, достигнет 125 миллиардов слов или 1 терабайта. Для n-граммных моделей, где n=3, минимальный объем корпуса достигнет сотен тысяч терабайтов [13].

Для преодоления недостатков, используются специальные методы, которые позволяют производить оценку параметров модели в условиях недостаточности или отсутствия данных.

BLEU, NIST и METEOR – метрики, основанные на n-грамммах.

BLEU (Двуязычная оценка замены, bilingual evaluation understudy, BLEU) – алгоритм оценки качества машинного перевода, сравнивая его с эталонным переводом, используя n-граммные модели. Эта метрика МП была впервые предложена и реализована Папинени и др. [4].

Измерение качества перевода – это непростая задача, по большей части из-за отсутствия определения “абсолютно правильного” перевода. Наиболее простые методы оценки качества перевода сравнивают МП перевод и перевод, выполненный человеком, одного и того же документа. Но это не так просто, как может показаться: Перевод одного переводчика может отличаться от перевода другого переводчика. Это несоответствие между различными вариантами эталонных переводов представляет серьезную проблему, особенно когда используются разные эталонные переводы для автоматической оценки качества МП.

Документ, переведенный специально-созданной автоматической программой, может набрать 60% совпадений с переводом, выполненным одним переводчиком и 40% совпадение с переводом другого переводчика. Не смотря на то, что оба профессиональных перевода технически верны (они грамматически правильны, они передают один смысл, и т.д.), 60% совпадений – это показатель высокого качества МП. Таким образом, не смотря на то, что эталонные переводы используются для сравнения, они не могу быть полностью объективными и согласовывать измерения качества МП.

Метрика BLEU оценивает качество МП по шкале от 0 до 1. Чем ближе число к единице, тем больше совпадений с эталонным переводом, следовательно, лучше и система МП. Короче говоря, метрика BLEU оценивает, сколько слов совпадают в одной линии, выдавая наилучшую оценку не совпавшим словам а последовательностям слов. Например, последовательность из четырех слов в переводе, которая совпадает с эталонным переводом (в том же порядке) положительно повлияет на финальную оценку и ценится выше, чем одно или два совпавших слова [14].

Мера точности NIST (Национальный институт стандартов и технологий, НИСТ) – метрика, используемая для оценки вариантов МП [5]. NIST был задуман, как улучшенная версия BLEU. В данном случае рассчитывается среднее арифметическое n-грамм. Важное отличие от метрики BLEU заключается в том, что NIST полагается на частотные составляющие (точность и полнота). Если BLEU просто высчитывает точность n-грамм, выставляя оценку каждому конкретному совпадению, то NIST также высчитывает, насколько каждая n-грамма информативна.

Например, когда биграмма ‘on the’ совпадает с той же фразой в эталонном тексте, перевод все равно получает меньшее количество очков, чем правильное совпадение биграммы ‘size distribution’, потому что последняя фраза является менее вероятной.

F-мера – это метрика, которая вычисляет золотую середину между точностью и полнотой [15]. Метрика основана на поиске наилучшего соответствия переводом, выполненным машиной, и эталонным переводом (соотношение между общим числом совпадающих слов к длине перевода и эталонного текста). Иногда полезно совмещать точность и полноту одного и того же усредненного значения [16].

Метрика для оценки перевода с точной последовательностью слов (The metric for evaluation of translation with explicit ordering, METEOR) – это улучшенная версия F-меры. [17]. Система была разработана, чтобы компенсировать некоторые слабые места метрики BLEU. METEOR оценивает результат, сопоставляя автоматический и эталонный перевод слово в слово. В случаях, когда доступно более одного эталонного перевода, автоматический перевод сравнивается с каждым из них и выдается наилучший результат [18].

Можно по разному относиться к разным метрикам, но в данный момент BLEU, METEOR и NIST наиболее широко используются. Именно эти метрики сравниваются со всеми остальными системами автоматической оценки качества МП. Разработчики F-меры заявляют, что их метрика показывает наилучшее согласование с оценкой, сделанной человеком [15]. Однако это не всегда так. F-мера не очень хорошо работает с наименьшим средним расстоянием редактирования [9]. Эмпирические данные показывают, что больше внимания должно быть уделено полноте перевода. Исследования показывают, что полнота часто не является параметром, который позволяет определить качество перевода [17].

3. Автоматическая оценка качества статистических (Google) и основанных на правилах (Prompt) систем МП.

Перевод – это интеллектуальный вызов, поэтому скептицизм по поводу возможности использования компьютера для автоматического перевода естественен. Однако создателям систем МП удалось наделить свои системы с формой понимания, и МП теперь относится к классу программ искусственного интеллекта.

В настоящее время, мы можем говорить о двух подходах к письменному переводу: первый это МП, основанный на правилах исходного языка и языка, на который выполняется перевод, и второй подход включает в себя статистический МП.

Ранние системы МП были основаны на прямом, так называемом «преобразовательном» подходе. Предложения исходного языка преобразовывались напрямую в предложения языка, на который требовался перевод, используя простую форму грамматического разбора. Синтаксический анализатор делал грубый анализ исходного языка, разделяя его на подлежащее, дополнение, сказуемое, и т.д. Исходные слов заменялись на переведенные слова, выбранные из словаря, и их порядок изменялся, чтобы соответствовать правилам языка, на который выполняется перевод. Этот подходом использовался долгое время, пока не был заменен менее прямым подходом, который назывался «лингвистическое знание». Современные компьютеры, которые имеют большую вычислительную мощность и память, способны на то, что было невозможно в 1960-х. Программы, основанные на этом подходе, имеют два набора грамматических правил: один для исходного языка, другой для языка, на который будет выполняться перевод. К тому же, современные компьютеры анализируют не только грамматику (морфологическую и синтаксическую структуру) исходного языка, но также семантическую информацию. Они также владеют информацией об идиоматических различиях между языками, которые не позволяют им делать глупых ошибок. Представителем подхода основанного на правилах является Prompt, разработанный ведущим Российским разработчиком языковых IT-решений.

Второй подход основан на статистическом методе: анализируя огромное количество параллельных текстов (идентичных текстов в исходном языке и языке, на которой будет выполняться перевод), программа выбирает варианты, которые совпадают чаще остальных и использует и при переводе. Она не берет во внимание грамматические правила, т.к. её алгоритмы основаны на статистическом анализе. В дополнении к этому, лексическими единицами здесь являются комбинации слов, а не отдельные слова. Одним из самых известных представителей этого подхода является "Google Translate", который основан на подходе, называемом статистическим машинным переводом. Тем не менее, переведенные предложения иногда настолько несогласованные, что понять их практически невозможно [19].

В этом разделе, используя конкретные примеры, мы сравнимы качество переводов выполненных такими системами МП, как Google ( http://translate.google.ru) и Prompt (www.translate.ru).

Для анализа мы выбрали 5 заглавий, термины, и ключевые слова из журнала «Квантовая физика» [20], который изначально был опубликован на русском и затем переведен на английский группой профессиональных переводчиков.


Текст 1

Эволюция функции распределения наночастиц Au в жидкости под действием лазерного излучения

Аннотация . Теоретически и экспериментально исследован процесс фрагментации наночастиц в жидкости под действием импульсного лазерного нагрева. Моделирование процесса проведено на основе решения кинетического уравнения для функции распределения наночастиц по размерам с учетом температурной зависимости теплофизических параметров среды. Показано, что фрагментация происходит через отделение от расплавленной наночастицы фрагментов меньшего размера. Результаты моделирования находятся в хорошем согласии с экспериментальными данными, полученными при фрагментации наночастиц золота в воде под действием излучения лазера на парах меди при пиковой интенсивности излучения в среде ~106 Вт/см2.

Ключевые слова : наночастицы, коллоидные растворы, лазерная абляция металлов, плазмонный резонанс, фрагментация.


Тексt 2

Взаимодействие неколлинеарных фемтосекундных лазерных филаментов в сапфире

Аннотация . Численно и экспериментально исследовано взаимодействие двух когерентных фемтосекундных лазерных импульсов, распространяющихся под малым углом друг к другу в кристалле сапфира в режиме филаментации. Получены распре деления поверхностной плотности энергии и концентрации свободных электронов в образующихся лазерно-плазменных каналах. Обнаружено образование дополнительных филаментов вне плоскости первоначального распространения импульсов.

Ключевые слова : филаментация, фемтосекундное излучение, лазерная плазма, взаимодействие филаментов.


Текст 3

Влияние электрического поля на приповерхностные процессы при лазерной обработке металлов

Аннотация . Показано, что при изменении напряженности внешнего электрического поля различной полярности от 0 до 106 В/м в ходе воздействии лазерного излучения со среднй плотностью потока ~106 Вт/см2 на поверхности ряда металлов (Cu, Al, Sn, Pb) изменение особенностей эволюции плазменного факела на ранних стадиях носит количественный, а не качественный характер. В то же время характерные размеры капель вещества мишени, вынесенных из облученной зоны, существенно (в несколько раз) уменьшаются при увеличении амплитуды напряженности внешнего электрического поля независимо от его полярности.

Ключевые слова : лазерное излучение, электрическое поле, плазмообразование, гравитационно-капиллярные волны.


Текст 4

Об ассоциациях невзаимодействующих частиц (кристаллоподобные нейтронные структуры)

Аннотация . Обсуждается физическая реализуемость ассоциаций невзаимодействующих друг с другом частиц, возникающая в соответствии с соотношением неопределенности при 'корпоративном' пространственном ограничении ансамбля частиц в целом. Рассмотрение проводится на примере ансамбля ультрахолодных нейтронов, помещенных в общую потенциальную яму бесконечной глубины. Представлены количественные оценки и указаны ожидаемые свойства образующихся кристаллоподобных пространственно-периодических структур.

Ключевые слова : квантовая нуклеоника, ультрахолодные нейтроны, лазерные способы производства ультрахолодных нейтронов, нейтронные ассоциации, нейтроны в потенциальной яме бесконечной глубины.


Текст 5

Эллиптически поляризованные кноидальные волны в среде с пространственной дисперсией кубической нелинейности

Аннотация . Найдены новые частные аналитические решения системы нелинейных уравнений Шредингера, соответствующие эллиптически поляризованным кноидальным волнам в изотропной гиротропной среде с пространственной дисперсией кубической нелинейности и частотной дисперсией второго порядка при выполнении условий формирования волноводов единого профиля для каждой из циркулярно поляризованных компонент светового поля.

Ключевые слова : кубическая нелинейность, пространственная дисперсия, нелинейные уравнения Шредингера, эллиптическая поляризация, кноидальные волны.

Эталонный перевод был взят из http://iopscience.iop.org/1063-7818/42/2.

Эталонный перевод был взят из http://iopscience.iop.org/1063-7818/42/2 . Для автоматического анализа перевода была использовано программа, которая находится в открытом доступе по адресу http://www.languagestudio.com/LanguageStudioDesktop.aspx#Pro.

Language StudioTM Lite это бесплатная программа, которая предоставляет ключевые метрики для качества перевода. Эта программа может быть использована не только для оценки качества перевода, но также и для измерения улучшения качества, т.к. пользовательские переводческие механизмы постоянно обновляются с помощью цикла обратной связи повышения качества. Language StudioTM Lite поддерживает такие метрики как BLEU, F-Мера, и TER.

С точки зрения синтаксиса, абстракции, представленные для анализа, характеризуются, по большей части, простыми предложениям, например, smth is presented или smth is investigated. Помимо этого часто используются сложносочиненные предложения с дополнительным придаточным предложением, например, it is shown that ... или it is found that … . As to the vocabulary, translators most often use one-word terms—waveguide, two-word terms—light wave, uncertainty relation, and three-word terms—target material droplets, whereas four-word terms—crystal-like spatially periodic structure—are extremely rare.

Чтобы программа корректно оценила переводы, мы предварительно обработали эталонные переводы и переводы, которые выполнил Google и PROMPT. Каждое предложение начинается с нового абзаца и тексты были конвертированы в.txt формат.

Сначала мы сравнили эталонный перевод и перевод, который выполнил Google и PROMPT, используя n-граммные метрики. Результаты оценки перевода представлены ниже.


Translation Evaluation Summary



Job Start Date:


9/18/2012 1:52 PM


Job End Date:


9/18/2012 1:52 PM


Job Duration:


0 min(s) 2 sec(s)


Reference File:


reference_1.txt


Candidate File:


candidate_google_1.txt


Evaluation Lines:


28


Tokenization Language:


EN



Results Summary:


62.554



Reference


Candidate


1 Gram


2 Gram


3 Gram


4 Gram


Score


1. Evolution of the distribution function of Au nanoparticles in a liquid under the action of laser radiation


1. The evolution of the distribution function of Au nanoparticles in a liquid under the action of laser radiation


18/19


16/18


15/17


14/16


92.490


2. Abstract.


2. Abstract.


3/3


2/2


1/1


0/0


100.000


3. Fragmentation of nanoparticles in a liquid under the action of pulsed laser heating is studied theoretically and experimentally.


3. Studied theoretically and experimentally the process of fragmentation of nanoparticles in a liquid under the action of pulsed laser heating.


19/22


15/21


13/20


11/19


73.753


4. Fragmentation is simulated by solving the kinetic equation for the nanoparticle size distribution function, taking into account the temperature dependence of the thermophysical parameters of the medium.


4. Simulation of the process carried out by solving the kinetic equation for the distribution function of nanoparticles size, taking into account the temperature dependence of the thermophysical parameters of the medium.


27/34


22/33


18/32


16/31


67.629


5. It is shown that fragmentation occurs after separation of smaller fragments from a molten nanoparticle.


5. It is shown that fragmentation occurs after separation from the molten fragments of smaller nanoparticles.


15/17


9/16


7/15


6/14


58.502


6. The simulation results are in good agreement with experimental data obtained in the fragmentation of gold nanoparticles irradiated in water by a copper vapor laser with a peak radiation intensity of about ##.


6. The simulation results are in good agreement with experimental data obtained in the fragmentation of gold nanoparticles in water under irradiation of copper vapor laser with a peak intensity of the radiation in the environment of about ##.


33/41


28/40


23/39


20/38


69.933


7. Keywords: nanoparticles, colloids, laser ablation of metals, plasmon resonance, fragmentation.


7. Keywords: nanoparticles, colloids, laser ablation of metals, plasmon resonance, the fragmentation.


17/18


15/17


13/16


12/15


88.671


8. Interaction of noncollinear femtosecond laser filaments in sapphire


8. Noncollinear interaction of femtosecond laser filaments in sapphire


9/9


5/8


3/7


2/6


59.673


9. Abstract.


9. Abstract.


3/3


2/2


1/1


0/0


100.000


10. The interaction of two coherent femtosecond laser pulses, propagating at a small angle with respect to each other in a sapphire crystal in the filamentation regime, has been investigated numerically and experimentally.


10. Numerically and experimentally investigated the interaction of two coherent femtosecond laser pulses propagating at a small angle to each other in the sapphire crystal in the regime of filamentation.


29/31


19/30


14/29


9/28


54.746


11. Distributions of the fluence and free-electron density in the laser-plasma channels formed in the crystal are obtained.


11. Obtained by dividing the distribution of the surface energy density and the concentration of free electrons in laser-produced plasma channels.


15/24


3/23


0/22


0/21


19.291


12. Additional filaments are found to form outside the plane of initial pulse propagation.


12. Revealed the formation of additional filaments outside the plane of the initial distribution of momenta.


9/17


4/16


2/15


1/14


26.224


13. Keywords: filamentation, femtosecond radiation, laser plasma, filament interaction.


13. Keywords: filamentation, femtosecond radiation, laser plasma interaction of filaments.


12/14


9/13


8/12


7/11


71.312


14. Influence of an electric field on near-surface processes in laser processing of metals


14. Effect of electric field on the near-surface processes during laser processing of metals


13/16


8/15


5/14


2/13


46.421


15. Abstract.


15. Abstract.


3/3


2/2


1/1


0/0


100.000


16. It is shown that by varying the external electric field with different polarity from 0 to ## in the course of laser processing with the mean radiation flux density ## the change in the evolution features of the plasma torch at the surface of some metals (Cu, Al, Sn, Pb) at early stages is quantitative rather than qualitative.


16. It is shown that when the external electric field of opposite polarity from 0 to ## during the action of laser radiation with an average flux density of ## at the surface of some metals (Cu, Al, Sn, Pb) modified features of the evolution of the plasma torch in the early stages is quantitative, not qualitative.


54/66


39/65


27/64


20/63


53.525


17. At the same time the characteristic size of the target material droplets, carried out from the irradiated zone, becomes essentially (by several times) smaller as the amplitude of the external electric field strength grows, independently of its polarity.


17. At the same time, the characteristic droplet size of the target material, made from the irradiated zone, significantly (several times) decrease with increasing amplitude of the external electric field, regardless of its polarity.


33/41


23/40


16/39


10/38


48.883


18. Keywords: laser radiation, electric field, plasma formation, gravity-capillary waves.


18. Keywords: laser light, electric field, plasma formation, gravity-capillary waves.


16/17


14/16


12/15


10/14


83.262


19. On associations of noninteracting particles (crystal-like neutron structures)


19. On associations of non-interacting particles (neutron crystal-structure)


10/14


5/13


2/12


1/11


35.248


20. Abstract.


20. Abstract.


3/3


2/2


1/1


0/0


100.000


21. We discuss the physical feasibility of association of particles noninteracting with each other, which arises in accordance with the uncertainty relation under the 'corporate' spatial confinement of the particle ensemble as a whole.


21. We discuss the physical realizability of association of non-interacting particles with each other, which arises in accordance with the uncertainty in the 'corporate' spatial limitation of the particle ensemble as a whole.


33/39


27/38


22/37


17/36


66.469


22. Investigation is conducted by the example of an ensemble of ultracold neutrons placed in a common potential well of infinite depth.


22. Examination conducted by the example of an ensemble of ultracold neutrons placed in a common potential well of infinite depth.


21/22


19/21


18/20


17/19


89.173


23. We present quantitative estimates and indicate the expected properties of the arising crystal-like spatially periodic structures.


23. Quantitative estimates and expectations are the properties of the crystal-space-periodic structures.


10/14


5/13


2/12


0/11


25.854


24. Keywords: quantum nucleonics, ultracold neutrons, laser methods of production of ultracold neutrons, neutron associations, and neutrons in the potential well of infinite depth.


24. Keywords: quantum nucleonics, ultracold neutrons, laser methods of production of ultracold neutrons, neutron Association, the neutrons in the potential well of infinite depth.


28/30


25/29


23/28


21/27


84.865


25. Elliptically polarized cnoidal waves in a medium with spatial dispersion of cubic nonlinearity


25. Elliptically polarized cnoidal waves in media with spatial dispersion of cubic nonlinearity


12/13


10/12


8/11


6/10


73.900


26. Abstract.


26. Abstract.


3/3


2/2


1/1


0/0


100.000


27. We present new specific analytic solutions of a system of nonlinear Schrodinger equations, corresponding to elliptically polarized cnoidal waves in an isotropic gyrotropic medium with spatial dispersion of cubic nonlinearity and second-order frequency dispersion under the conditions of formation of the waveguides of the same type for each of the circularly polarized components of the light field.


27. We present new analytic solutions of partial system of nonlinear Schrödinger equations, corresponding to an elliptically polarized cnoidal waves in an isotropic gyrotropic medium with spatial dispersion of cubic nonlinearity and frequency dispersion of the second order under the conditions of formation of the waveguides single profile for each of the circularly polarized components of the light field.


56/63


45/62


36/61


29/60


67.754


28. Keywords: cubic nonlinearity, spatial dispersion, nonlinear Schrodinger equations, elliptic polarization, cnoidal waves.


28. Keywords: cubic nonlinearity, spatial dispersion, nonlinear Schrodinger equation, elliptic polarization, the cnoidal wave.


17/20


13/19


11/18


9/17


68.713


-- Report End --


Translation Evaluation Summary



Job Start Date:


9/18/2012 1:53 PM


Job End Date:


9/18/2012 1:53 PM


Job Duration:


0 min(s) 2 sec(s)


Reference File:


reference_1.txt


Candidate File:


candidate_prompt_1.txt


Evaluation Lines:


28


Tokenization Language:


EN



Results Summary:


35.528



Reference


Candidate


1 Gram


2 Gram


3 Gram


4 Gram


Score


1. Evolution of the distribution function of Au nanoparticles in a liquid under the action of laser radiation


1. Evolution of function of distribution of nanoparticles of Au in liquid under the influence of laser radiation


15/18


8/17


3/16


0/15


37.286


2. Abstract.


2. Summary.


2/3


0/2


0/1


0/0


22.222


3. Fragmentation of nanoparticles in a liquid under the action of pulsed laser heating is studied theoretically and experimentally.


3. Theoretically also process of fragmentation of nanoparticles in liquid under the influence of pulse laser heating is experimentally investigated.


15/21


7/20


4/19


1/18


34.101


4. Fragmentation is simulated by solving the kinetic equation for the nanoparticles size distribution function, taking into account the temperature dependence of the thermophysical parameters of the medium.


4. Modeling of process is carried out on the basis of the solution of the kinetic equation for function of distribution of nanoparticles in the sizes taking into account temperature dependence of heatphysical parameters of the environment.


22/38


10/37


5/36


1/35


28.465


5. It is shown that fragmentation occurs after separation of smaller fragments from a molten nanoparticle.


5. It is shown that fragmentation occurs through separation from the melted nanoparticle of fragments of the smaller size.


14/20


6/19


5/18


4/17


41.519


6. The simulation results are in good agreement with experimental data obtained in the fragmentation of gold nanoparticles irradiated in water by a copper vapor laser with a peak radiation intensity of about ##.


6. Results of modeling are in a good consent with the experimental data received at fragmentation of nanoparticles of gold in water under the influence of radiation of the laser on pairs of copper at peak intensity of radiation in the environment of ~##.


27/47


9/46


1/45


0/44


22.454


7. Keywords: nanoparticles, colloids, laser ablation of metals, plasmon resonance, fragmentation.


7. Keywords: nanoparticles, colloidal solutions, laser ablyatsiya of metals, plazmonny resonance, fragmentation.


14/18


10/17


6/16


3/15


50.002


8. Interaction of noncollinear femtosecond laser filaments in sapphire


8. Interaction of not collinear femtosekundny laser filament in sapphire


6/10


3/9


1/8


0/7


27.947


9. Abstract.


9. Summary.


2/3


0/2


0/1


0/0


22.222


10. The interaction of two coherent femtosecond laser pulses, propagating at a small angle with respect to each other in a sapphire crystal in the filamentation regime, has been investigated numerically and experimentally.


10. Chislenno also experimentally investigated interaction of two coherent femtosekundny laser impulses extending under a small corner to each other in a crystal of sapphire in a mode of a filamentatsiya.


19/32


8/31


5/30


3/29


26.357


11. Distributions of the fluence and free-electron density in the laser-plasma channels formed in the crystal are obtained.


11. Conflicts of division of superficial density of energy and concentration of free electrons in being formed laser and plasma channels are received.


12/24


1/23


0/22


0/21


13.877


12. Additional filaments are found to form outside the plane of initial pulse propagation.


12. Formation of additional filament out of the plane of initial distribution of impulses is revealed.


7/17


3/16


2/15


1/14


21.432


13. Keywords: filamentation, femtosecond radiation, laser plasma, filament interaction.


13. Keywords: Filamentatsiya, femtosekundny radiation, laser plasma, interaction of filament.


12/15


6/14


4/13


2/12


44.149


14. Influence of an electric field on near-surface processes in laser processing of metals


14. Influence of electric field on pripoverkhnostny processes at laser processing of metals


11/13


7/12


4/11


1/10


42.105


15. Abstract.


15. Summary.


2/3


0/2


0/1


0/0


22.222


16. It is shown that by varying the external electric field with different polarity from 0 to ## in the course of laser processing with the mean radiation flux density ## the change in the evolution features of the plasma torch at the surface of some metals (Cu, Al, Sn, Pb) at early stages is quantitative rather than qualitative.


16. It is shown that at change of intensity of external electric field of various polarity from 0 to 106 ## in a course impact of laser radiation with average density of a flow of ~## on a surface of a number of metals (Cu, Al, Sn, Pb) change of features of evolution of a plasma torch at early stages carries quantitative, instead of qualitative character.


48/76


28/75


17/74


10/73


36.477


17. At the same time the characteristic size of the target material droplets, carried out from the irradiated zone, becomes essentially (by several times) smaller as the amplitude of the external electric field strength grows, independently of its polarity.


17. At the same time the characteristic sizes of drops of substance of the target, taken out of the irradiated zone, essentially (several times) decrease at increase in amplitude of intensity of external electric field irrespective of its polarity.


30/44


21/43


12/42


6/41


39.596


18. Keywords: laser radiation, electric field, plasma formation, gravity-capillary waves.


18. Keywords: laser radiation, electric field, plazmoobrazovaniye, gravitational and capillary waves.


13/16


10/15


8/14


6/13


60.731


19. On associations of noninteracting particles (crystal-like neutron structures)


19. About associations of noninteracting particles (kristallopodobny neutron structures)


9/11


6/10


4/9


2/8


47.946


20. Abstract.


20. Summary.


2/3


0/2


0/1


0/0


22.222


21. We discuss the physical feasibility of association of particles noninteracting with each other, which arises in accordance with the uncertainty relation under the 'corporate' spatial confinement of the particle ensemble as a whole.


21. Physical feasibility of associations noninteracting with each other the particles, arising according to an uncertainty ratio is discussed at 'corporate' spatial restriction of ensemble of particles as a whole.


23/34


12/33


7/32


3/31


31.964


22. Investigation is conducted by the example of an ensemble of ultracold neutrons placed in a common potential well of infinite depth.


22. Consideration is carried out on an example of ensemble of the ultracold neutrons placed in the general potential hole of infinite depth.


17/24


8/23


4/22


2/21


34.064


23. We present quantitative estimates and indicate the expected properties of the arising crystal-like spatially periodic structures.


23. Quantitative estimates are presented and expected properties of being formed kristallopodobny spatial and periodic structures are specified.


10/19


4/18


1/17


0/16


19.655


24. Keywords: quantum nucleonics, ultracold neutrons, laser methods of production of ultracold neutrons, neutron associations, and neutrons in the potential well of infinite depth.


24. Keywords: quantum a nukleonik, ultracold neutrons, laser ways of production of ultracold neutrons, neutron associations, neutrons in a potential hole of infinite depth.


25/30


19/29


14/28


10/27


58.972


25. Elliptically polarized cnoidal waves in a medium with spatial dispersion of cubic nonlinearity


25. Elliptically the polarized knoidalny waves in the environment with spatial dispersion of cubic nonlinearity


11/15


7/14


4/13


3/12


46.451


26. Abstract.


26. Summary.


2/3


0/2


0/1


0/0


22.222


27. We present new specific analytic solutions of a system of nonlinear Schrodinger equations, corresponding to elliptically polarized cnoidal waves in an isotropic gyrotropic medium with spatial dispersion of cubic nonlinearity and second-order frequency dispersion under the conditions of formation of the waveguides of the same type for each of the circularly polarized components of the light field.


27. New private analytical decisions of system of the nonlinear equations of Schrodinger, corresponding elliptically to the polarized knoidalny waves are found in the isotropic girotropny environment with spatial dispersion of cubic nonlinearity and frequency dispersion of the second order at performance of conditions of formation of wave guides of a uniform profile for each of tsirkulyarno polarized a component of a light field.


45/66


19/65


9/64


5/63


30.796


28. Keywords: cubic nonlinearity, spatial dispersion, nonlinear Schrodinger equations, elliptic polarization, cnoidal waves.


28. Keywords: cubic nonlinearity, spatial dispersion, Schrodinger's nonlinear equations, elliptic polarization, knoidalny waves.


18/20


13/19


10/18


8/17


67.052


-- Report End --


Результаты сравнения показывают, что Google набрал 62.554, в то время как PROMPT набрал всего лишь 35.528. Из всего этого следует вывод, что Google хорошо справляется с лексикой, а PROMPT испытывает некоторые трудности с переводом неизвестных ему слов (однако, мы предполагаем, что обучение этой системы МП может привести к лучшим результатам). По сути результат был ожидаемым, т.к. статистический перевод основывается на n-граммных моделях. Все преимущества статистических систем проявляются, когда система обучается уже долгое время и имеет в распоряжении корпуса параллельных текстов высокого качества. Более того, в этом случае не требуются квалифицированные лингвисты, система может сама обучаться в процессе. Всё же эти системы имеют некоторые недостатки: требуется огромное количество параллельных корпусов текстов для обучения; такие системы полагаются на сложную математическую систему; высокое качество перевода возможно только для фраз, которые подходят под n-граммную модель, и перевод сильно зависит от корпусов, которые используются для обучения.


Второй анализ был произведен с использованием таких метрик как BLEU, F-мера и TER. Два результата сравнивались с эталонным переводом одновременно. Мы получили следующие результаты:


Translation Evaluation Summary



Job Start Date:


9/18/2012 1:50 PM


Job End Date:


9/18/2012 1:50 PM


Job Duration:


0 min(s) 6 sec(s)


Number of Reference Files:


1


Number of Candidate Files:


2


Evaluation Lines:


28


Tokenization Language:


EN


Evaluation Metrics:


BLEU, F-Measure, TER (Inverted Score)



Results Summary


Candidate File:


BLEU Case Sensitive


BLEU Case Insensitive


F-Measure Case Sensitive


F-Measure Case Insensitive


TER Case Sensitive


TER Case Insensitive


1


2



28.41


59.59



29.83


61.72



67.62


83.09



68.89


84.72



45.77


67.26



46.42


68.08




Candidate Files:


1 : candidate_prompt_1.txt
2 : candidate_google_1.txt



Reference Files:


1 : reference_1.txt



Candidate File 1:


candidate_prompt_1.txt


BLEU


F-Measure


TER


Case Sensitive:


28.41


67.62


45.77


Case Insensitive:


29.83


68.89


46.42









Candidate File 2:


candidate_google_1.txt


BLEU


F-Measure


TER


Case Sensitive:


59.59


83.09


67.26


Case Insensitive:


61.72


84.72


68.08








-- Report End --

В предыдущем тесте, Google показал лучшие результаты, что неудивительно, потому что тексты научного характера высоко стандартизированы. Синтаксические особенности научных и технических текстов включают в себя синтаксическую и семантическую завершенность, частое использование клишированных структур, комплексную систему соединительных элементов (сочинительные и подчинительные союзы), и т.д. Научная речь характеризуется сложным синтаксисом, который выражается в использовании сложных сочинительных и подчинительных предложений и в сложности простых предложений, по большей части со словами в функции приложения. Вдобавок, научные и технические тексты характеризуются, прежде всего, частым использованием специализированных и научных терминов. Это объясняется тем фактом, что научная терминология развивается, т.к. специалистам в какой-то конкретной области необходимо общаться точно и кратко, но также часто используется для того, чтобы исключить тех, кто не знаком с конкретным полем деятельности. Современная терминология точна, рациональна, номинотивна, стилистически нейтральна, и неэмоциональна.

Всё сказанное выше позволяет Google хорошо справляться с стандартизированными текстами. Однако, стоит отметить, что PROMPT справляется с задачей лучше, когда дело касается грамматики. Таким образом, в переводе PROMPT гораздо больше грамматически правильных предложение, чем в переводе Google. И это неудивительно, потому что PROMPT опирается на систему перевода, основанную на правилах языка. Такие системы основаны на лингвистическом описании двух естественных языков (билингвистические словари и другие базы данных, содержащие морфологическую, грамматическую и семантическую информацию), формальной грамматической системы языка, и надлежащих алгоритмов перевода. Качество перевода зависит от размера лингвистических баз данных (словарей) и глубины описания естественного языка [21].

4. Заключение

Представлен краткий обзор самых часто используемых метрик МП. Автоматическая оценка качества МП такими метриками как BLEU, F-мера и TER значительно улучшила МП. Обычно, эти метрики показывают хорошее соотношение переводов, выполненных машиной с эталонными переводами, выполненными человеком. Одним из главных недостатков этих метрик является то, что они не могут предоставить оценку качества МП на семантическом и прагматическом уровнях. Тем не менее, в настоящий момент эти метрики являются единственными системами автоматической оценки качества перевода.

Качество результатов Google и PROMPT сравнено с эталонными переводами, используя n-граммы и различные метрики. В обоих случаях результаты Google показывают хорошее соотношение с эталонным переводом. Лучшее совпадение зафиксировано на лексическом уровне, что ожидаемо, потому что статистический перевод основан на n-граммных моделях. Худшие результаты с точки зрения грамматики также показаны Google, что неудивительно, ведь PROMPT основывается на системе правил языка, в котором перевод зависит от лингвистических баз данных (словарей) и глубине описания естественных языков, т.е. на максимальном количестве особенностей грамматических структур.

Поскольку перевод на английский является приоритетной задачей для Google, эта система МП постоянно совершенствуется. Всё это говорит о том, что потенциал средств систем перевода рано или поздно будет исчерпан, в то время как качество статистических систем МП, в конечном счете, улучшится. Nevertheless, we believe that in the future, machine translation will combine these two—rule-based and statistical—approaches, as well as the universal semantic hierarchy (USH) approach [22] in order to produce a correct translation.

Развитие рациональных и надежных метрик МП активно исследуется в последние годы. Одной из важнейших задач является задача выйти за рамки n-граммных статистик, продолжая использовать полностью автоматический режим. Необходимость полностью автоматизированной метрики не может быть недооценена, поскольку это должно обеспечить самый высокий уровень развития прогресса систем МП.

Благодарности
Автор благодарит С. Н. Вековищеву за ценные советы в подготовке статьи.


Список использованной литературы

1. White, J., O’Connell, T., and Carlson, L. (1993) “Evaluation of Machine Translation.” In Human Language Technology: Proceedings of the Workshop (ARPA), pp 206–210.

2. Melamed, I.D. (1995) “Automatic Evaluation and Uniform Filter Cascades for Inducing N-Best Translation Lexicons.” In Third Workshop on Very Large Corpora (WVLC3), pp 184–198, Boston.

3. Brew, C., and Thompson, H. (1994) “Automatic Evaluation of Computer Generated Text: A Progress Report on the TextEval Project.” In Human Language Technology: Proceedings of the Workshop (ARPA/ISTO), pp 108–113.

4. Papineni, K., Roukos, S., Ward, T., and Zhu, W.-J.. (2002) “BLEU: a Method for Automatic Evaluation of Machine Translation.” In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), pp 311–318, Philadelphia.

5. Doddington, G. (2002) “Automatic Evaluation of Machine Translation Quality Using N-gram Co-Occurrence Statistics.” In Human Language Technology: Notebook Proceedings, pp 128–132, San Diego.

6. Turian, J.P., Shen, L., and Melamed, I.D. (2003) ”Evaluation of Machine Translation and its Evaluation.” In Proceedings of MT Summit IX; New Orleans, USA, 23-28 September 2003.

7. http://en.wikipedia.org/wiki/Approximate_string_matching

8. http://en.wikipedia.org/wiki/Levenshtein_distance

9. Blatz, J., Fitzgerald, E., Foster, G., Gandrabur, S., Goutte, C., Kulesza, A., Sanchis, A., and Ueffing, N. (2004) “Confidence Estimation for Machine Translation.” In Proceedings of COLING, pp 315–321, Geneva.

10. http://en.wikipedia.org/wiki/Evaluation_of_machine_translation

11. http://www.lrec-conf.org/proceedings/lrec2008/pdf/785_paper.pdf

12. Cancedda, N., and Yamada, K. (2005). “Method and Apparatus for Evaluating Machine Translation Quality.” US Patent Application 20050137854.

13. http://www.intsys.msu.ru/invest/speech/articles/rus_lm.htm

14. http://www.languagestudio.com/TranslationQualityMetrics.aspx

15. Melamed, I.D., Green, R., and Turian, J.P. (2003) “Precision and Recall of Machine Translation.” In Proc. HLT-03, pp 61–63.

16. http://ru.wikipedia.org/wiki/Информационный_поиск

17. Lavie, A., Sagae, K., and Jayaraman, S. (2004) “The Significance of Recall in Automatic Metrics for MT Evaluation.” Proceedings of the Sixth Conference of the Association for Machine Translation in the Americas (AMTA'04), pp 134–143.

18. Banerjee, S., and Lavie, A. (2007) “METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments.” In Proceedings of the Second Workshop on Statistical Machine Translation, pp 228–231, Prague.

19. Ulitkin, I. (2011) “Computer-assisted Translation Tools: A Brief Review.” Translation Journal, Vol. 15, No. 1, January 2011.

20. http://www.quantum-electron.ru/php/content_rus.phtml?jrnid=qe&year_id=2012&issue_id=2

21. http://ru.wikipedia.org/wiki/ПРОМТ

22. http://www.abbyy.ru/science/technologies/business/compreno/