Volume 16, No. 2 
April 2012

 
Michael Wilkinson

Front Page

 
 
Select one of the previous 59 issues.

 


 
Index 1997-2012

 
TJ Interactive: Translation Journal Blog

 
  Translator Profiles
Planning and Passion
by Helen Eby

 
  The Profession
The Bottom Line
by Fire Ant & Worker Bee
 
ID Fraud in the Translation Industry: A guide on how to protect freelance translators and translation agencies against identity fraud
by Aleksandra Narożna
  
  The Translator and the Computer
Identification of Terms Marked by the Japanese and Indian Cultures
by Cristina Castillo Rodríguez, Ph.D.
 
Language Resources for Translation in Multilingual Question Answering Systems
by María-Dolores Olvera-Lobo and Juncal Gutiérrez-Artacho

 
  Language and Communication
Mr. *** was not amused!
by Danilo Nogueira and Kelli Semolini
 
Is every bilingual a translator?
by Dr. Samuel Oladipo Kolawole

 
Cultural Aspects of Translation
A Typology of Derivatives: Translation, Transposition, Adaptation
by Henry Whittlesey

 
Translation and Politics
From the Colonial to the Anti-Colonial: Marathi Reception of American Literature
by Dr. Sunil Sawant

 
Interpreting
Interpreting Strategies in Real-life Interpreting
by Dr. Binhua Wang

 
  Caught in the Web
Web Surfing for Fun and Profit
by Cathy Flick, Ph.D.
 
Translators’ On-Line Resources
by Gabe Bokor
 
Translators’ Best Websites
by Gabe Bokor

 
  Translators' Tools
Лучшая бесплатная программа корпусного анализа для переводчиков?
Майкл Уилкинсон
Voices, I Hear Voices
by Jost Zetzsche
 
Translators’ Emporium

 
Call for Papers and Editorial Policies
  Translation Journal


Translators' Tools
 

Лучшая бесплатная программа корпусного анализа для переводчиков?

Майкл Уилкинсон

1. Введение

Для многих языков существует высокий спрос на переводы с родного языка. Как в Китае, например, только ограниченное небольшое количество носителей английского языка могут переводить с китайского на английский, существует необходимость для отечественных китайско-говорящих переводчиков для перевода с их родного языка, по мнению пекинского университета Гуанса Джин (2008 г.). Аналогичным образом, в Финляндии носители языка, финские переводчики часто переводят на свой второй язык. Такая ситуация сложилась из-за того, что носители языка, иностранные переводчики с финского языка, находятся в большом дефиците. То же самое относится и к другим языкам ограниченного распространения (LLDs), такие как, например, Хорватский (см. Pavlović 2007), датский, норвежский и польский.

Для многих языков существует высокий спрос на переводы с родного языка.
В частности, при переводе специальных текстовых полей на иностранный язык, переводчики часто консультируются с напечатанными «параллельными» текстами в целевом языке, чтобы, например, найти термины или сверить идиоматические и фразеологические выражения, однако, это может быть медленным и трудоемким процессом, в то время как консалтинг с электронной текстовой корпорацией с помощью инструментов корпусного анализа, позволит переводчикам работать и манипулировать большими объемными текстами гораздо быстрее и систематичней. Это может помочь переводчикам повысить качество и продуктивность их работы.

Мой опыт работы с инструментами корпусного анализа базируется в основном на моей работе с финскими студентами-переводчиками при подготовке их для перевода на английский язык. В предыдущих статьях, некоторые из которых доступны для просмотра на сайте (см., например, Wilkinson 2005a и 2005b), я показал, как целевой одноязычный корпус текстов может быть полезным инструментом при переводе, давая примеры и стратегии поиска, которые могут помочь переводчику выбрать подходящий вариант перевода эквивалента. Результаты стратегии поиска сформировались коммерчески доступным программным обеспечением Wordsmith Tools версии 4 (Scott 2004) и 5-ой версии (Scott 2008).

Недавно произошла оценка всех плюсов и минусов инструментов Wordsmith в удовлетворении потребностей переводчика (Wilkinson 2011). Я сосредоточился на своем конкордансере, который является инструментом алфавитного распределения слов и словосочетаний, так как этот инструмент используется наиболее часто в качестве вспомогательного средства для перевода. Конкордансер находит все варианты искомого слова или шаблона поиска, в выбранном корпусе и показывает их на центральном дисплее вместе с пролетом совместного текста слева и справа. Я пришел к выводу, что Wordsmith Tools по крайней мере, по моему опыту, лучшая доступная для переводчиков коммерческая программа корпусного анализа на рынке.

Однако, не все переводчики, и особенно студенты переводчики, готовы инвестировать в такого рода программное обеспечение, особенно, если они не уверены, будут ли они использовать его в больших масштабах. Выходом может оказаться обращение к бесплатной программе, такой как AntConc.

2. О программе AntConc

Первая версия AntConc была выпущена в 2002 году Лоуренсом Энтони. Это была простая согласованная программа, но с тех пор она находится в стадии постоянного совершенствования и развития. Самой последней стабильной версией на момент написания (Февраль 2012 г.) является AntConc 3.2.4 (Энтони, 2011).

AntConc может работать на Windows, Macintosh и операционных систем Linux, но в то время как WordSmith требует дополнительного программного обеспечения для работы на других системах, кроме Windows. AntConc работает на всех системах без дополнительного программного обеспечения. Кроме того, AntConc способна обрабатывать тексты практически на любом языке мира, в том числе и на азиатских языках, таких как, китайский, японский и корейский. В добавок ко всему перечисленному, AntConc способна обрабатывать как UTF-8 так и все остальные устаревшие кодировки в различных системах, в результате, у них появится возможность обрабатывать по умолчанию тексты на всех системах, сохраненных в кодировке операционной системы.

Как и в WordSmith, в AntConc входят дополнения к конкордансеру, различные другие функции, такие, как инструмент для генерации списка слов, а также инструмент ключевого слова, который может найти и идентифицировать слова, которые возникают с необычно высокой (или низкой) частотностью в корпусе при сравнении с эталонным корпусом. Однако, в следующих пунктах я сосредоточусь в основном на том, как хорошо инструмент конкордансер обслуживает потребности переводчика.

3. То, что нужно переводчику

Во время моей экспертизы WordSmith, я предположил, что качественный конкордансер должен иметь все или большинство из следующих функций:

  • Он должен быть простой в освоении и быстрым в использовании.

  • Выбор корпусов для анализа должен быть прост.

  • Ввод поиска одной модели или нескольких моделей поиска должен производиться легко.

  • Должны быть доступны несколько специальных символов для того, чтобы заменить слова или символы при поиске.

  • Соответствующие варианты должны появляться быстро, с централизованным термином поиска и с ко-текстом слева и справа.

  • Дисплей должен быть четкими и "аккуратным".

  • Он должен быть простым в отсортировке данных (например, распределять слова влево или вправо по алфавиту, а также по центру, если одновременно было набрано несколько терминов).

  • Он должен быть простым в просматривании соответствующих вариантов в более широком контексте - по крайней мере, в законченном предложении или в целом параграфе, и желательно конечно, в течение всего текста, откуда берется пример.

  • Программа должна быть стабильной, без каких-либо системных сбоев.

  • Программа должна быть доступной.

Рисунок 1. Особенности качественного конкордансера


Ниже я буду обсуждать, отвечает ли AntConc 3.2.4 требованиям, перечисленным на рисунке 1. Я запустил программу только на Windows, так что я не могу полностью нести ответственность за его работу в других операционных системах. Кроме того, я использовал программу только в английской версии и в финноязычной версии корпусов (которые включают в себя необычные символы ä и ö)) поэтому я не имею возможности прокомментировать его работу с корпусами текстов содержащих символы отличающиеся от западных языков.

3.1 Обучаемость и практичность

Для тех, кто уже знаком с инструментами корпусного анализа, будет просто освоить и использовать основные функции. Как отметил Махер и др. (2008) в своей статье о приобретении и усилении переводческой специализации, AntConc имеет "дружественный" конкордансер с интуитивно понятным интерфейсом. Будучи знакомым с WordSmith , я смог выбрать корпус, осуществлять поиск слова, использовать шаблоны, сортировать отобранные варианты и находить нужные слова в более широком контексте без затруднений. Однако, я столкнулся с некоторыми трудностями с определенными более продвинутыми функциями, тему которых я затрону позже.

Для тех, кому придется столкнуться впервые с инструментами корпусного анализа, существует много полезной информации на главной странице AntConc Homepage. Например Файл Readme File (доступен на английском, китайском, немецком и корейском языках) и система помощи on-line help которую можно получить оттуда же, предоставит информацию об инструменте конкордансере, а также о других инструментах и о их функциях, и, кроме того существует целый ряд из хорошо подобранных видео-уроков (доступных на английском и японском языках).

3.2 Выбирая корпус

Достаточно просто выбрать корпус — в меню File в верхнем правом углу выбрать файлы для обработки с помощью опций Open File(s) или Open Dir. На рисунке 2 показан вид, который я получаю после выбора файлов моего самостоятельно составленного корпуса текстов собранных из 101-ой туристической брошюры Британии, США и Канады. Общий размер корпуса составляет около 1075000 слов, тем самым корпус может рассматриваться как состоящий из трех примерно равных по размеру суб-корпораций. Имена файлов были помечены одним из следующих кодов: BI, CA, США, так что пользователь может определить, являются ли выданные варианты из Британских островов, Канады, или США.


Рисунок 2. Выбор корпуса

В окне слева от дисплея, вы можете наблюдать первые 30 файлов корпуса, и далее, общее количество файлов.


3.3 Поиск и специализированные символы

Имеется несколько групповых символов в вашем распоряжении для того, чтобы сделать поиск намного удобнее. Они описаны в разделе Global Settings на верхней панели, и включают в себя символ звездочки, обозначающий ноль или много символов, знак плюс обозначающий ноль или один символ и знак вопроса, обозначающий любой один символ. Знак плюса и знак вопроса могут пригодиться, когда вы хотите, чтобы ваш поисковик находил британские и американские варианты написания слова, как, например, в шаблоне поиска colo+r* и organi?ation*. Кроме того, вертикальная линия подстановки позволяет искать одновременно несколько шаблонов. Это подстановочные символы редактирования, то есть они легко могут быть настроены через Global Settings в соответствии с предпочтениями каждого пользователя.

Я захожу в шаблон поиска terrain*|landscape* и нажимаю Start. В это время программа начинает генерировать 815 совпадений (таких же, как я и получаю с WordSmith), довольно быстро, но не так быстро, как в WordSmith. AntConc требуется более 10 секунд, чтобы генерировать результаты для данного шаблона при наличии в корпусе чуть более 1 млн. слов, в то время как для WordSmith подобная операция займет всего 1 секунду. Нетерпеливые переводчики, осуществляющие много поисков, возможно, будут нуждаться в дополнительной скорости. Чем меньше корпус, тем быстрее AntConc выдает результаты: та же операция, но приблизительно с половиной слов корпуса туризма (= чуть более 500 тысяч слов) займет чуть более 5 секунд, и проделать тот же самый поиск только с канадскими файлами (= 350000 слов) займет около 3 ½ секунд.


3.4 Дисплей KWIC


Рисунок 3. Строки KWIC


Таблицы совпадающих строк - или ключевое слово в контексте (KWIC) строки, которые создаются с шаблоном поиска, централизованы и маркированы. Для данной статьи, я сделал размер шрифта названий файлов и результатов KWIC на рисунке 3, чуть больше размера по умолчанию для того, чтобы сделать изображение более четким. С мелким шрифтом настройки по умолчанию, будет отражаться больше ко-текста слева и справа от шаблона поиска. Под последней строкой KWIC дисплея есть горизонтальная полоса, перемещая горизонтальную полосу слева на права, можно увидеть больше ко-текста на линии.

Помимо строки KWIC, выдает имя файла, в котором находится востребованное слово. Эта информация все, что нужно переводчику, и в этом отношении это лучше, чем дисплей по умолчанию, разработанный для WordSmith который включает многочисленные столбцы, содержащие статистическую информацию, которая может оказаться полезной для корпусного лингвиста, но не приносит много пользы переводчику, который, таким образом, сокращает количество полезного ко-текста по обе стороны от схемы поиска. С другой стороны, выбранные корпусом файлы остаются на постоянной основе занимая лишнее место на левой стороне экрана, было бы намного лучше, если бы пользователь имел возможность скрыть их. Однако, это не совсем является проблемой, если вы увеличите размер дисплея, чтобы заполнить весь экран, в этом случае вы увидите гораздо больше контекста, а также многие другие KWIC строки, кроме того, окно со списком файлов также включает в себя индикатор, который полезен, показывая как продвигается поиск.


3.5 Сортировка и просмотр в контексте

Как мы видим на рисунке 3, строки KWIC, по умолчанию отсортированы в файловом порядке. На рисунке вы можете увидеть только совпадения из файлов BI 01 - BI 05, но если вы прокрутите вниз, вы также сможете увидеть совпадения из BI 06 - BI 37, а также из канадских и американских файлов.

Сортировка строк KWIC проста. С Kwic Sort полями на нижней части дисплея мы можем, например, сортировать словосочетания по алфавитному порядку слева и справа от искомого слова. На рисунке 4, в целях рассмотрения словосочетаний с прилагательными, линии были отсортированы: 1 л. в качестве основного вида, 2 л. в качестве второго вида, и 3 л. качестве третьего вида. Кроме того, можно выбрать точку пересечения двух строк в качестве основного вида с целью рассмотреть отдельно данные об landscape* и terrain*.


Рисунок 4. Сортированные строки KWIC в алфавитном порядке слева


Вполне возможно настроить цвета для шаблонов поиска и уровней вида в меню Global Settings в соответствии с вашим собственным вкусом. Вы также можете сохранить настройки через меню File → пункт меню Export Settings. Это создает небольшой файл настроек, и если вы сохраните, на том же жестком диске, где сохранен и AntConc, то он запомнит все ваши настройки и будет открывать их по умолчанию. Метод сохранения настроек в WordSmith, пожалуй, является более интуитивно понятным.

Увеличивая число в поле Search Window Size кнопкой в правом нижнем углу экрана, вы можете увеличить количество ко-текста, который виден слева и справа от шаблона поиска при перемещении горизонтальной полосы влево или вправо. Но вы также можете увидеть любую согласованную строку в ее полном контексте, нажав на точку пересечения KWIC. На рисунке 5, согласованная линия 467 показанная на рисунке 4, отображается в контексте.


Рисунок 5. Просмотр строки KWIC в контексте


AntConc 3.2.4 кажется, достаточно стабильной программой. В течении моего использования, программа ни разу не подводила.

 

3.6 Доступность

Одна лицензия для WordSmith Tools стоит 50 фунтов стерлингов (приблизительно € 60 / $ 80 по обменному курсу, действующему с 1 марта 2012 года), плюс НДС. Не все переводчики способны или готовы потратить эту сумму денег, а другие коммерчески реализуемые программы, такие как MonoConc Pro (Майк Барлоу, 2004), кажется, продают за подобную цену, единственной альтернативой для тех, кто ограничен бюджетом является бесплатные версии.

Вы можете запустить бесплатную версию AntConc либо с веб сайта Laurence Anthony’s Website либо с AntConc Homepage. Ни в первом ни во втором случае не придется приобретать лицензию. При нажатии на ссылку в браузере и выборе кнопки 'Run', программа загрузится на временное пространство на вашем жестком диске и запустится оттуда. Вы можете, конечно, сохранить программу в любой папке по вашему выбору на жестком диске. Важно помнить, что если вы хотите настроить некоторые параметры в соответствии со своими предпочтениями, создав файл настроек, как указано в разделе 3.5, настройки не будут автоматически использоваться при запуске, если они не сохраняется в той же папке, что и программа.


4. Другие функции и факторы

Есть некоторые особенности, которые, хотя и не упоминаются в списке "обязательно" на рисунке 1, являются тем не менее "хорошо бы иметь", и с некоторыми из них у меня возникли трудности, как уже упоминалось в разделе 3.1.

Например, с помощью функции расширенного поиска можно ограничить поиск конкордансера указав контекстное слово, которое должно присутствовать в контексте вашего заданного в поисковике слова. (Более подробно об этой функции см. в разделе Advanced Searching in Wilkinson 2007). Однако, я заметил, что система AntConc в этом отношении довольно запутана. К примеру, здесь не поддерживаются специальные символы, используемые с контекстным словом — таким образом, если я хочу узнать horse pulls a sled или a sledge или a sleigh, я не могу ввести sle* в качестве моего контекста слова. Кроме того, если я добавлю в качестве моего контекста sled, sledge, sleigh, я не получу никакого результата, так как программа рассчитывает, что все эти слова должны присутствовать в рамках определенного конкретно указанного контекста, в то время как с WordSmith я бы получил 22 совпадения, показывающие мне, что термином, который я искал, является horse-drawn sleigh.

Еще одной удобной "экстра" функцией для переводчика является дисплей словосочетаний. Его можно увидеть сразу при использовании конкордансера WordSmith, но при использовании конконрдансера AntConc, программа должна сначала совершить "прыжок" к инструменту Word List, чтобы выявить словосочетания. Поэтому, после генерации дисплея KWIC моего поиска trails, заданных слов, когда я хотел просмотреть словосочетания, программе AntConc потребовалось около 20 секунд, чтобы выявить их, однако, сортировка словосочетаний влево или вправо была достаточно простой и быстрой.


Рисунок 6. Словосочетания отсортированные по частоте на левой половине дисплея


Данные о группах слов так же отображены. На рисунке 7 можно увидеть слова в вашем конкордансере, которые найдены повторно вместе друг с другом (вы можете выбрать размер группы слов, по желанию) это заняло около 10 секунд, когда с WordSmith данные отображаются моментально.


Рисунок 7. Четыре группы слов trails


5 Лучшая бесплатная программа корпусного анализа?

Я экспериментировал с несколькими другими бесплатными программами корпусного анализа, но еще не нашел какую-либо другую, которая смогла бы сравниться с AntConc. Они, как правило, имеют интерфейсы, которые не очень понятны, и поэтому я часто сталкивался с с трудностями в элементарных операциях, как загрузка моего корпуса, а некоторые корпус и вовсе было сложно запустить. Кроме того, некоторые программы были очень ограничены в вариантах сортировки, так же встречались чрезвычайно медленные программы корпусного анализа. Большинство имели комбинацию недостатков указанных выше.

AntConc не так уж и уступает при сравнении даже с лучшими из коммерческих программ, такими как WordSmith и MonoConc Pro. Его главная слабость в том, что он имеет тенденцию быть довольно вялым в генерации результатов поиска при использовании корпусов, хранящих 1000000 слов, как уже упоминалось в разделе 3.4 и в разделе 4. Но для тех, кто хотел бы поработать с инструментами корпусного анализа без обращения к своему кошельку, я настойчиво рекомендую AntConc. (Версия 3.3.0 находится в разработке, и должна быть выпущена весной или летом 2012 года). Вероятно, что эта версия будет вполне соответствовать вашим потребностям, особенно если вы используете небольшие корпуса в качестве вспомогательных средств при переводе или если вы не требуете молниеносной скорость, тем более, что в настоящее время существует так же доступная удобная для пользователей бесплатная программа (см. Wilkinson 2010), которая позволяет быстро собрать свой ​собственный специализированный корпус.


Библиография

Anthony, L. (2011). AntConc (Version 3.2.4). Tokyo, Japan: Waseda University. Available from http://www.antlab.sci.waseda.ac.jp/software.html

Barlow, Michael (2004). MonoConc Pro 2.2. Athelstan Publications.

Jin, Guangsa (2008). “The comparable corpus-based Chinese-English translation, A case study of city introduction”, in Translation Journal, Volume 12, No 4. Online at: http://translationjournal.net/journal/46corpus.htm

Maher, Ailish et al (2008). “Acquiring or enhancing a translation specialism: the monolingual corpus-guided approach”, in The Journal of Specialised Translation, Issue 10, 2008. Online at: http://www.jostrans.org/issue10/art_maher.php

Pavlović, Nataša (2007). “Directionality in translation and interpreting practice. Report on a questionnaire survey in Croatia”. Forum 5(2). 79-99. (Also published in Translation Research Projects 1, A. Pym i A. Perekrestenko, eds. Tarragona: Intercultural Studies Group. 79-95.) Online at: http://isg.urv.es/library/papers/PavlovicDirectionality.pdf

Scott, Mike (2004). WordSmith Tools version 4, Oxford: Oxford University Press.

Scott, Mike (2008). WordSmith Tools version 5, Liverpool: Lexical Analysis Software. Available from http://www.lexically.net/wordsmith/index.html

Wilkinson, Michael (2005a). “Using a Specialized Corpus to Improve Translation Quality”, in Translation Journal, Volume 9, No 3. Online at: http://translationjournal.net/journal/33corpus.htm

Wilkinson, Michael (2005b). “Discovering Translation Equivalents in a Tourism Corpus by Means of Fuzzy Searching”, in Translation Journal, Volume 9, No 4. Online at: http://translationjournal.net/journal/34corpus.htm

Wilkinson, Michael (2007). “Corpora, Serendipity & Advanced Search Techniques”, in The Journal of Specialised Translation, Issue 7, 2007. Online at: http://www.jostrans.org/issue07/art_wilkinson.php

Wilkinson, Michael (2010). “Quick Corpora Compiling Using Web as Corpus”, in Translation Journal, Volume 14, No 3. Online at: http://translationjournal.net/journal/53corpus.htm

Wilkinson, Michael (2011). “WordSmith Tools: The best corpus analysis program for translators?”, in Translation Journal, Volume 15, No 3. Online at: http://translationjournal.net/journal/57corpus.htm


Благодарность

Благодарю Лоуренса Энтони за разрешение использовать скриншоты из AntConc (версии 3.2.4).