0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Лингвистические технологии ABBYY. От сложного — к совершенному

Лингвистические технологии ABBYY. От сложного — к совершенному

Администратор

Группа: Главные администраторы
Сообщений: 14349
Регистрация: 12.10.2007
Из: Twilight Zone
Пользователь №: 1

Над решением проблем, связанных с автоматической обработкой естественного языка и пониманием машиной смысла текста, человечество бьется не один десяток лет. Определенных успехов в этой области достигла российская компания ABBYY, разработавшая универсальную лингвистическую платформу Compreno для выполнения множества прикладных задач на качественно ином уровне.

Идея разобраться с одной из ключевых проблем теории искусственного интеллекта и решить задачу понимания вычислительной техникой человеческой речи зародилась в умах специалистов ABBYY пятнадцать лет назад. Именно тогда с подачи основателя компании Давида Яна стартовали сначала научно-исследовательские, а затем опытно-конструкторские и технологические работы по созданию системы машинного перевода нового поколения, впоследствии переросшей в отдельный проект Compreno (прежнее название — Natural Language Compiler) по решению множества задач, связанных с обработкой естественного языка.

О серьезности намерений ABBYY совершить революцию в области компьютерной лингвистики свидетельствует не только многолетний труд более чем трехсот сотрудников компании, но и интерес к платформе со стороны Фонда развития Центра разработки и коммерциализации новых технологий (Фонд «Сколково»), отбирающего наиболее перспективные проекты и осуществляющего их поддержку. Не менее убедительной является и финансовая сторона дела: суммарные инвестиции фонда «Сколково» в Compreno — 475 млн рублей, что составляет половину финансирования проекта. Вторую часть (475 млн руб.) вносит сама ABBYY. Впечатляющие цифры, подчеркивающие размах и масштаб проекта.

Чтобы разобраться в нюансах положенных в основу Compreno механизмов и логике их работы, необходимо понять фундаментальную концепцию проекта, заключающуюся в следующем. На каком бы языке цивилизованные люди ни говорили, у понятий, которые они обозначают словами, гораздо больше схожего, чем различного. Все мы живем в домах, пользуемся мебелью, телефонами, ездим на машинах, ходим на работу в офисы, летаем на самолетах и т.д. Эти понятия общие и не зависят от языка с точки зрения того, какими мы их себе представляем. Уловив эту связующую нить, в ABBYY построили независимую от конкретного языка универсальную семантическую иерархию понятий.

Семантическая иерархия понятий представляет собой универсальное для всех языков дерево, толстые ветви которого являются более общими понятиями (например, «движение» ), а тонкие — более специфическими смысловыми значениями, структурированными от общего к частному («ползать», «летать», «ходить пешком», «бегать» и т.д.). Если речь идет про руководителя организации, то во главе данного лексического класса фигурирует понятие «лидер», а в подклассах представлены более частные понятия, такие, как «босс», «начальник», «руководитель», «шеф» и прочие слова и словосочетания, являющиеся своего рода листочками на дереве понятий.

Такая древовидная структура обеспечивает наследование свойств от предков к потомкам и позволяет избегать неоднозначностей в процессе перевода предложений с одного языка на другой. Пояснение разработчики дают на примере значения слова «управление», в русском языке соответствующего нескольким понятиям на разных ветвях универсального семантического дерева: можно «управление» интерпретировать как департамент, а можно, к примеру, — как действие. И благодаря тому, что семантический класс «управление» в смысле некой организации представлен в одной ветке дерева, а как действия в другой, система автоматически подбирает правильное слово при переводе текста на английский язык, делая выбор в пользу department или management в зависимости от контекста фразы. Как следствие, служащие ядром Compreno семантические описания позволяют легко переводить текст с английского или русского языка в универсальный язык и с универсального — на любой другой, описания которого имеются в системе.

Вторым крупным блоком платформы Compreno является синтаксис. Важно понимать, что синтаксис описывает то, каким образом понятия связаны друг с другом внутри одного или нескольких предложений. Для кодирования этих связей в языках используются члены предложения, согласования, порядок слов, падежи, различные служебные слова, союзы, предлоги и много всего остального. Синтаксис — это, образно говоря, большой конструктор из перечисленных элементов.

В различных языках могут использоваться разные элементы конструктора. Например, в английском порядок слов является важной частью синтаксиса. Вопросительные предложения формируются одним образом, повествовательные — другим, и никак иначе. Бывают некоторые опциональные обстоятельства времени и места, которые ставятся в начало предложения, но обычно на первом месте находится подлежащее, на втором — сказуемое и дальше располагаются остальные части речи. В русском языке другая ситуация. Мы не завязываемся на порядок слов, но зато для нас важно согласование, что, собственно, и является едва ли не самым крупным камнем преткновения для людей, изучающих русский.

Другая важная вещь, которую необходимо учитывать при синтаксическом разборе текста, — подстановки и связи между словами, имеющие место тогда, когда мы пропускаем какое-либо слово, но понимаем, что оно все равно есть. Яркий пример — фраза «Мальчик любит красные яблоки, а девочка зеленые». Ясно, что в отношении девочки речь идет про яблоки (а также про то, что она их любит), и мы прекрасно это поняли, хотя в тексте пара слов пропущена. Есть и другие, более сложные синтаксические связи, успешно разбираемые Compreno. Например: «Хоть мальчик и хотел поиграть, но он понимал, что у него мало времени». В данном случае мы два раза заменили слово «мальчик» местоимениями «он» и «него», и машине важно понимать, что это один и тот же объект, и восстанавливать пропущенные узлы.

Блок Compreno, отвечающий за синтаксис, разбирает роли различных понятий в предложении и связывает их друг с другом. Система анализирует текст и выстраивает дерево связей, в котором главным является обычно какое-то действие. От него далее идут объект, субъект и прочие атрибуты, привязывающиеся либо к объекту, либо к субъекту и передающие заложенный в конкретном предложении смысл. Чтобы синтаксический разбор был максимально точным, Compreno использует семантический анализ, основанный на вышеописанной универсальной иерархии понятий. Все это в сумме предоставляет новый уровень свободы при обработке машиной текстов, позволяет ей «понимать» смысл исходного предложения и затем синтезировать этот смысл на другом языке.

Наконец, третьей важной составляющей лингвистической платформы ABBYY является статистика, позволяющая системе правильно сочетать фразы и более полно разбираться с омонимией, когда одно и то же слово может означать разные вещи (типичный пример: «замок» и «замок»). Не менее важна статистическая информация и для корректного разбора предложений с двусмысленным толкованием. Например, провести грамотный анализ фразы «Эти типы стали есть в нашем цехе» можно только прибегнув к данным о частоте взаимоотношений между понятиями, вникнув тем самым в контекст речи или, иными словами, в предмет обсуждения. Если он о металлургии, то повествование идет про сталь, если про поведение людей, то логичным будет сделать выбор в пользу некоторых не очень хороших типов.

В основу статистической модели Compreno положен внушительный набор текстов разной тематики и жанров, едва ли не ежедневно обрабатываемых системой. Причем текстовых данных не абы каких, а созданных либо переведенных с одного языка на другой именно человеком. Подобный подход снижает вероятность возникновения ошибок в процессе принятия системой решений и искажений при синтезе смысловых конструкций.

Что же в итоге получилось? В итоге специалистам ABBYY удалось, объединив знания, воображение, идеи и опыт, построить на «трех китах» — семантической иерархии понятий, синтаксисе и статистике — модель языково-независимых данных об устройстве мира и модель доступа к этим данным. Как следствие, удалось максимально близко подойти к пониманию смысла текста компьютером и сделать возможным решение широкого пласта лингвистических задач. Каких именно?

Лингвистические технологии ABBYY. От сложного — к совершенному

ABBYY представила первые решения на базе лингвистической технологии Compreno

Компания ABBYY объявила о выпуске программных инструментов Intelligent Search и Intelligent Tagger, предназначенных для корпоративного рынка и построенных на базе технологии понимания, анализа и переводов текстов Compreno.

Первое решение — Intelligent Search — позволяет с высокой точностью искать документы, основываясь на понимании смысла текста. Благодаря алгоритмам Compreno оно учитывает не только все формы слов, но и их семантические значения, выявляет смысловые связи между словами, определяет смысл и контекст всего документа. Такой подход позволяет значительно повысить эффективность поиска по сравнению с традиционными системами полнотекстового поиска, которые ищут данные по ключевым словам. Второй продукт — Intelligent Tagger — анализирует неструктурированную текстовую информацию и автоматически извлекает из нее именованные сущности (персоны, организации, даты и другие) и метаданные документов. Полученные данные можно использовать для совершенствования и автоматизации различных бизнес-задач, таких как поиск и анализ знаний, классификация и маршрутизация входящей информации, управление документацией и выявление конфиденциальных данных в ней. Оба решения в настоящий момент поддерживают английский и русский языки.

Читать еще:  Sniper Elite 4 — шаг вперед, шаг назад

«Сегодняшний анонс — это новый этап в истории компании. Мы верим, что будущее за лингвистическими технологиями анализа и понимания смысла текста. Решения на базе этих технологий будут способны изменить эффективность корпоративных информационных систем», — сказал Сергей Андреев, президент и генеральный директор группы компаний ABBYY.

Работу над универсальной лингвистической платформой Compreno компания ABBYY начала 19 лет назад, в 1995 году. Общие собственные инвестиции разработчика в проект составили более 80 миллионов долларов. С данным проектом ABBYY стала одним из первых резидентов «Сколково», получив от Фонда около 14 миллионов долларов (примерно 475 млн рублей). С более подробной информацией о системе Compreno можно ознакомиться в материале 3DNews «Лингвистические технологии ABBYY. От сложного — к совершенному».

Лингвистические технологии ABBYY. От сложного — к совершенному

Идея разобраться с одной из ключевых проблем теории искусственного интеллекта и решить задачу понимания вычислительной техникой человеческой речи зародилась в умах специалистов ABBYY пятнадцать лет назад. Именно тогда с подачи основателя компании Давида Яна стартовали сначала научно-исследовательские, а затем опытно-конструкторские и технологические работы по созданию системы машинного перевода нового поколения, впоследствии переросшей в отдельный проект Compreno (прежнее название — Natural Language Compiler) по решению множества задач, связанных с обработкой естественного языка.

О серьезности намерений ABBYY совершить революцию в области компьютерной лингвистики свидетельствует не только многолетний труд более чем трехсот сотрудников компании, но и интерес к платформе со стороны Фонда развития Центра разработки и коммерциализации новых технологий (Фонд «Сколково»), отбирающего наиболее перспективные проекты и осуществляющего их поддержку. Не менее убедительной является и финансовая сторона дела: суммарные инвестиции фонда «Сколково» в Compreno — 475 млн рублей, что составляет половину финансирования проекта. Вторую часть (475 млн руб.) вносит сама ABBYY. Впечатляющие цифры, подчеркивающие размах и масштаб проекта.

⇡#Сумма технологий

Чтобы разобраться в нюансах положенных в основу Compreno механизмов и логике их работы, необходимо понять фундаментальную концепцию проекта, заключающуюся в следующем. На каком бы языке цивилизованные люди ни говорили, у понятий, которые они обозначают словами, гораздо больше схожего, чем различного. Все мы живем в домах, пользуемся мебелью, телефонами, ездим на машинах, ходим на работу в офисы, летаем на самолетах и т.д. Эти понятия общие и не зависят от языка с точки зрения того, какими мы их себе представляем. Уловив эту связующую нить, в ABBYY построили независимую от конкретного языка универсальную семантическую иерархию понятий.

Семантическая иерархия понятий представляет собой универсальное для всех языков дерево, толстые ветви которого являются более общими понятиями (например, «движение» ), а тонкие — более специфическими смысловыми значениями, структурированными от общего к частному («ползать», «летать», «ходить пешком», «бегать» и т.д.). Если речь идет про руководителя организации, то во главе данного лексического класса фигурирует понятие «лидер», а в подклассах представлены более частные понятия, такие, как «босс», «начальник», «руководитель», «шеф» и прочие слова и словосочетания, являющиеся своего рода листочками на дереве понятий.

ABBYY Compreno оперирует не словами, а значениями (понятиями). Одно значение может быть в одной ветке иерархии, а другое — в иной

Такая древовидная структура обеспечивает наследование свойств от предков к потомкам и позволяет избегать неоднозначностей в процессе перевода предложений с одного языка на другой. Пояснение разработчики дают на примере значения слова «управление», в русском языке соответствующего нескольким понятиям на разных ветвях универсального семантического дерева: можно «управление» интерпретировать как департамент, а можно, к примеру, — как действие. И благодаря тому, что семантический класс «управление» в смысле некой организации представлен в одной ветке дерева, а как действия в другой, система автоматически подбирает правильное слово при переводе текста на английский язык, делая выбор в пользу department или management в зависимости от контекста фразы. Как следствие, служащие ядром Compreno семантические описания позволяют легко переводить текст с английского или русского языка в универсальный язык и с универсального — на любой другой, описания которого имеются в системе.

Вторым крупным блоком платформы Compreno является синтаксис. Важно понимать, что синтаксис описывает то, каким образом понятия связаны друг с другом внутри одного или нескольких предложений. Для кодирования этих связей в языках используются члены предложения, согласования, порядок слов, падежи, различные служебные слова, союзы, предлоги и много всего остального. Синтаксис — это, образно говоря, большой конструктор из перечисленных элементов.

В различных языках могут использоваться разные элементы конструктора. Например, в английском порядок слов является важной частью синтаксиса. Вопросительные предложения формируются одним образом, повествовательные — другим, и никак иначе. Бывают некоторые опциональные обстоятельства времени и места, которые ставятся в начало предложения, но обычно на первом месте находится подлежащее, на втором — сказуемое и дальше располагаются остальные части речи. В русском языке другая ситуация. Мы не завязываемся на порядок слов, но зато для нас важно согласование, что, собственно, и является едва ли не самым крупным камнем преткновения для людей, изучающих русский.

Другая важная вещь, которую необходимо учитывать при синтаксическом разборе текста, — подстановки и связи между словами, имеющие место тогда, когда мы пропускаем какое-либо слово, но понимаем, что оно все равно есть. Яркий пример — фраза «Мальчик любит красные яблоки, а девочка зеленые». Ясно, что в отношении девочки речь идет про яблоки (а также про то, что она их любит), и мы прекрасно это поняли, хотя в тексте пара слов пропущена. Есть и другие, более сложные синтаксические связи, успешно разбираемые Compreno. Например: «Хоть мальчик и хотел поиграть, но он понимал, что у него мало времени». В данном случае мы два раза заменили слово «мальчик» местоимениями «он» и «него», и машине важно понимать, что это один и тот же объект, и восстанавливать пропущенные узлы.

ABBYY Compreno стремится к определению смысла текста, написанного на обычном языке, позволяя машине «понять» этот текст и трансформировать его в универсальное представление, не зависящее от языка

Блок Compreno, отвечающий за синтаксис, разбирает роли различных понятий в предложении и связывает их друг с другом. Система анализирует текст и выстраивает дерево связей, в котором главным является обычно какое-то действие. От него далее идут объект, субъект и прочие атрибуты, привязывающиеся либо к объекту, либо к субъекту и передающие заложенный в конкретном предложении смысл. Чтобы синтаксический разбор был максимально точным, Compreno использует семантический анализ, основанный на вышеописанной универсальной иерархии понятий. Все это в сумме предоставляет новый уровень свободы при обработке машиной текстов, позволяет ей «понимать» смысл исходного предложения и затем синтезировать этот смысл на другом языке.

Наконец, третьей важной составляющей лингвистической платформы ABBYY является статистика, позволяющая системе правильно сочетать фразы и более полно разбираться с омонимией, когда одно и то же слово может означать разные вещи (типичный пример: «замок» и «замок»). Не менее важна статистическая информация и для корректного разбора предложений с двусмысленным толкованием. Например, провести грамотный анализ фразы «Эти типы стали есть в нашем цехе» можно только прибегнув к данным о частоте взаимоотношений между понятиями, вникнув тем самым в контекст речи или, иными словами, в предмет обсуждения. Если он о металлургии, то повествование идет про сталь, если про поведение людей, то логичным будет сделать выбор в пользу некоторых не очень хороших типов.

В основу статистической модели Compreno положен внушительный набор текстов разной тематики и жанров, едва ли не ежедневно обрабатываемых системой. Причем текстовых данных не абы каких, а созданных либо переведенных с одного языка на другой именно человеком. Подобный подход снижает вероятность возникновения ошибок в процессе принятия системой решений и искажений при синтезе смысловых конструкций.

Что же в итоге получилось? В итоге специалистам ABBYY удалось, объединив знания, воображение, идеи и опыт, построить на «трех китах» — семантической иерархии понятий, синтаксисе и статистике — модель языково-независимых данных об устройстве мира и модель доступа к этим данным. Как следствие, удалось максимально близко подойти к пониманию смысла текста компьютером и сделать возможным решение широкого пласта лингвистических задач. Каких именно?

⇡#Игры разума

Говоря о практической значимости платформы ABBYY Compreno, разработчики, прежде всего, акцентируют внимание на решении двух ключевых задач — автоматическом переводе текстов для множества языковых пар и интеллектуальном поиске информации.

Первая задача, связанная с транслированием текстовых данных, крайне важна в век цифровых технологий, стирающих формальные границы и барьеры между странами. При постоянно возрастающих объемах многоязычной информации, необходимости вовлечения все большего количества участников из разных уголков мира в реализацию современных проектов критически важными становятся не только скорость получения перевода, но и качество получаемых на выходе текстов. С обеспечением последнего у существующих систем машинного перевода дела обстоят вовсе не так гладко, как может показаться на первый взгляд. Виной всему — многочисленные принципиальные ограничения в научных подходах, которые являются основой многих существующих машинных переводчиков. Эти ограничения связаны с невозможностью корректно обрабатывать исключения, объективной сложностью языковых конструкций, игнорированием семантики, неумением фиксировать реальные связи в предложении и прочими проблемами. Технология Compreno является инженерным воплощением фундаментальных лингвистических исследований многих учёных мира, аккумулирующим примерно 50-летний опыт. И благодаря этому Compreno умеет преодолевать перечисленные сложности и позволяет синтезировать текст по смыслу такой же, какой он был на оригинальном языке, или максимально похожий. Для оценки возможностей системы ниже представлен пример перевода кусочка статьи Google’s «Babel fish» heralds future of translation средствами статистического переводчика и платформы ABBYY. Комментарии, как говорится, излишни.

Читать еще:  Обзор новых возможностей Adobe Creative Cloud

If we tried manually to give the system those languages, it would be a hopeless task. The only possible way we could do this is to harness the power of machine computation. We build statistical models that are automatically training themselves and learning all the time.

Если бы мы попытались вручную дать системе те языки, это было бы безнадёжной задачей. Единственный возможный способ, которым мы могли бы сделать это, состоит в том, чтобы использовать силу машинного вычисления. Мы создаём статистические модели, которые автоматически обучаются и учатся всё время.

Если бы мы попытались вручную, чтобы дать системе этих языков, то было бы безнадежной задачей. Единственно возможным путем мы могли бы сделать это, чтобы использовать возможности машины вычислений. Мы строим статистические модели, которые автоматически обучение себя и учитесь все время.

Важность второй задачи — интеллектуального поиска — является следствием колоссального объема порождаемой человечеством информации, растущего в геометрической прогрессии и требующего иных подходов к анализу и поиску нужных данных. Сейчас поиск работает в основном с использованием словесной информации: при поиске документа мы сначала придумываем слова, которые должны в нем содержаться, затем вводим ключевые фразы, получаем удовлетворяющие критериям поиска данные и далее вручную выбираем интересующую нас информацию. Такой, ставший привычным поиск имеет ряд крупных недостатков. Во-первых, далеко не всегда можно сформулировать запрос, точно описывающий ту информацию, которую необходимо найти. Во-вторых, придумывая уточняющие слова, мы суживаем выборку и ограничиваем поиск. Наконец, перебирать все комбинации ключевых слов порой бывает крайне утомительно, а то и вовсе невозможно. Со всеми этими недостатками успешно справляются технологии ABBYY Compreno, позволяющие осуществлять смысловой поиск с использованием тех понятий и связей, которые были извлечены машиной из поискового запроса, сформулированного обычным языком.

Слоган «Мы помогаем людям понимать друг друга» прекрасно отражает суть технологий ABBYY Compreno

«Эрудированность» платформы и сосредоточенный в ней огромный багаж знаний позволяют использовать Compreno для выполнения множества других прикладных задач. На ее основе компании могут создавать качественно новые решения для систем многоязычного поиска и классификации данных, извлечения фактов и установления связей между объектами, мониторинга, систем защиты от несанкционированного использования информации, автоматического реферирования и аннотирования документов, распознавания речи и многих других задач.

Не менее перспективной и интересной сферой применения Compreno является решение задач, связанных с визуализацией текста. Яркий пример — создание мультипликационных роликов и фильмов на основе текстовых сценариев. Именно в этом направлении работает компания «Базелевс Инновации», также принимающая активное участие в проекте «Сколково» и уже добившаяся определенных результатов в создании программного комплекса для интерактивной трехмерной визуализации текстов. В ABBYY не без гордости заявляют, что в мире сейчас не существует настолько универсальной платформы, которая позволяет решить так много прикладных задач, требующих качественного лингвистического анализа текстов.

⇡#Планов громадье

На сегодняшний день, как было сказано выше, в проекте участвуют более 300 специалистов, активно привлекаются молодые кадры, студенты кафедры ABBYY в МФТИ и выпускники ведущих вузов страны — МГУ, РГГУ, МГЛУ, СПбГУ и многих других. Если посмотреть на корни работы, то они кроются в серьёзных исследованиях российской и мировой лингвистики. Этот научный багаж используется специалистами ABBYY. В планах компании значатся привлечение к участию в проекте ведущих мировых специалистов в области языкознания и лингвистики и придание проекту международного статуса.

В настоящий момент ABBYY реализует пилотные проекты по развертыванию программных решений на базе Compreno. Пока инициаторы проекта не раскрывают подробностей о разрабатываемых продуктах, но заверяют, что от их реализации и повсеместного внедрения в конечном итоге выиграют все — и производители софта, и потребители, то есть мы с вами.

Пока еще рано говорить о том, как сильно изменит жизнь человечества амбициозный проект ABBYY Compreno в будущем. Однако можно с уверенностью утверждать, что уже в ближайшее время компьютерная лингвистика совершит значительный прогресс в области моделирования языка и перейдет на совершенно новую технологическую базу, фундамент которой закладывается сейчас.

Abbyy Compreno

Compreno — это полноценная, не имеющая аналогов в истории технологическая революция. Масштаб этой революции, значение ее для людей (именно для всех людей, а не только для любителей компьютеров) сопоставимы разве что с изобретением World Wide Web или электронной почты.

Содержание

Технология Compreno предназначена для создания систем анализа, перевода и поиска текстов на различных языках.

Compreno — это технология перевода любого человеческого языка на универсальный язык понятий. Соответственно, Compreno включает в себя и сам этот универсальный язык понятий, который ABBYY тайком разрабатывала с 1990-х годов в своих исследовательских лабораториях.

2015: Старт продвижения Compreno в корпоративном сегменте

25 марта 2015 года компания ABBYY сообщила о развитии направления корпоративного бизнеса в сфере интеллектуальной обработки информации, которое является неотъемлемой частью рынков ECM, ERP, текстовой аналитики и поиска.

На 25 марта 2015 года на платформе ABBYY Compreno реализованы три решения:

Пилотные проекты с использованием Compreno стартовали в Государственной Думе, КЭС-Холдинге, крупной нефтяной, энергетической и других компаниях из разных отраслей. Решения ABBYY Compreno позволяют:

  • анализировать и извлекать нужную информацию из массивов неструктурированных данных (внутренних и внешних источников);
  • распределять поток входящих документов по департаментам и ответственным;
  • усовершенствовать поисковые системы.

«Учитывая огромный рост объема неструктурированных данных, в мире присутствует большой, постоянно растущий спрос на решения в области интеллектуальной обработки информации. Это направление является неотъемлемой частью рынков ECM и ERP, текстовой аналитики, поиска. Технологии ABBYY могут быть встроены в различные информационные системы, расширяя и дополняя их уникальными возможностями извлечения, анализа и поиска необходимой информации», – отметил Максим Михайлов, cтарший вице-президент, директор департамента ABBYY Compreno.

Технологии интеллектуальной обработки информации, 2014

2012: Анонс революционной технологии Compreno

В 2012 году Abbyy представила технологию Compreno. Универсальная Семантическая Иерархия (УСИ) — ядро языка понятий — насчитывает в это время 60 тысяч элементов в универсальном разделе когнитивной модели, 80 тысяч — в русском разделе, и 90 тысяч — в английском. Ничего даже отдаленного в мире не существует.

На февраль 2012 года мировых аналогов у Compreno нет, хотя в некоторых университетах и ведутся разработки в аналогичных направления. Однако фора в 15 лет, задействованные огромные человеческие ресурсы и материальные затраты позволяют надеяться, что ABBYY таки сумеет застолбить для себя эксклюзивное место первопроходца. На руку компании играет и то обстоятельство, что последние 10 лет подавляющая масса исследований в мире велась в русле статистической модели машинного перевода.

Compreno — это полноценная, не имеющая аналогов в истории технологическая революция. Масштаб этой революции, значение ее для людей (именно для всех людей, а не только для любителей компьютеров) сопоставимы разве что с изобретением World Wide Web или электронной почты. Никак не меньше. Для наглядности можно перевести эту революцию в понятные материально-купюрные реалии: если ABBYY спокойно, без суеты коммерциализирует Compreno хотя бы в десятой части возможных ее практических применений, а затем выйдет на фондовый рынок, капитализация компании затмит всех кумиров сегодняшнего дня — от Apple, грамотно и стильно эксплуатирующего весьма и весьма посредственные в технологическом отношении решения, до Google, умудряющегося заводить в тупик охапками большую часть собственных перспективных начинаний. (Сергей Голубицкий, обозреватель «Компьютерры», февраль 2012 года [1] )

Как работает Compreno

Традиционные модели перевода

Успех обеспечил и правильный изначальный выбор направления для разработки системы автоматического перевода. В 1990-е в мире правила одна королева — Rule-Based Translation Model, классическая модель перевода, основанная на ограниченном наборе готовых правил для некоторой пары языков. Одна из проблем RBTM — в накоплении все новых и новых правил, которые в какой-то момент просто начинают конфликтовать между собой. Анализируя предложение, мы можем применить разные комплекты правил, при этом машине неведомы приоритеты. Перевод, основанный на RBTM, как правило, не озабочен полным синтаксическим анализом: вместо него предложение делится на фреймы, на которые затем интерполируют существующие в системе правила для получения перевода. RBMT системы не учитывают семантику [1] .

В начале XXI века усилиями Google мир подсел на иглу нового алгоритма перевода — так называемой статистической модели. Основа СМ — наличие обширной базы разнонаправленных переводов. Мы задаем статистическому движку предложение для перевода, он ищет в базе данных как в словаре варианты уже существующих переводов аналогичного текста и после незначительных изменений выдает вполне приличный результат.

Изменения не самые существенные. Предположим нам нужно перевести предложение «в комнате стоит красный стул», а в статистической базе уже есть переведенная фраза «в комнате стоит зеленый стол» — решение элементарно: берется уже существующий шаблон перевода и новые слова просто заменяются по словарю.

Читать еще:  Vikings: Wolves of Midgard — морозная свежесть

Поскольку в СМ используются уже готовые человеческие переводы заведомо высокого качества, то на выходе получается весьма недурственный результат, ибо для осуществления перевода не нужно погружаться в синтаксис, специфику фразеологии конкретного языка и проч.

Все замечательно, однако, лишь до тех пор, пока дело не касается переводов в направлениях с так называемым низким покрытием (скажем, каким-нибудь, румынско-русским или тайско-венгерским).

Где брать аналоги? По словам Сергея Андреева опасность подстерегает также при уходе в предметные области на массовых направлениях, потому что параллельных текстов становится сильно меньше, чем в бытовой и разговорной тематике. Сочетание ухода в предметную область и не самого массового направления перевода приводит к слабым результатам. Скажем, IT. Казалось бы, какие сложности могут возникнуть у машинного перевода с текстом на тему информационных технологий? В самом деле — никаких, если мы занимаемся русско-английским переводом. Зато они тут же возникнут на русско-французской ниве! Статистическая база в этом направлении чрезвычайно скудная и лакуны возникают на каждом шагу.

Выход в рамках СМ для подобных ситуаций найден лишь паллиативный: работая с языками / темами низкого покрытия в качестве посредника используется английский язык. То есть сперва делается перевод с русского на английский, а затем уже с английского на, скажем, румынский, или тайский. В результате получается очень заметное снижение качества перевода.

Самое печальное, что проблема с плотностью покрытия в рамках СМ никак не решается принципиально. Единственный выход: нанять сотни тысяч переводчиков и заставить их заполнять лакуны по всем направлениям с низким статистическим покрытием. Как вы понимаете, никто это делать не сможет и не будет.

Помимо сложностей с низкой плотностью переводов по направлениям, выпадающим из узкого мейнстрима, у СМ еще множество мелких изъянов. Например, статистическая модель совершенно убого справляется с переводами имен собственных. Многие помнят о переводе Ющенко, как Януковича, а России как Канады. Отрицание (частичка «не») — это очень сложное препятствие. Частичку «не» можно правильно позиционировать в результате лингвистического анализа текста, а СМ таковым не занимается. В результате предложения, содержащие отрицание, часто переводятся движками на статистической модели с точностью до наоборот.

Как бы там ни было, ABBYY изначально отказалась от Rule Based Translation Model и замахнулась на систему компьютерного перевода нового поколения. Надо сказать, что придумывать особо ничего не требовалось. Универсальный язык понятий существует в структурной лингвистике в виде давней и несбыточной мечты еще со времен Людвига Витгенштейна. Даже Наум Хомский в своих ранних трудах лишь углублял существующую утопию.

Универсальная Семантическая Иерархия (УСИ)

Проект Compreno исходил из трех основополагающих посылок:

  • использование качественного и бескомпромиссного синтаксического анализа.
  • создание универсальной когнитивной модели языка, возможность которой определяется аксиомой о том, что люди, хоть и живут в разных условиях и говорят на разных языках, однако в массе своей мыслят одинаково. Формы выражения мысли разные, а вот понятийный аппарат совпадает.
  • автоматизированное корпусное дообучение — лингвистические описания верифицируются и дополняются на основании статистической обработки корпусных данных.

Исходя из этих посылок была сформулирована идея Универсальной Семантической Иерархии (УСИ), способной описывать явления от общего к частному. На составление этой иерархии у ABBYY и ушло 15 лет. На февраль 2012 года это 70 тысяч понятий в универсальной части когнитивной модели, более 80 тысяч — в русской, более 90 — в английской.

Алгоритм машинного перевода на УСИ

Алгоритм машинного перевода, основанного на УСИ, выглядит следующим образом:

  • Лексический анализ текста (выделение слов, знаков препинания, цифр и прочих текстовых единиц);
  • Морфологический анализ (определение грамматических характеристик лексем);
  • Синтаксический анализ (установление структуры предложения);
  • Семантический анализ (выявление выражаемого значения в системе языка);
  • Синтез из универсальной семантической структуры предложения на выходном языке.

В результате подбор слов для перевода осуществляется не напрямую из первого языка, а из понятийного набора, который, условно говоря, «висит» на той же ветке универсального семантического дерева, но только уже со стороны второго языка.

Поскольку модель УСИ сквозная, нижестоящие элементы системы по иерархии наследуют признаки вышестоящих элементов. Это простое, казалось бы, обстоятельство позволяет добиваться беспрецедентной точности машинного перевода, поскольку каждое слово из переводимого предложения описывается максимальным набором понятийных эквивалентов, причем не только видового, но и родовых качеств на всех уровнях смысловой иерархии.

В УСИ предусмотрены взаимосвязи между элементами структуры, относящимися к разным классам, и эти связи также структурированы и формализированы, что позволяет выполнять многоуровневый понятийный анализ текста, также повышающий качество перевода [1] .

ABBYY сфокусируется на развитии бизнес-решений на базе лингвистической технологии Compreno

ABBYY объявила о намерении активно развивать направление корпоративного бизнеса в области интеллектуальной обработки информации, которое является неотъемлемой частью рынков ECM, ERP, текстовой аналитики и поиска. Компания планирует сфокусироваться на расширении возможностей бизнес-решений в сфере обработки неструктурированных данных с помощью Compreno — технологии понимания и анализа текстов на естественных языках.

В ABBYY подчеркивают, что в отличие от систем, основанных на статистике и правилах, технология Compreno выполняет полный семантико-синтаксический анализ текста, создает семантическое представление текста, извлекает сущности, события и связи между ними. Это позволяет повысить качество анализа необходимой информации и сделать его более полным и точным. Новая технология поддерживает обработку текстов на русском и английском языках, помогает извлекать из документов ключевые факты и в оптимальные сроки настраивается на предметную область заказчика.

На базе ABBYY Compreno в данный момент реализовано три решения: InfoExtractor SDK, Smart Classifier SDK и Intelligent Search SDK. Пилотные проекты с использованием инновационной технологии стартовали в Государственной Думе, КЭС-Холдинге, крупной нефтяной, энергетической и других компаниях из разных отраслей.

По оценкам аналитиков, объемы документооборота и неструктурированной информации растут колоссальными темпами. Задача ее быстрой обработки становится критически важной для организаций, так как позволяет повысить конкурентоспособность и эффективность бизнес-процессов.

По данным IDC, к 2020 году объем цифровых данных в мире превысит 35 тысяч эксабайт, из которых более 80% будут неструктурированными. Аналитики IDG Enterprise1 отмечают, что сегодня 78% организаций во всем мире уделяют особое внимание структурированию данных. За прошедший год количество компаний, которые внедрили решения по анализу данных, возросло на 125%. Как отмечает IDG Enterprise, технологии анализа данных позволяют на 61% увеличить качество принятия бизнес-решений, на 57% увеличивают точность при планировании и прогнозировании, а также на 51% увеличивают скорость принятия решений в компании.

Работу над универсальной лингвистической платформой Compreno компания ABBYY начала 20 лет назад, в 1995 году. Общие собственные инвестиции разработчика в проект составили более 80 миллионов долларов. С данным проектом ABBYY стала одним из первых резидентов «Сколково», получив от Фонда около 14 миллионов долларов (примерно 475 млн рублей).

ABBYY сфокусируется на развитии бизнес-решений на базе лингвистической технологии Compreno

ABBYY объявила о намерении активно развивать направление корпоративного бизнеса в области интеллектуальной обработки информации, которое является неотъемлемой частью рынков ECM, ERP, текстовой аналитики и поиска. Компания планирует сфокусироваться на расширении возможностей бизнес-решений в сфере обработки неструктурированных данных с помощью Compreno — технологии понимания и анализа текстов на естественных языках.

В ABBYY подчеркивают, что в отличие от систем, основанных на статистике и правилах, технология Compreno выполняет полный семантико-синтаксический анализ текста, создает семантическое представление текста, извлекает сущности, события и связи между ними. Это позволяет повысить качество анализа необходимой информации и сделать его более полным и точным. Новая технология поддерживает обработку текстов на русском и английском языках, помогает извлекать из документов ключевые факты и в оптимальные сроки настраивается на предметную область заказчика.

На базе ABBYY Compreno в данный момент реализовано три решения: InfoExtractor SDK, Smart Classifier SDK и Intelligent Search SDK. Пилотные проекты с использованием инновационной технологии стартовали в Государственной Думе, КЭС-Холдинге, крупной нефтяной, энергетической и других компаниях из разных отраслей.

По оценкам аналитиков, объемы документооборота и неструктурированной информации растут колоссальными темпами. Задача ее быстрой обработки становится критически важной для организаций, так как позволяет повысить конкурентоспособность и эффективность бизнес-процессов.

По данным IDC, к 2020 году объем цифровых данных в мире превысит 35 тысяч эксабайт, из которых более 80% будут неструктурированными. Аналитики IDG Enterprise1 отмечают, что сегодня 78% организаций во всем мире уделяют особое внимание структурированию данных. За прошедший год количество компаний, которые внедрили решения по анализу данных, возросло на 125%. Как отмечает IDG Enterprise, технологии анализа данных позволяют на 61% увеличить качество принятия бизнес-решений, на 57% увеличивают точность при планировании и прогнозировании, а также на 51% увеличивают скорость принятия решений в компании.

Работу над универсальной лингвистической платформой Compreno компания ABBYY начала 20 лет назад, в 1995 году. Общие собственные инвестиции разработчика в проект составили более 80 миллионов долларов. С данным проектом ABBYY стала одним из первых резидентов «Сколково», получив от Фонда около 14 миллионов долларов (примерно 475 млн рублей).

Ссылка на основную публикацию
Статьи c упоминанием слов:
Adblock
detector