Некоторые методы автоматического анализа естественного языка, используемые в промышленных продуктах

Пример текста, в котором каждому слову поставлена в соответствие часть речи.

Description of state-of-the-art Natural Language Processing Technologies. Topics concerned include POS tagging, Text Parsing, Automatic Text Summarization. A lot of information on successful linguistic enterprises and research groups is also provided.

Введение

Исследования и разработки в области автоматической обработки текста в Европе и США привлекают внимание крупнейших частных фирм и государственных организаций самого высокого уровня. Европейский союз уже несколько лет координирует различные программы в области автоматической обработки текста. Например, Human Language Technology Sector of the Information Society Technologies (IST) Programme 1998 - 2000. Один из наиболее интересных проектов в рамках данной программы SPARKLE (Shallow PARsing and Knowledge Extraction for Language Engeneering). В числе его участников - Dimler-Benz, Xerox Research Centre in Europe и Cambridge University Computer Laboratory. Цель проекта боздание частичных синтаксических анализаторов для основных языков Европейского союза.

В США с 1991 до осени 1998 года существовал проект TIPSTER, организованный DARPA, Департаментом Обороны и ЦРУ совместно с Национальным Институтом Стандартов и Технологий и Центром военно-воздушных и военно-морских вооружений (SPAWAR). В работе консультативного совета программы участвовали также ФБР, Национальный Научный Фонд и некоторые другие организации. Основной целью программы было сравнение и оценка результатов работы различных поисковых систем и систем реферирования.

Debian Etch on a Dell 6400 (E1505)

Hardware

PCI devices

 
# lspci
00:00.0 Host bridge: Intel Corporation Mobile 945GM/PM/GMS/940GML and 945GT Express Memory Controller Hub (rev 03)
00:02.0 VGA compatible controller: Intel Corporation Mobile 945GM/GMS/940GML Express Integrated Graphics Controller (rev 03)
00:02.1 Display controller: Intel Corporation Mobile 945GM/GMS/940GML Express Integrated Graphics Controller (rev 03)
00:1b.0 Audio device: Intel Corporation 82801G (ICH7 Family) High Definition Audio Controller (rev 01)

О кажущейся неправдоподобности технологических прорывов

Any sufficiently advanced technology is indistinguishable from magic.

© Arthur C. Clarke

Иногда получается, что какой-то отдельно взятый технологический прорыв кажется шарлатанством из-за неправдоподобных заявлений.

Ну вот кто может поверить, что к началу 2000-х годов никому не известной конторой в Минске был разработан уникальный синаксический анализатор английского языка? Звучит неправдоподобно, да и проверить нельзя.

Несколько лет назад мне пришлось пользоваться некой мутной структурой данных. Имеющаяся в наличии библиотека не подходила по множеству причин. Библиотека эта была ориентирована на однопоточное применение, являлась по сути реализацией ORM для конкретного случая и выставляла в качестве API собственный язык запросов, явлюящийся надстройкой над SQL, тогда как мне нужен был низкоуровневый доступ и возможность бродить по дереву данных вдоль и поперёк.

Я в то время как раз собирался изучить Ruby-on-Rails, и его ORM подсистема под названием ActiveRecord мне показалась подходящей для реализации необходимой функциональности.

Сказано-сделано. Периодически мучая вопросами ближайшего гуру руби и рельсов , я за несколько вечеров написал нужную функциональность. Вышло меньше 1000 строк кода. Счастливый, я начал использовать свою библиотечку, делясь с коллегами радостью по поводу простоты и элегантности найденного решения.

Первая работа — как первая любовь

Собрано из двух постингов на dev.by.

Когда дискеты ещё только выходили из моды, а запороть компакт-диск считалось западлом, когда Invention-Machine Belarus ещё назывался Научсофтом, меня, совсем ещё желторотого несмышлёныша, уволили оттуда, прознав, что я получил предложение работы от тогдашнего лидера индустрии.

Увольнение было обставлено в лучших традициях большого и жестокого бизнеса. У входа в здание меня встретили и проводили к тогдашнему директору, который, тряся поджилками, полдня уговаривал меня подписать задним числом NDA, угрожая сделать невыездным и наслать порчу если я вдруг стану рыпаться. Верные коллеги тем же вечером размонтировали мой опечатанный комп и записали всё, что было личного, на компакт-диск. Как сейчас помню, хватилo места даже для инсталляции Quake 2 вместе со всеми сэйвами. Через месяц-другой любимый начальник предложил мне подработать по специальности на нелегальном положении, на что я с радостью согласился, и ещё шесть месяцев, пока оформлялись документы на отъезд, колбасил сявки на дому. C тех пор прошло много лет. Обида забылась. Из верных коллег на старом месте осталось только двое. Году в 2001, встретив директора Invention-Machine в зале ожидания аэропорта, я даже удосужился пожать ему руку и обсудить туманные перспективы моего тогдашнего работодателя.

Все эти годы я внимательно следил за Invention-Machine, ведь как-никак, а эта фирма дала мне путёвку в жизнь, там я встретил замечательных людей, с которыми дружу до сих пор. Но меня всегда поражало, насколько эти замечательные люди, профессионалы своего дела, незаметны даже в своей профессиональной среде.

Pages