Задачи по анализу и извлечению информации из текстов, в том числе с помощью методов машинного обучения решают NLP-инженеры. NLP (от английского natural language processing) — это технологии обработки естественного языка.
В чем сложность автоматической обработки текста
Современные компьютеры способны понимать только числа и логические операции. Чтобы обрабатывать связный текст, нужно описать лингвистические закономерности и правила языке, понятном машине.
Кроме того, язык изменчив — возникают новые понятия, меняется информационный фон и контексты употребления слов. Поэтому важно постоянно адаптировать алгоритмы и статистические модели обработки текста к изменяющимся условиям. Мы стремимся максимально учитывать обратную связь от пользователей СКАНа — так нам удаётся оперативно реагировать на объективные изменения языка.
Где в СКАНе применяются NLP-технологии
Без преувеличения — везде.
Чтобы обработать текст новости, алгоритмы СКАНа распознают:
- «действующих лиц» и соотносят с базой карточек компаний и персон, а также с базой юрлиц в системе СПАРК,
- тональность новости по отношению к упомянутым компаниям и персонам,
- затронутые темы и соотносят с базой тем,
- маркеры риск-факторов,
- прямую и косвенную речь,
- и многое другое.
О том, как NLP-инженеры обеспечивают полноту и качество анализа публичной информации — в статье для блога «Нетологии» на Хабре.
Тестовый доступ