Автоматизированная+обработка+текстовых+массивов

+ **Статьи по теме @автоматическая обработка естественного языка**
 * Обработка естественного языка** (//Natural Language Processing, NLP//) — общее направление искусственного интеллекта и математической лингвистики. Оно изучает проблемы компьютерного анализа и синтеза естественных языков. Применительно к искусственному интеллекту анализ означает понимание языка, а синтез — генерацию грамотного текста. Решение этих проблем будет означать создание более удобной формы взаимодействия компьютера и человека.

** Ссылки на програмные продукты и онлайн-ресурсы ** 1. [|http://linguistlist.org/sp/GetWRListings.cfm?WRAbbrev=Software#wr97] - программный каталог 2. [] - программа(бесплатная) для переводчиков PRESEMT

3. [] - программа-анализатор фонетической составляющей речи 4. [] - анализатор звуковых волн 5. [] - лексическая база знаний английского языка 6.[] - ссылка на внешний каталог программ для лингвистических исследований 7. [] - книга отзывов на программное обеспечение, касающееся лингвистики 8. [] - статьи(программные обзоры) по изучению языка 9. [] - каталог ссылок по корпусной лингвистике 10. [] - польский сайт, посвященный проблемам компьютерной лингвистики

11. [] - немецкая программа-лемматайзер 12. [] - словари специальных терминов 13. [] - программы для переводчиков 14. [] - англо-испанский онлайн-словарь 15. [] - англо-индонезийский электронный переводчик 16. [] - турецкая клавиатура для письма 17. [] - сайт по автоматической обработке естественного языка 18. [] - словари и переводчики языков, находящихся на грани исчезновения 19. [] - база данных сводного корпуса созданного google 20. [] - программное обеспечение для обработки и разбора естественных языков, а также проверка орфографии, машинный перевод, тезаурусы, ответы на вопросы по атрибуции текста для английского, немецкого, французского, итальянского языков. 21.[] - портал для внештатных переводчиков, который ведет учет переводческих агентств 22.[] - s imilis является полнофункциональным инструментом машинного перевода, предназначенным для менеджеров проектов и переводчиков, которые сталкиваются с растущими потребностями в производительности и качестве. Similis анализирует предыдущие переводы, генерирует памяти переводов (TM) и применяет его ко всем новым проектам. 23.[] - xlit - это программа для транслитерации текста. Позволяет пользователю производить транслитерацию просто вводя входные строки в одном окне и строки, к которым они должны быть отображены в другом. Он понимает Unicode и предоставляет ряд инструментов ввода знаков. 24. [] - расширение для OpenOffice Writer, производящее транслитерацию с английского на хинди. XlitHindi использует Xlit которая представляет собой статистический подход, основанный на движке транслитерации для преобразования слов с английского на индийские языки и обратно, не теряя при этом фонетических характеристик. Xlit может быть использован в качестве метода ввода и систем машинного перевода, электронное управление приложениями и другие приложения, которые нужны для ввода текста в любом индийском языке и английском языках. Xlit и XlitHindi были разработаны Группой KBCS, C-DAC Мумбаи (Былая NCST), Индия. 25. [] - Расширенная синтаксических диаграмм (ЗАС) представляют грамматики как сети узлов и связей. Они эквивалентны, но проще, грамматики ATN. Этот сайт содержит описание ASDs, бесплатное программное обеспечение, написанное в Java для редактирования и анализа с РАС, и пример грамматики, с семантическими дополнения, для частей английском языке. 26. [] - Это небольшой веб-приложение которое будет конвертировать ваши помечены скобок в синтаксического дерева. Использование приложение является бесплатным. Вы можете сохранить созданный изображения (. PNG файлов) на ваш жесткий диск для использования в других программах. Приложение не ограничивается использованием для английского языка, но страница на английском языке. 27. [] - DIATECH это веб-инструмент для анализа и visualysing варьирования языка. 28. [] - «Лес» Пакет предоставляет PGF / Tikz основе механизма для рисования языковым (и других видов) деревьев в латексе. Пакет бесплатных (под лицензией Проект LaTeX Public License 1.3). Она доступна на CTAN (http://www.ctan.org/pkg/forest) и включены в TeXLive и MikTeX. 29. [] - LTC это бесплатный инструмент для рисования языковых синтаксических деревьев, работающий на платформе Win32. 30. [] - NooJ является как средством Корпус переработки и развития языковой среды: она позволяет формализовать лингвистов несколько уровней языковых явлений: орфографии и правописания, словари для простых слов, многословных единиц и замороженных выражения, инфекционных, деривационные и продуктивной морфологии, местные, структурные синтаксиса и трансформационного синтаксиса. Для каждого из этих уровней, NooJ предоставляет лингвистов с одним или более формальных инструментов специально разработан для облегчения описания каждого явления, а также разбор инструменты разработаны, чтобы быть как вычислительно эффективным. Этот подход отличается от большинства NooJ вычислительной лингвистики инструменты, которые обеспечивают единый формализм, который должен описать все. В качестве инструмента обработки корпус, NooJ позволяет пользователям накладывать сложные языковые запросы для больших корпораций, чтобы построить индексы и согласований, комментировать тексты автоматически, проводить статистический анализ и т.д. NooJ находится в свободном доступе и языковые модули могут уже быть загружен Акадиан, арабский, армянский, болгарский, каталанский, китайский, хорватский, французский, английский, немецкий, иврит, греческий, венгерский, итальянский, польский, португальский, испанский и турецкий. 31. [] - Это простой, на основе браузера генератор синтаксического дерева, которое использует скобки обозначения в качестве входных данных и отображает дерево в виде файла изображения можно сохранить на свой компьютер. Он создан, чтобы быть простым в использовании, рисует при вводе, и предлагает базовую поддержку рисовать линии движения. Unicode символы поддерживаются 32. [] - Syntactica является инструментом, программное приложение, разработанное, чтобы вы изучали естественную структуру языка в удовольствие, интерактивным способом. Он предназначен для использования совместно с описанием грамматики как науки "текста. Программа предоставляет простой интерфейс для: • создание грамматики (состоящий из фразы-структуру правил и словарей) • Просмотр структуры они выделяют естественного языка • преобразование этих структур синтаксических операций, таких как движение, удаление и копирование Syntactica позволяет многим аспектам синтаксической теории, чтобы изучить.Правила и лексику окна позволяют назначать и контролировать просачивание синтаксические особенности.TreeViewer окне вы можете выполнять различные формальные операции над деревьями, просто указание, щелчок и использование преобразований панели. Syntactica также позволяет управлять различными ограничениями по операциям, в том числе элементарных версия Subjacency. Изначально разработанный под NeXTSTEP, Syntactica была портирована на JAVA, где он работает под Mac OSX и получи

33. [] - Tikz-зависимость позволяет рисовать графы зависимостей в латексе документы практически без усилий. Пакет имеет очень проста в освоении, интерфейс высокого уровня, которые могут быть использованы для разработки простых деревьев зависимость, комплекс, не проективные графики, разбирает пузырь, да и вообще любой график, который основан на последовательности узлов и ребер, среди них. Он основан на PGF / Tikz и он может быть использован либо с латексом или pdflatex. Он поставляется с очень полную документацию, что поможет вам начать работу за 10 минут, даже без каких-либо предварительных знаний о Tikz. Он также предоставляет много стилей объектов, чтобы позволить вам персонализировать внешний вид и графики на свой ​​вкус. 34. [] - TreeBuilder это программа предлагает простой способ, чтобы вручную построить языковые деревья синтаксиса. Он поддерживает множество полезных функций (автоматический выравнивание, индексы, различные типы ссылок и т.д.). Дерево может быть сохранен в своем собственном формате (*. Дерево) или изображения (PNG, JPEG или растровых). 35. [] - TreeForm синтаксического дерева рисунок программного обеспечения с открытым исходным кодом лингвистический синтаксис и семантику дерева графическим редактором. Предназначен для WYSIWYG п-арной рисунок дерева, реорганизации, сохранение и печать, этот инструмент значительно ускоряет процесс получения синтаксических деревьев. TreeForm также позволяет сделать. PDF (с Acrobat Professional или MAC). JPG и. PNG деревьев. Эта программа Java работает на Mac, Windows и Linux 36. [] - Деревья 2 представляет собой программу Macintosh для отображения и манипулирования синтаксическими деревьями и дифференцирования. * Существует в настоящее время обновление программы, деревья 3, который работает на ОС Windows. 37. [] - Первоначальная цель алхимика, чтобы позволить вам читать в сырых текстовых файлов и создавать морфологических золотых стандартов в формате XML. Использование Алхимик, вы можете определить, морфем, а также ряд важных характеристик морфем, например, являются ли они корней или аффиксов, степень уверенности аналитиков и алломорфами морфемы. Алхимик также является хорошим общим инструментом для сортировки и фильтрации списков слов, потому что она позволяет пользователю легко использовать регулярные выражения применяются к словам. 38.[] - Audimaus строит корпус связанный текст и СМИ. Это кросс-платформенный инструмент, который позволяет представлять текстовый материал связан с несегментированной медиа-файлов, используя QuickTime для создания экземпляра ссылки. Он был разработан как средство интерактивной работе с полевыми записями и представления текстов и примеры предложений, как воспроизводимых средствах с диссертацией. 39. [] Системы и набор инструментов для создания, управления и анализа корпорации транскрипций разговорного языка. Состоит из редактора для транскрипции в нотной записи счета, менеджер корпус и средство поиска. Все форматы файлов на основе XML, которая максимизирует взаимозаменяемость и archiveability. Многие импорт и экспорт функциональность (Praat, Elan, AGTK, RTF, HTML, SVG и т.д.). 40. [] - Кура является полной системой для обработки языковых данных, особенно данных из полевых малого корпус языках. Это позволяет пользователям вводить текст на любом языке, анализировать эти тексты и принести анализируемых языковых фактов в связь друг с другом. Куры включает как настольное приложение для легкой обработки подстрочные тексты, Lexica и другие лингвистические данные, и специального назначения веб-сервер для онлайн-презентации анализируемые данные. 41. [] - Помощник лингвиста (LA) является многоязычным генератора природного языка, основанного на языковые универсалии, типологии, и примитивы. LA лингвистов позволяет построить словарей и грамматик для широкого спектра языков, в частности меньшинств и исчезающих языков. LA затем использует эту информацию для создания начального проекта переводы многочисленных статей Сообщество по вопросам развития на этом языке. Эти статьи научить людей, как предотвратить распространение различных заболеваний, таких как СПИД и птичий грипп. Эти тексты предназначены для повышения качества жизни людей, а также включить носителей этих языков для участия в большой мир. Первоначальный проект, разработанный в переводах Л. всегда понятные, грамматически правильно, и примерно в шестом уровне чтения классе. Когда опытный родной язык переводчики используют проекты порожденных LA, их производительности, как правило, четыре раза без потери качества. 42. [] - Платформы аннотированных в XML. Интегрированный инструмент для корпусной лингвистики построен на затмение, Vex, подрывной и т.д. для создания и редактирования транскрипций и аннотации, для запросов, для управления контролем версий данных, а также для строительства можно транспортировать корпус. 43. [] - FLEx является инструментом управления и анализа данных для лингвистов и лексикографов. Он предназначен для управления и редактирования данных лексических, так и для interlinearizing текстов. Другие инструменты в программу включают согласование, дискурс диаграммы, морфологический очерк грамматики, массовое изменение. 44. [] - Тони это бесплатный инструмент, программное обеспечение, поддерживающее классификации разговорных форм в фонетических категорий. С его помощью можно вручную отсортировать языковых форм в кластеры, а затем слушать все элементы данного кластера, чтобы услышать любое окружение. Он идеально подходит для использования в начале выявление задач, в которых лингвистически важные фонетические категории еще четко не установлена​​. Тони использует специально отформатированные Praat TextGrid файлов и соответствующие аудиофайлы. Unix, Mac, и Windows дистрибутивов доступна вместе с образцами данных. 45. [] - Toolbox является инструментом управления и анализа данных для лингвистов. Это особенно полезно для поддержания лексических данных, а также для синтаксического анализа и interlinearizing текст, но он может быть использован для управления практически любого типа данных. 46. [] - WeSay помогает нелингвистов построить словаря на их родном языке. Она имеет различные способы, чтобы помочь родным думать слов на их языке и ввести некоторые основные данные о них (ни в обратную косую черту кодов, просто формы для заполнения в). Программа настраивается и проблемно-ориентированные, давая советник возможность включения / выключения задач по необходимости и в пользователь получает подготовку для этих задач. WeSay использует стандартный XML-формате, так что данные могут быть обменены с лингвистом-ориентированные инструменты, как полевые работы. 47. [] - Java приложение, которое имитирует эволюцию двуязычная система в конечном населения. В частности, ALingua позволяет изучить пространственную динамику такой системы задано множество начальных условий: распределение агентов, сети определения связей между ними, и алгоритм обучения языку с соответствующими настройками параметров. 48. [] - LingPy это пакет с открытым исходным кодом модулей Python для сравнения последовательностей, расстояние анализы, операции с данными и визуализации количественных методов в исторической лингвистике. Основная идея LingPy является обеспечение программный пакет, который, с одной стороны, интегрирует различные методы анализа данных в количественном исторические лингвистике в рамках единой структуры, а, с другой стороны, служит в качестве интерфейса для подготовки и анализа лингвистических данных с использованием биологических программных пакетов. 49. [] - Phono представляет собой программный инструмент для разработки и тестирования моделей регулярные исторические изменения звука. Если вы хотите проверить звуковые изменения модели, для которой у вас есть упорядоченный набор правил и набор предка слов, или если вы учите о работе регулярная смена звука, Phono могут быть полезными для вас. 50. [] - Инструмент, чтобы помочь лингвисту в сравнительной фонологии. Данные, введенные с клавиатуры (полная IPA) или импортировать.Лингвист решает, что формы сравнимы, комментирует их как таковые и выравнивает их сегментов, то подсчитывает полученные множества соответствия результатов в структуре организованной предполагаемой protosegment и окружающей среды. Вся струкура результатов может быть реорганизован по мере необходимости, чтобы выразить анализа. 51. [] - Первоначальная цель алхимика, чтобы позволить вам читать в сырых текстовых файлов и создавать морфологических золотых стандартов в формате XML. Использование Алхимик, вы можете определить, морфем, а также ряд важных характеристик морфем, например, являются ли они корней или аффиксов, степень уверенности аналитиков и алломорфами морфемы. Алхимик также является хорошим общим инструментом для сортировки и фильтрации списков слов, потому что она позволяет пользователю легко использовать регулярные выражения применяются к словам. 52. [] - Кларк XML-программное обеспечение системы для развития корпорации. Основная цель позади конструкции системы является минимизация вмешательства человека в процессе создания языка ресурсов. 53. [] - Этимологический словарь греческих и латинских корней английских слов. 54.[] - LanguageWare это программный компонент, который обеспечивает лингвистической обработки для различных продуктов и решений в более чем 20 языков. Она включает в себя библиотеку Java с набором язык ресурсов.Библиотека кодирует языковые модели, и ресурсы (словари) кодирования лексических записей для каждого языка и содержат конкретных языков логики обработки, таких как логика обработки разложения, проверка орфографии, морфологии, переносы, определение языка и т.д. 55. [] - Мы хотели бы объявить о выпуске LexChecker, английский веб-Корпус-службе запросов разработан в Центральный государственный университет на Тайване. LexChecker принимает в качестве входных данных запрос английское слово и обеспечивает на выходе список куски, или многословные строк, в котором это слово обычно используется.Куски в свою очередь, каждая связана с примерами предложений от BNC. Перечисленные куски не только строки слов, но может также содержать слотов указания на ограниченную взаимозаменяемость в части речи. Таким образом, результаты показывают не только струны, но характер использования целевого слова. Чтобы попробовать службы и описание см. далее, пожалуйста, посетите http://www.lexchecker.org. Дэвид Wible Най-Lung Цао Национального центрального университета Тайваня 56. [] - Lexique 3 Доступен www.lexique.org является открытым исходным кодом базы данных для французского языка. В том числе Lexique 2 и 3, в нем описываются 55 000 лексических корней, и более чем 135 000 лексических элементов. 57. [] - Lexique Pro представляет собой интерактивный зрителя лексику и редактор, с гиперссылками между записями, категория взглядов, словарь разворот, поиска и экспорта инструментов. Он создан для отображения данных в удобном для пользователя формате, чтобы вы могли распространить его на другие. 58. [] - LIWC вычисляет процент слов в каждом файле по 72 размеры +. Категории включают в себя отрицательные эмоции (в том числе гнев, тревога, печаль), положительных эмоций, когнитивных процессов, стандартные языковые размеры (местоимения, предлоги, артикли), и общих категорий содержания (смерть, пол, род занятий и т.д.). Это звуковой программы с точки зрения психометрических - как в создании категорий и проверка словарей. Словари на английский, испанский, немецкий, голландский, итальянский, норвежский и имеющиеся; частичном словарей на корейском, венгерском и французском языках. 59. [] - Коптская английском и коптской чешский словарь, связанные с коптского словаря Крам, написанный на С + + с использованием встроенной сервера MySQL и Qt GUI. Содержит коптских текстов, грамматики, греческих текстов, LSJ Греко-английский лексикон и другие. 60. [] - MorDebe, является свободным, крупномасштабных, лексикографически контролируется лексикон европейский португальский, концентрируется вокруг инфекционных морфологии.Лексиконе предоставляет флективной парадигмы, слово-класса и орфографических для более чем 125 000 португальских слов - в общей сложности около 1,5 млн. словоформ. Помимо этого, база данных содержит информацию о деривационной морфологии и орфографических вариации для большого количества лексических единиц. База данных также содержит слова других национальных вариантов Португальский (Бразилия, Ангола, Кабо-Верде, и т.д.) - все слова, принадлежащие к этим вариантам явно помечены как таковой. 61. [] - msort представляет собой сложную утилиту сортировки. Он отличается от типичных утилиты рода в обеспечении большей гибкости в анализе вклада в записи и определения ключевых полей и больший контроль над порядок сортировки. Записи не обязательно должны быть одного строк текста, но могут быть разделены в несколько способов. Ключевые поля могут быть выбраны положением в записи, по характеру диапазоны или путем сопоставления регулярное выражение для тега. Для каждого ключа произвольный порядок сортировки может быть указан вместе с мультиграфами, исключения, замены и регулярные выражения. В дополнение к обычным лексикографического упорядочения и численные, msort поддерживает сортировку по дате, времени и длины строки. Лексикографические ключей может быть изменено, что позволяет построение обратного словарей. Любые или все клавиши могут быть необязательным. Для дополнительных клавиш, пользователь может указать, как записи не ключевое поле должно сравнить с записями, в которых ключевое поле присутствует. Msort полностью поддерживает Unicode. 62. [] Python скрипт для выполнения регулярных выражений Поиск в базах данных написано и interlinearized с SIL Toolbox. Сценарий имеет лицензию с GPL и предлагается как есть. 63. [] - Создание и управление терминологией на нескольких языках. Эта терминология инструмент концептуального - Условия на разных языках связаны с одной концепцией. Вы можете получить доступ к termbank из любого компьютера, подключенного к Интернету, и вы сможете публиковать свои работы остальной мир с помощью мыши. 64. [] - Анализ текста разметки System; для Linux и Mac OS X 65. [] - Лексиконе Texai происходит сращивание WordNet 2.1, КМУ словарь с указанием произношения, Викисловарь, и OpenCyc лексикон.Формат RDF, N3 или аккуратный. Включены записи для лемм, словоформы, словом чувств, образцы фраз и ARPABET произношения.Документация файл доступен как отдельный download.Only версия содержит тригонометрические контексте.

** Ссылки на книги и статьи ** 1. [] - журнал об автоматической обработке естественного языка 2. [] - журнал об этимологии слов 3. [] - педагогический журнал 4. [] - журнал об автоматической обработке восточных языков 5. [] - журнал посвященный изучению феномена билингвизма 6. [] - англо-немецко-русский журнал по прикладной лингвистике 7. [] - журнал по теории перевода азиатских языков 8. [] - журнал по общей и социолингвистике 9. [] - построение математических моделей в лингвистике 10. [] - журнал занимающийся исследованием дискурса