Разбор составных слов и разделение сандхи
Деконструктор DPD теперь доступен как отдельный словарь.
В настоящее время он содержит около 700 000 разобранных слов, охватывая все книги в тексте Chaṭṭha Saṅgāyana, mūla, aṭṭhakathā, ṭīkā и aññā, а также все палийские тексты на Sutta Central. Это число будет уменьшаться по мере добавления новых сочетаний в DPD.
Как установить
Скачайте последнюю версию деконструктора DPD для GoldenDict или MDict с этой страницы на GitHub и поместите его в ту же папку, что и DPD.
Немного информации
Сандхи-сочетания - это самое большое препятствие для любого начинающего изучающего палийский язык. Правила сандхи не являются абсолютными правилами, а только возможностями морфологических изменений в зависимости от контекста. Эти правила сложны и трудны в понимании для начинающего.
Ситуация только усугубляется в комментариях, где не редко встречаются чрезвычайно длинные составные слова, включая такие гиганты, как avippavāsasammutisanthatasammutibhattuddesakasenāsanaggāhāpakabhaṇḍāgārikacīvarappaṭiggāhakayāgubhājakaphalabhājakakhajjabhājakaappamattakavissajjakasāṭiyaggāhapakapattaggāhāpakaārāmikapesakasāmaṇerapesakasammutīti, bhattuddesakasenāsanaggāhāpakabhaṇḍāgārikacīvarapaṭiggāhakacīvarabhājanakayāgubhājanakaphalabhājanakakhajjabhājanakaappamattakavissajjakasāṭiyaggāhāpakapattaggāhāpakaārāmikapesakasāmaṇerapesakasammutīnaṃ и āsavavippayuttasāsavasaṃyojanavippayuttasaṃyojaniyaganthavippayuttaganthaniyanīvaraṇavippayuttanīvaraṇiyaparāmāsavippayuttaparāmaṭṭhakilesavippayuttasaṅkilesikapariyāpannasauttaradukāta.
Сандхи - самое большое препятствие, с которым сталкиваются все формы вычислительной лингвистики, связанные с палийским каноном. В настоящее время это препятствует любому реальному развитию в этой области.
Никто еще не нашел удовлетворительного решения этой задачи.
Единственное текущее решение, которое в какой-то мере полезно, - это функция анализа DPR, которая часто неправильна и вводит в заблуждение столько же, сколько и правильна. По-видимому, используемый ею метод - это система замен регулярных выражений для удаления склонений и сокращения составных слов до словарных слов.
Новый подход
Один из полезных продуктов Цифрового Словаря Пали - это список склонений для каждого слова в словаре. Вместе с набором правил трансформации букв этот список был использован для создания нового алгоритма разделения сандхи.
Это все еще в процессе и далеко не идеально - для понимания контекста всегда требуется интеллект, - но это лучше, чем все, что существует в настоящее время, давая более точные результаты и, самое главное, меньше ложных срабатываний.
Например, если вы откроете bahalamadhukatelanāgabalapicchillādīnaṃ в DPD, он покажет разбиение, по которому можно перейти к соответствующим словам.