АвторСообщение



Пост N: 1
Зарегистрирован: 19.02.07
Рейтинг: 0
ссылка на сообщение  Отправлено: 19.02.07 15:58. Заголовок: Работа со словарями


На форуме мало полезной информации по этому вопросу. Хочется осветить, вопросы следующего характера: где скачать словари, как проще всего создать свой словарь? Большие словари сильно замедляют конвертациюа книг так что тема по моему актуальна. Заметил что в словарях для 5.1 движка можно обойтись наверно парой тысяч слов, так как очень многое движек и так говорит правильно. Особо раздражает неправильные произношения "все" и "всё" как правильно разместить в словаре словосочитания (заметил что даже когда правильно коворится в словаре с явно угазаной заменой, в книге все равно продолжает говорить неправильно), иногда доходит до того что когда нужно говорить всё говорит все и наоборот :(.

Спасибо: 0 
ПрофильЦитата Ответить
Ответов - 11 [только новые]





Пост N: 2
Зарегистрирован: 19.02.07
Рейтинг: 0
ссылка на сообщение  Отправлено: 19.02.07 18:32. Заголовок: Re:


В нете есть словарь от Мекелянжело, по структуре очень похож, проверю отпишу. Но обсудить эту тему нужно, не совсем ясно как работает исключение, нужно ли что-то оставлять в словаре движка или лучше обрабатывать все в самой программе на предварительной стадии и т.д.

Спасибо: 0 
ПрофильЦитата Ответить





Пост N: 37
Info: бодрое
Зарегистрирован: 03.10.06
Откуда: Украина, Харьков
Рейтинг: 0
ссылка на сообщение  Отправлено: 20.02.07 11:16. Заголовок: Re:


Лично моё мнение:
В словаре движка следует оставить те одиночные слова, произношение которых будет однозначно правильными вне зависимости от возможных словосочетаний и месторасположения в предложении.

В словаре программы следует помещать сложные, не однозначные правила, активно использующие спецсимволы '*' '&'
Например:
Слово "горы" может трактоваться по-разному. И для правильного его прочтения необходимо создать несколько правил:
&ые горы = ые го<ры
&ие горы = ие го<ры
&ой горы = ой горы<
&лись горы = лись го<ры
$Горы = Го<ры
вершине горы = вершине горы<
вершину горы = вершину горы<
склоне горы = склоне горы<
склону горы = склону горы<
часть горы = часть горы<
части горы = части горы<
горы протянулись = го<ры протянулись

.....
и т.д.
Вот такие правила следует держать в словаре программы.






Спасибо: 0 
ПрофильЦитата Ответить



Пост N: 3
Зарегистрирован: 19.02.07
Рейтинг: 0
ссылка на сообщение  Отправлено: 20.02.07 16:24. Заголовок: Re:


Не могу не согласится, но вобщем и целом не совсем ясно, лично мне как работает именно словарь найшей любимой программы :). Я так понял что немалую помощь оказывает список правильных произношений но не совсем ясен алгоритм его работы. Тоесть будет ли правильно читаться слово у которого есть несколько вариантов произношения, если оно попадет в этот список. Опять же из опыта может кто подскажет как его изначально оптимизировать, я вот сразу заметил что вместо:
Форкосиган=Форкосига<н
Форкосигана=Форкосига<на
и т.д.
намного удобней сделать всего одну запись:
Форкосиган*=Форкосига<н
Может можно найти где-то словарь с активным использованием правил подобных:

 цитата:
&ые горы = ые го<ры
&ие горы = ие го<ры
&ой горы = ой горы<
&лись горы = лись го<ры


Ведь таким образом можно существенно сократить колличество записей (читай уменьшить время обработки).

Спасибо: 0 
ПрофильЦитата Ответить



Пост N: 4
Зарегистрирован: 19.02.07
Рейтинг: 0
ссылка на сообщение  Отправлено: 20.02.07 16:42. Заголовок: Re:


Да, словари для 4 движка малопригодны для 5, больше половины слов произносятся и так правильно. На 5 движке словаря на 10000 слов должно быть вполне достаточно.

Спасибо: 0 
ПрофильЦитата Ответить





Пост N: 38
Info: бодрое
Зарегистрирован: 03.10.06
Откуда: Украина, Харьков
Рейтинг: 0
ссылка на сообщение  Отправлено: 21.02.07 11:12. Заголовок: Re:


Я так понял что немалую помощь оказывает список правильных произношений но не совсем ясен алгоритм его работы

Список правильных слов нужен лишь для того, чтобы на этапе "словарного анализа" можно было уменьшить список предоставляемых тебе для анализа слов. Для этого там предусмотрена кнопочка "отфильтровать имеющиеся в списке правильных произношений". Никаких других функций за этим списком я не обнаружил, но и эта функция сама по себе достаточно полезна чтобы иметь право на жизнь.

При непосредственной словарной обработке текста на этапе конвертации этот список (список "правильно произносимых слов") никак не учитывается. Т.е:

Допустим, вы занесли в список правильных слов слово "домашний".
Но если вы в словаре переопределили произношение этого слова:

домашний = домашни<й (допустим)

то это правило всегда будет применяться к тексту, не зависимо от того есть ли слово "домашний" в списке правильных слов или его там нет. Список правильных слов не рассматривается на этапе словарной обработке.

Далее. Касательно как работает словарная обработка.
Берется некий кусок текста (какими именно блоками происходит обработка я не знаю - возможно по предложениям, возможно абзацами, возможно блоками на которые разбит текст по содержанию или по времени. Склоняюсь к тому, что последнее наиболее вероятно, ибо заметно, что если весь текст (большой, не разбитый на блоки) отправить на словарную обработку, то она выполняется заметно медленнее чем если бы текст был разбит на блоки (по содержанию или по временному интервалу).
Будем считать что это предложение. Значит, берётся предложение и пропускается через существующие словари. Изменённое предложение возвращается на место, затем берётся следующее предложение и начинается его словарная обработка и т.д. пока не закончится обрабатываемый текст.

Допустим у нас 4 словаря, стоящих в строго определённой очерёдности (наименования файлов сортируются в алфавитном порядке по возростанию). В этом порядке они и рассматриваются при словарной обработке. Словарные правила внутри каждого из словарей рассматриваются в том порядке, в котором они находятся внутри словаря.

Пример:
Есть предложение текста, которе необходимо обработать словарями.
есть:
словарь 1 (дальше с1) внутри которого есть правила
правило 1
правило 2
правило 3
словарь 2 (дальше с2) внутри которого есть правила
правило 1
правило 2
правило 3
словарь 3 (дальше с3) внутри которого есть правила
правило 1
правило 2
правило 3

В этом случае порядок рассмотрения правил будет следующим

с1.правило1
с1.правило2
с1.правило3
с2.правило1
с2.правило2
с2.правило3
с3.правило1
с3.правило2
с3.правило3

При обработке куска текста (предложение) оно всегда проходит через ВСЕ правила выбранных вами словарей.
Чем больше словарей - правил - тем больше времени уходит на словарную обработку.
Надеюсь я чуть прояснил ситуацию со словарями 8).

Если что - моя аська:254532734

Спасибо: 0 
ПрофильЦитата Ответить



Пост N: 1
Зарегистрирован: 24.07.07
Рейтинг: 0
ссылка на сообщение  Отправлено: 24.07.07 18:15. Заголовок: Run-time error '93'


При подключении словарей от "Говорилки" (например Michelangelo)
программа вылетает с ошибкой

Run-time error '93':
Invalid pattern string

Пробовал и дома и на работе. Чё не так?

Движок скачивал по ссылке с этого сайта.

Спасибо: 0 
ПрофильЦитата Ответить





Пост N: 49
Info: бодрое
Зарегистрирован: 03.10.06
Откуда: Украина, Харьков
Рейтинг: 0
ссылка на сообщение  Отправлено: 30.07.07 09:57. Заголовок: Re:


словари от Говорилки не подходят для КубАудио.


Спасибо: 0 
ПрофильЦитата Ответить





Пост N: 4
Зарегистрирован: 29.03.13
Рейтинг: 0
ссылка на сообщение  Отправлено: 01.04.13 00:59. Заголовок: Товарищи, может кто-..


Товарищи, может кто-нибудь поделится словарями? Ну не изобретать же велосипед заново..
Пока нашел словарь на сайте golosknigi.narod.ru, но они не совсем корректные, придется переделавать.. Эх. еще бы знать как?!..

Спасибо: 0 
ПрофильЦитата Ответить





Пост N: 5
Зарегистрирован: 29.03.13
Рейтинг: 0
ссылка на сообщение  Отправлено: 02.04.13 16:12. Заголовок: Словари лучше выклад..


Словари лучше выкладывать в формате регулярных выражений. Сейчас сам буду составлять такой.

В поисках рая.. Спасибо: 0 
ПрофильЦитата Ответить



Не зарегистрирован
Зарегистрирован: 12.07.18
Рейтинг: 0
ссылка на сообщение  Отправлено: 12.07.18 09:45. Заголовок: Непонятно со словаря..


Непонятно со словарями.
На сайте представлено 6 словарей
У меня в программе сейчас стоит один словарь.

Для лучшего чтения мне нужно скачать и установить все словари?
Но у движка Николай есть свой словарь?
Как быть?
Что делать со словарями?



Спасибо: 0 
ПрофильЦитата Ответить



Пост N: 18
Зарегистрирован: 24.07.16
Рейтинг: 0
ссылка на сообщение  Отправлено: 13.07.18 18:42. Заголовок: заходишь в папку с п..


заходишь в папку с программой, там есть папка Dic туда скидываешь скачанные словари, потом в программе выбираешь их, и жмешь обработать книгу




Спасибо: 0 
ПрофильЦитата Ответить
Ответ:
1 2 3 4 5 6 7 8 9
большой шрифт малый шрифт надстрочный подстрочный заголовок большой заголовок видео с youtube.com картинка из интернета картинка с компьютера ссылка файл с компьютера русская клавиатура транслитератор  цитата  кавычки моноширинный шрифт моноширинный шрифт горизонтальная линия отступ точка LI бегущая строка оффтопик свернутый текст

показывать это сообщение только модераторам
не делать ссылки активными
Имя, пароль:      зарегистрироваться    
Тему читают:
- участник сейчас на форуме
- участник вне форума
Все даты в формате GMT  3 час. Хитов сегодня: 12
Права: смайлы да, картинки да, шрифты да, голосования нет
аватары да, автозамена ссылок вкл, премодерация откл, правка нет