Не нашёл ничего нового
Вообще, методикой определения значащих элементов текста должен заниматься алгоритм. А то можно упустить что-то важное.
В принципе, у меня, вон, банальный Байес даёт интересные результаты. Но пока очень маленькая база для обучения (этот форум).
Какие же интересные результаты дает банальный Байес?
Алгоритм в любом случае пишет человек. В том числе и самообучающийся. И правила, которые будут занесены, и факты выбирает он сам. Учитывая многообразие и сложность задачи обязательно сделает это субъективно.
Частотный анализ 100 книг (по признакам Рейнина, дихотомиям, типам, конкретным людяи и так далее) на Pentium-4 1500 Mhz под Oracle занимает у меня на компе в районе 4 часов. Это при том что индексы на месте и большинство запросов оптимизировано. Сдается мне, что сеть Байеса на таком количестве данных загнется и даже пискнуть не успеет
Строить же предположения на очень ограниченном наборе данных смысла нет, так как в моей статье показано, что предметная область влияет на частотный анализ гораздо больше психотипа. Иначе получится экспертная система, как в одном известном примере, подкинули монетку один раз, выпала "решка" из чего делается вывод, что вероятность выпадения решки равна 1
Перед тем как что-то подавать на вход сети Байеса текст нужно обработать. А эффективнее базы данных Oracle + Си/Java для этого ничего нет на данный момент. Сейчас фирма Форс выпустила модуль РСО с поддержкой русского языка под Oracle, но пока этот пакет платный:
http://www.rco.ru/product.asp#pd3
Потом уже можно подключать Пролог и/или Лисп и делатьэкспертную систему. Только сдается мне, что ее сложность несколько превосходит оптимистичные надежды многих социоников, которые наивно считают, что если человек часто употребляет слово "не" значит он негативист, слово "я" - интроверт, "мы" - экстраверт и так далее. Конечно, так было бы очень удобно типировать, народу бы понравилось простота и легкость, "методики", но увы и ах ничего подобного не наблюдается.
Алгоритм в любом случае пишет человек. В том числе и самообучающийся. И правила, которые будут занесены, и факты выбирает он сам. Учитывая многообразие и сложность задачи обязательно сделает это субъективно.
А объективно на 100% решить проблему и не получится, пока в соционике не дадут нормального определения ТИМа. К тому же при калибровке системы все равно придется привлекать экспертов, которые вряд ли будут чересчур объективными.
Имхо, проблема не в методологии типирования, а в самой соционике, которая никак докопаться до сути не может.
К тому же при калибровке системы все равно придется привлекать экспертов, которые вряд ли будут чересчур объективными.
Не просто вряд ли, а прямо необъективными. Напомню результаты киевской конференции. Когда провели сравнение результатов типирования тогдашних мэтров и получили их совпадения только в 16% случаев
По знаменитостям я собрал статистику из 40 разным спискам, результат сильно отличается от 16%.
Если по знаменитостям, и если списки, действительно, разных авторов, а не распространённые сейчас компилляции, то, полагаю, результат хуже 16% будет
Да, маленькая деталь. По знаменитостям, мало того, что уверенности в ТИМах куда меньше, чем у участников форумов, так ещё стоит учесть, что тексты большинства из них подвергались корректуре людьми, ТИМ которых, маловероятно, что совпадал с ТИМом авторов Я уже молчу про переводы...
Перевод на частотный анализ влияет слабо, так как с помощью описанного в статье алгоритма, программа определяла, что текст принадлежит например Теодору Драйзера независимо от конкретного переводчика.
К тому же тип знаменитостей определеяется вовсе не только по тексту.
10 01.09.2005 21:17:35 Отредактировано Balancer (01.09.2005 21:18:34)
Перевод на частотный анализ влияет слабо, так как с помощью описанного в статье алгоритма, программа определяла, что текст принадлежит например Теодору Драйзера независимо от конкретного переводчика.
Ой, слабо верится... Очень слабо. Скорее в алгоритме изъян искать нужно или в анализе данных
>К тому же тип знаменитостей определеяется вовсе не только по тексту.
Да. Но частотный анализ работает только тексту. Речь-то про него.
Олег, отлична статья.
Oleg пишет:Перевод на частотный анализ влияет слабо, так как с помощью описанного в статье алгоритма, программа определяла, что текст принадлежит например Теодору Драйзера независимо от конкретного переводчика.
Ой, слабо верится... Очень слабо. Скорее в алгоритме изъян искать нужно или в анализе данных
Забавный изъян дает в 3 случаях из 3 попадание среди 38 человек, и для Агаты Кристи тот же самый изъян, и для Джека Лондона.
Какой кошмарный алгоритм весь в изъянах
Олег, отлична статья.
Спасибо.