1

http://www.socionic.ru/articles/psychol … author.htm

2

Не нашёл ничего нового default/big_smile

Вообще, методикой определения значащих элементов текста должен заниматься алгоритм. А то можно упустить что-то важное.

В принципе, у меня, вон, банальный Байес даёт интересные результаты. Но пока очень маленькая база для обучения (этот форум).

3

Какие же интересные результаты дает банальный Байес?

Алгоритм в любом случае пишет человек. В том числе и самообучающийся. И правила, которые будут занесены, и факты выбирает он сам. Учитывая многообразие и сложность задачи обязательно сделает это субъективно.

Частотный анализ 100 книг (по признакам Рейнина, дихотомиям, типам, конкретным людяи и так далее) на Pentium-4 1500 Mhz под Oracle занимает у меня на компе в районе 4 часов. Это при том что индексы на месте и большинство запросов оптимизировано. Сдается мне, что сеть Байеса на таком количестве данных загнется и даже пискнуть не успеет default/smile

Строить же предположения на очень ограниченном наборе данных смысла нет, так как в моей статье показано, что предметная область влияет на частотный анализ гораздо больше психотипа. Иначе получится экспертная система, как в одном известном примере, подкинули монетку один раз, выпала "решка" из чего делается вывод, что вероятность выпадения решки равна 1 default/smile

Перед тем как что-то подавать на вход сети Байеса текст нужно обработать. А эффективнее базы данных Oracle + Си/Java для этого ничего нет на данный момент. Сейчас фирма Форс выпустила модуль РСО с поддержкой русского языка под Oracle, но пока этот пакет платный:
http://www.rco.ru/product.asp#pd3

Потом уже можно подключать Пролог и/или Лисп и делатьэкспертную систему. Только сдается мне, что ее сложность несколько превосходит оптимистичные надежды многих социоников, которые наивно считают, что если человек часто употребляет слово "не"  значит он негативист, слово "я" - интроверт, "мы" - экстраверт и так далее. Конечно, так было бы очень удобно типировать, народу бы понравилось простота и легкость, "методики", но увы и ах ничего подобного не наблюдается.

4

Oleg пишет:

Алгоритм в любом случае пишет человек. В том числе и самообучающийся. И правила, которые будут занесены, и факты выбирает он сам. Учитывая многообразие и сложность задачи обязательно сделает это субъективно.

А объективно на 100% решить проблему и не получится, пока в соционике не дадут нормального определения ТИМа. К тому же при калибровке системы все равно придется привлекать экспертов, которые вряд ли будут чересчур объективными.

Имхо, проблема не в методологии типирования, а в самой соционике, которая никак докопаться до сути не может.

5

masai пишет:

К тому же при калибровке системы все равно придется привлекать экспертов, которые вряд ли будут чересчур объективными.

Не просто вряд ли, а прямо необъективными. Напомню результаты киевской конференции. Когда провели сравнение результатов типирования тогдашних мэтров и получили их совпадения только в 16% случаев default/big_smile

6

По знаменитостям я собрал статистику из 40 разным спискам, результат сильно отличается от 16%.

7

Если по знаменитостям, и если списки, действительно, разных авторов, а не распространённые сейчас компилляции, то, полагаю, результат хуже 16% будет default/big_smile

8

Да, маленькая деталь. По знаменитостям, мало того, что уверенности в ТИМах куда меньше, чем у участников форумов, так ещё стоит учесть, что тексты большинства из них подвергались корректуре людьми, ТИМ которых, маловероятно, что совпадал с ТИМом авторов default/big_smile Я уже молчу про переводы...

9

Перевод на частотный анализ влияет слабо, так как с помощью описанного в статье алгоритма, программа определяла, что текст принадлежит например Теодору Драйзера независимо от конкретного переводчика.

К тому же тип знаменитостей определеяется вовсе не только по тексту.

10 Отредактировано Balancer (01.09.2005 21:18:34)

Oleg пишет:

Перевод на частотный анализ влияет слабо, так как с помощью описанного в статье алгоритма, программа определяла, что текст принадлежит например Теодору Драйзера независимо от конкретного переводчика.

Ой, слабо верится... Очень слабо. Скорее в алгоритме изъян искать нужно или в анализе данных default/smile

>К тому же тип знаменитостей определеяется вовсе не только по тексту.

Да. Но частотный анализ работает только тексту. Речь-то про него.

11

Олег, отлична статья. default/smile

12

Balancer пишет:
Oleg пишет:

Перевод на частотный анализ влияет слабо, так как с помощью описанного в статье алгоритма, программа определяла, что текст принадлежит например Теодору Драйзера независимо от конкретного переводчика.

Ой, слабо верится... Очень слабо. Скорее в алгоритме изъян искать нужно или в анализе данных default/smile

Забавный изъян дает в 3 случаях из 3 попадание среди 38 человек, и для Агаты Кристи тот же самый изъян, и для Джека Лондона.
Какой кошмарный алгоритм весь в изъянах default/smile

13

AKA пишет:

Олег, отлична статья. default/smile

Спасибо.