... ничего не дал Вероятность угадывания, что на ТИМам, что по дихотомиям - на уровне шума
а что за анализ такой?
По дихотомиям Зевс, посты которого не участвовали в настройке весовых коэффициентов, получился неярко выраженным Робом
а что за анализ такой?
Частотный анализ употребляемости тех или иных слов. По которому спаммеров сейчас любят ловить
...
Кстати, ты не мог бы таблицу постингов из БД форума сбросить и мне прислать? А то приходится из онлайна тягать - долго, и твоему серверу лишняя нагрузка Таблица posts.
А то я тут сейчас думаю на счёт нормирования слов, так опять тащить придётся через онлайн всё :-/
а что за анализ такой?
Кстати, ты тоже Робом вышел Что-то я Бальзаков мало внёс в список. Сейчас уточним
zverek пишет:а что за анализ такой?
Кстати, ты не мог бы таблицу постингов из БД форума сбросить и мне прислать? А то приходится из онлайна тягать - долго, и твоему серверу лишняя нагрузка Таблица posts.
кинул тебе на мыло адрес.
zverek пишет:а что за анализ такой?
Кстати, ты тоже Робом вышел
семейное проклятье
Скачал.
Кстати, в чтих ТИМах ты тут уверен? А то у меня пока только 10 человек для начального анализа.
(Сейчас мучаю вариант анализа прямо по аспектам - получается лучше всего, вроде бы)
Примеров набралось только на 7 аспектов в базе и на 6 - в творческой.
Нет в тестах базовых ЧИ и творческих БЛ и ЧЭ.
Образцовых Донов, Есей, Гексли и Жуков в студию!
Самое трудное - избавляться от многократных цитат. А избавиться от цитирования чужих текстов без их выделения автоматически вообще невозможно
Самое трудное - избавляться от многократных цитат.
а чего там трудного, выкидывать все [ quote]*[/ quote]
Примеров набралось только на 7 аспектов в базе и на 6 - в творческой.
Нет в тестах базовых ЧИ и творческих БЛ и ЧЭ.
Образцовых Донов, Есей, Гексли и Жуков в студию!
я думаю лучше взять оргийскую базу там материала наберется выше крыши
ЗЫ. это не ты там оргии парсишь так что они аж легли?
Скачал.
Кстати, в чтих ТИМах ты тут уверен? А то у меня пока только 10 человек для начального анализа.
(Сейчас мучаю вариант анализа прямо по аспектам - получается лучше всего, вроде бы)
а первоначально по дихотомиям было?
я думаю лучше в качестве исходных данных брать анкеты чебурашек там все достаточно упорядоченно.
Balancer пишет:Самое трудное - избавляться от многократных цитат.
а чего там трудного, выкидывать все [ quote]*[/ quote]
Проблема с вложенными цитатами:
111
quote
222
quote
333
/quote
444
/quote
555
quote
666
/quote
777
При жадном захвате (от первых quote до последних /quote) останется только 111 и 777 (сейчас такой метод использую)
При нежадном (от первых quote до первых /quote) останется:
111
quote
444
/quote
555
777
Правда, потом ещё раз пройти можно, но там другие проблемы могут полезть. Проще пока пользоваться жадным методом
я думаю лучше взять оргийскую базу там материала наберется выше крыши
ЗЫ. это не ты там оргии парсишь так что они аж легли?
Нет, не я Мысль Байеса попробовать только сегодня в голову пришла. А легли они - заранее
Беда в том, что фиг мне кто ту базу даст. Там же Миша! А по URL тянуть... Это только если оно оправдано будет
а первоначально по дихотомиям было?
я думаю лучше в качестве исходных данных брать анкеты чебурашек там все достаточно упорядоченно.
Первоначально сразу ТИМ пытался выявить Впрочем, я сейчас, приведя к исходным формам слова в текстах ("нееееет , если у вас быть есть опыт и метода метод борьбы с последствиями , любой последствия не быть иметь катастрофический силы . если же оный нет , то первый же прорвавшийся сквозь заслон предусмотрительности форсмажор быть иметь характер катастрофа .") ещё снова попробую
А с чебурашек толку мало. Нужны постинги свободного и длительного общения
При жадном захвате (от первых quote до последних /quote) останется только 111 и 777 (сейчас такой метод использую)
ну да, надо все выкидывать.
Беда в том, что фиг мне кто ту базу даст. Там же Миша! А по URL тянуть... Это только если оно оправдано будет
ну можно и не всю. делаешь серверный скрипт, ставишь на ночь, утром что скачалось - все твое качать кстати можно версии "для печати", они легче.
а какие факторы используются?
При жадном захвате (от первых quote до последних /quote) останется только 111 и 777 (сейчас такой метод использую)
Меж тем как при правильном методе должно остаться 111, 555 и 777.
Правильный метод - это
Glub=0;
While (есть что читать)
{прочитать_микрокусок_входного_текста;
if (попалось [/ quote]) Glub--
else if (попалось [ quote]) Glub++;
if (Glub==0) вывести_содержимое_на_выход
else if (Glub<0) сообщить_об_ошибке;
}