Учёные научили компьютер отличать вымысел от фактов.

отметили
26
человек
в архиве
Учёные научили компьютер  отличать вымысел от фактов.
Ученые разработали алгоритм, который позволяет компьютеру отличать новостные сообщения от художественных текстов, а именно рассказов. Статья исследователей пока не принята к публикации в рецензируемый научный журнал, но ее препринт доступен на сайте arXiv.org.

Алгоритм, придуманный авторами этой научной работы, анализирует, сколько раз любое слово из текста встречается вместе с другими словами в рассказах и новостных сообщениях. Полученные данные впоследствии сравнивали.

Оказалось, что для двух данных типов текстов этот показатель заметно отличается. Исследователи проверили созданную ими методику при помощи 400 новостных заметок, случайным образом выбранных с новостного сайта National Public Radio, и 400 случайных рассказов из базы электронной библиотеки проекта "Гутенберг". Чтобы исключить влияние исторических особенностей языка, авторы выбирали для анализа произведения писателей XX века.

Для новостных заметок точность угадывания составила 69,1 процента с погрешностью 1,22 процента, а для рассказов — 73,8 процента с погрешностью 5,15 процента.

Недавно другой коллектив ученых представил еще одну работу, в которой были продемонстрированы возможности использования компьютера для анализа текстов. Исследователи разработали алгоритм, при помощи которого компьютер смог расшифровать один из мертвых языков семитской группы за несколько часов.
Добавил Никандрович Никандрович 22 Июля 2010
Комментарии участников:
Никандрович
0
Никандрович, 22 Июля 2010 , url
источник: img.lenta.ru
Составленная учеными диаграмма частот встречаемости пар слов для новостных текстов и рассказов.
Изображение авторов исследования
X86
0
X86, 22 Июля 2010 , url
Также забыли учесть, что рассказы из библиотеки имеют литературный язык, со сложными выражениями и малоиспользуемыми словами, в отличие от новостного журнализдского официоза.
LevM
+1
LevM, 22 Июля 2010 , url
Наверняка, оба корпуса использовались по отдельности.
fStrange
+6
fStrange, 22 Июля 2010 , url
отличать вымысел от фактов.
отличать новостные сообщения от художественных текстов
мне нравится гармония заголовка и первой строки :)
Max Folder
+3
Max Folder, 22 Июля 2010 , url
По-моему, неверный заголовок, как и в оригинале — Distinguishing Fact from Fiction. Возьмем из газеты новость про убийство Кеннеди, вместо "Кеннеди" везде поставим "Пиночет". Сильно сомневаюсь, что система угадает вымысел.
fStrange
+1
fStrange, 22 Июля 2010 , url
если считать новости вымыслом а художественные произведения фактами, то все становится на свои места :)

а вообще, тут просто неудачное использование слова "факт"
да и "вымысел" тоже неудачно

не всякая новость основана на фактах и не всяко произведение на вымысле
LevM
+1
LevM, 23 Июля 2010 , url
У fiction еще одно значение — "художественная литература". Наверное, это значение тут и имеется в виду.


Войдите или станьте участником, чтобы комментировать