Bookstat is comming



Будни  энтузиаста в области Natural Language Processing. Личный проект Bookstat. В процессе анализа 300 тыс. русскоязычных книг. Примерно 250 Гб литературного и научного текста, предположительно 700 млн предложений. Около 30% от доступных книг в Литрес.
Ближайшие цели:

  • 1) создание гигантского словаря литературных словосочетаний. Предположительно будет около 3 млрд уникальных словосочетаний.

  • 2) полнотекстовый поиск по книгам с фильтрацией по множеству уникальных параметров (в большей степени по тематическим)

  • 3) извлечение именованных сущностей, фактов, цитат, утверждений.

  • 4) классификация текста по 3000+ тематическим категориям на уровне предложений

  • 5) анализ и сравнение книг по множеству лингвистических параметров

  • 6) рекомендательная система для любитей книг

  • И еще 100500+ различных недокументированных возможностей, которые выявятся в процессе. The truth is out there.

Релиз первой беты Bookstat в первом квартале 2020.
В романтических мечтах: Гугл в 2010 подсчитал, что в мире около 130 млн книг. В общем 100 Тб видимо объем. Всего то 7 дисков по 15 ТБ )
Ну а пока, наверное, добавим для фана +10 млн публикаций из русских СМИ.

Обсуждения и новости
https://web.telegram.org/#/im?p=@devnlp
https://web.telegram.org/#/im?p=@devnlpru

Ну и да, киберпанк только начинается)

Поп-музыка от искусственного интеллекта: done.

Оригинал взят у ailev в Поп-музыка от искусственного интеллекта: done.
Поп-песни, полностью сочинённые компьютером, уже с нами: http://www.flow-machines.com/ai-makes-pop-music/.

Daddy's Car, в стиле Beatles (https://youtu.be/LSHZ_b05W7o):

Хотя аранжировка и текст были выполнены французским композитором Benoît Carré, сама мелодия и гармония -- вполне себе продукт искусственного интеллекта, включая перенос стиля Beatles (в музыке это примерно так же можно делать, как с картинами).

В 2017 SONY CSL Research запланировала выход AI поп-альбома, туда войдёт и эта песня. Я писал о SONY CSL Research неоднократно -- вот, например, я набрёл на их Continuator аж в 2004 году -- http://ailev.livejournal.com/249589.html, в 2007 их Continuator-III прошёл тест Тьюринга -- http://ailev.livejournal.com/494037.html, в 2009 хвалил их за работу с грамматиками/паттернированием в computational creativity http://ailev.livejournal.com/902173.html, а совсем недавно в 2014 я восхищался в "Гаджеты и губозакатывательная машинка, стили и писанина" http://ailev.livejournal.com/1100961.html проектом flow machines, который и выдал в конечном итоге "песенку под битлов".

Это всё цветочки, ягодки будут когда падёт граница между символическим и коннективистским, эволюционным и байесовским, вот тогда взойдут сто цветов и от них пойдут такие терпкие ягодки, что никому мало не покажется. Повторю ссылку на одну из первых трещинок в глухой стене между символическим и нейронным представлениями из вчерашнего своего поста: смесь символического и визуального представлений в http://arxiv.org/abs/1609.05518. Понятно, что the resulting system -- though just a prototype -- learns effectively, and, by acquiring a set of symbolic rules that are easily comprehensible to humans, dramatically outperforms a conventional, fully neural DRL system on a stochastic variant of the game.

К грамматикам творчества это всё ещё вернётся, причём не с той стороны, откуда ждали их появления -- вернётся из коннективизма, из "образного компьютерного мышления", "компьютерной интуиции", "железной чуйки".

Слоган "всё будет быстро" уже устарел. Правильный слоган теперь -- "всё быстро". Слово "будет" стало неактуально. Всё уже.

Принцип информационной эволюции общества

Принцип информационной эволюции общества
by miteigi nemoto



Термин Internet of Me означает всеобщую персонализацию. Заметили, как границы размываются между цифровым и реальным миром? Все больше и больше к сети подключаются самых разных устройств и объектов, будь то автомобиль, камера, холодильник, квартира или одежда. Сегодня таковых объектов подключено около 5 млрд, а к 2020 году по разным оценкам прогнозируют уже от 20 до 50 млрд. Больше, чем людей.

Каждый индивидуум становится центром, вокруг которого “вращаются” персональные предметы, объединенные в Сеть. Чуть ли не каждый квадратный метр города и наших квартир возможно будет “подключен” к Сети. Различные устройства и датчики будут размещены повсюду и связаны с потребителем и производителем, чтобы обеспечить невероятно удобный, приятный, персонализированный жизненный опыт, удовлетворяя и учитывая самые тонкие особенности личности человека. Разве это не мир мечты, где все больше товаров и услуг создается для конкретного индивидуума? А как же свобода выбора? Но мы не об этом.

Как на счет интеллектуального цифрового ассистента, назначаемого с момента рождения человека и призванного раскрыть весь потенциал из имеющейся у индивида комбинации ДНК в течение жизни? Ассистент, знающий каждую особенность строения организма, историю его изменения, развития, болезни, лечения, слабые и сильные стороны. Съешь сегодня салат из морских водорослей, наблюдается недостаток йода. Вот тебе статья с недостающими фактами для твоего исследования. Позвони Билли, он получил кое-какую важную для тебя информацию. Вот тебе книжка, ее читало всего 10 человек, но именно в ней есть важные для тебя чувства. Вот тебе новая музыкальная композиция, у нее 5 прослушиваний, подходящая твоему настроению. Чуть медленнее темп, больше минора, добавить глубокий тянущийся бас, добавить шум моря без крика чаек, тибетский гонг раз в минуту?

Наблюдая за развитием информационного общества, тот невероятный темп проникновения цифровых технологий и сетей, скорость изменения образа жизни и мыслей людей, можно прийти к одной объединяющей идеи, почему это происходит, а именно к принципу биологического разнообразия.

Под биоразнообразием понимают разнообразие на трёх уровнях организации: генетическое разнообразие, видовое разнообразие, разнообразие самих экосистем. Величина биоразнообразия признана в биологии одним из главных показателей жизнеспособности вида и экосистемы в целом.

Можно предложить, что в разумных и технологически развитых биосистемах есть еще один жизненно важный уровень, где необходимо разнообразие: информационный уровень (а теперь и цифровой). Эволюция, в лице интеллекта требует информационного разнообразия и изобилия совершенно иного порядка, как залог успешного выживания и развития, как индивида, так цивилизации в целом. В глобальных масштабах и в масштабах одной страны можно наблюдать формирование разнообразия из информационных технологий, продуктов, услуг и полноценных цифровых экосистем. Не спроста, браки с роботами станут обычным явлением через пару десятков лет. “Двухсотлетний человек” Азимова хорошая иллюстрация этому тренду. Так хочет эволюция.

Сформулирую некую суть, единую движущую силу, принцип информационной эволюции общества, развития Интернет:
1) Нужная информация
2) В удобной форме
3) Требуемой полноты
4) В желаемом месте
5) Доступна здесь и сейчас
6) Экономически оправдано
7) Безопасно

Прыжок из стратосферы

Баумгартнер совершил прыжок из стратосферы 14 октября 2012 года. Парашютист провел в свободном падении около 10 минут, максимальная скорость его падения составляла 1357,6 километра в час. Баумгартнер установил рекорд по высоте прыжка, расстоянию, которое он преодолел в свободном падении (более 36 километров), а также стал первым человеком, которому удалось преодолеть звуковой барьер без какого-либо транспортного средства.

Вселенная любит вычислять

предоставлено Российским квантовым центром

Вселенная любит вычислять

Как только Вселенная возникла, она тут же начала вычислять. Сначала были относительно простые объекты: элементарные частицы и фундаментальные законы физики. Со временем, обрабатывая все больше и больше информации, Вселенная создавала штуки посложнее: галактики, звезды и планеты. Ну а дальше — жизнь, язык, люди, общество, культура, интервью для журнала. Это все благодаря тому, что вещество и энергия обладают естественной способностью вычислять. Далее >>

Сегодня SKAZKA by Alexander Shulgin в 21:00

4 сентября 2013 года в Московском Планетарии в 21:00 состоится праздничный концерт – премьера нового двойного альбома Александра Шульгина «Диптих «Сказка».

SKAZKA - это 14 оригинальных пьес, написанных для арф - SKAZKA for girls, и еще 14 пьес, созданных для фортепиано - SKAZKA for boys, объединенных в диптих. В звуковую палитру композиций вплетены как классические музыкальные инструменты: арфы, виолончели, флейты, фортепиано, так и инструменты, присущие рок-музыке. Все это украшает вокализ великолепного сопрано (вокал без слов).

Альбом записывался в лучших студиях Лондона при участии звезд мировой величины: арфистки Luisa-Maria Cordell, виолончелиста Julian Lloyd Webber, пианиста Gary Husband, гитариста Steve Hackett (участника группы Genesis) и многих других.



Это единственная возможность увидеть и услышать этих титулованных музыкантов вместе одним составом на такой уникальной площадке!
Концерт пройдет при живом исполнении мировых звезд с элементами объемного панорамного звучания 5.1

«С музыкальной точки зрения, "SKAZKA" представляет собой уникальное соединение русской мелодики с традицией баллад народов северной Европы, сочетание русского лиризма с английской классической школой и джазовыми инновациями, - говорит автор альбома, композитор Александр Шульгин. - Концерт уникален тем, что впервые в Москве живой звук будет совмещаться с многоканальным звуком высокого качества и полнокупольным видео 360 градусов. «SKAZKA» - это захватывающее действо, показывающее, в каком направлении будет развиваться современная культура в ее аудиовизуальной части».

Поддержать проект, купить билеты и диск можно на краудфандинге http://start.planeta.ru/campaigns/1879
или заказать билет здесь http://tickets.planetarium-moscow.ru/

В мозге действует сразу несколько рассинхронизированных часов

«Я сказал дочери, что в её телевизоре звук не совпадает с изображением. Потом я пошёл на кухню, и там было то же самое. Вдруг я заметил, что её голос тоже не совпадает. Телевизоры не виноваты, дело было во мне».

<...> одно и то же событие во внешнем мире воспринимается различными частями мозга как происходящее в разное время. Из этого следует, что одного «сейчас», единого для всего аппарата восприятия, не существует. В мозге действует сразу несколько рассинхронизированных часов. То, что для нас «сейчас», — просто их среднее время.

http://compulenta.computerra.ru/chelovek/neirobiologiya/10007761/