Browse by Tags

О прозрачности, локальности, телевидении и приоритетах
04 февраля 12 10:08

Я продолжаю читать и конспектировать мысли по Информационной диете. Мысли там всё более синхронны с моими - буквально читаю и думаю - "О! Да, мне та же мысль в голову приходила".  А мыслей у меня возникает множество.

Темная сторона прозрачности

В книге есть глава в 3 страницы посвящённая прозрачности. Автор в ней довольно убедительно и с примерами в виде отсылки к нескольким исследованиям и кейсам доказывает что прозрачность как идеология не ведёт ни к подотчетности, ни к эффективности, чиновников. Наоборот, публичное декларирование прозрачности и её демонстрация позволяет лишь "выгнать тараканов из светлых частей комнаты в темные".

Он приводит вполне конкретные примеры.

- онлайн веб-камеры в реальном времени в офисах конгрессменов. Конгрессмены начинают утверждать что они "открыты и прозрачны", но это никак не мешает им договариваться с лоббистами не у себя в офисах, а на коктельных вечеринках, а также выступать с законопроектами противоречащими интересам граждан.

- Recovery.gov. Сайт администрации Барака Обамы по мониторингу госрасходов в рамках огромной программы по восстановлению. Всего там отрепорчено о более чем 700 миллиардах долларов, но единственный случай когда нашли нарушение был на 2 миллиона долларов и был не от граждан, а от местных чиновников.

- маркирование еды числом калорий. Власти Нью-Йорка и ещё нескольких городов приняли закон об обязательном указании числа калорий для ресторанов начиная с определенного числа посадочных мест. Несколько групп исследователей провели работу по сопоставлению того как изменилось потребление у жителей охваченных этим регулированием. Выяснилось что, к примеру, у тех кто ходил в заведения быстрого питания вроде МакДональдс и похожих потребление не изменилось. А вот у посетителей Старбакс при сравнении заведения в Нью-Йорке и заведений в городах где нет такого регулирования выявилось снижение потребления числа калорий примерно на 6%. C 247 до 232. Это может показаться малосущественным однако если ещё уточнить то снижение калорий в еде было на 14%, а в напитках его небыло совсем.

Его выводы в том что прозрачность полезна когда она вплетена в гражданские активности, но она не может заменить прямоту и честность (integrity and honesty). А также то что без них она не более чем инструмент в руках более образованных по манипулированию менее образованными.

Далее он не без оснований хвалит проекты Sunlight Foundation такие как OpenCongress по конгрессу и OpenGovernment.org по местным конгрессменам и ряд других.

Локальность vs Глобальность

Другой очень важный вопрос - это то насколько "глобальные вопросы" действительно важны. Он приводит известную фразу Марка Цукерберга что "Белка умирающая у Вас во дворе может в большей степени соответствовать Вашим интересам прямо сейчас чем люди умирающие в Африке". Дословно это было вот так: A Squirrel Dying In Your Front Yard May Be More Relevant To Your Interests Right Now Than People Dying In Africa.

Отсюда же и развивается мысль что решений принимаемые на уровне страны или всего мира хотя и важны, но куда важнее решения принимаемые в том месте где вы живёте. А решения конгрессменов штата и местных чиновников куда больше отражаются на Вашей жизни.

У Джонсона в книге есть универсальный совет - "Потребляй локально". Иначе говоря старайтесь быть больше в курсе того что происходит вокруг Вас, в Вашем районе, квартале, сообществе, территории и меньше уделяйте внимания национальным новостям, национальным телеканалам и проблемах "далеко-далеко" за морями.

Я с этим советом согласен и добавлю что да, мы зависим куда больше от местных событий чем от всеобщих. По этой причине меня лично мало заботят события в Ливии, Иране, США, Европе не затрагивающие мою профессиональную деятельность - "e-Government" и "open government". Все остальные политические и экономические события, вы не поверите, но на личную жизнь не оказывают никакого влияния. Как и значительная часть национальных политических новостей.

Телевидение

Автор часто приводит в пример Fox News и другие телевизионные программы с общей идеей что от телевидения следует держаться подальше. Отказаться от его употребления в какой-либо форме и, только по мере необходимости и желания, смотреть выбранные эпизоды и фильмы по онлайн подписке где можно заплатить до $2 за эпизод.

Для США он приводит разумный аргумент с точки зрения экономии что это дешевле чем платить минимум в $600 за годовую подписку на кабельное телевидение. Для других стран вроде России где телевидение по основным каналом бесплатно - экономия неактуальна. Актуально, конечно, неуправляемость телевизионного сигнала. Нельзя прокрутить изображение, остановить, выбрать то что хочется и так далее. Иначе говоря трансформация информационного потребления оставляет телевидение на обочине. И если, к примеру, радио уже заняло свою узкую нишу прослушивания его в автомобилях и по утрам при пробуждении, то телевидение стремительно теряет популярность с ростом проникновения и качества доступа в Интернет.

Я считаю что так оно и будет, а все государственные программы по развитию цифрового телевидения больше похожи на бессмысленную трату денег. Не по той причине что эти программы неосуществимы, а по той что они будут не востребованы в конечном итоге. Это, конечно, касается не только России, но и всех стран где цифровое телевидение внедряется.

Важно потреблять первичную информацию

Мысль не новая, однако не менее актуальная. Потребление новостей должно быть максимально приближено к их источнику. Чем более вторичны и переработаны новости тем больше вероятность того что информация существенно искажена. А возможно что и полностью неверна. Джонсон советует всегда читать первоисточники и подписываться на новости из первоисточников и читать только их.

Я с ним в этом целиком и полностью согласен и это одна из причин почему мы создавали проект "Официально" - получать необработанные госновости напрямую. Да, там куча всего бесполезного, но при наличии текстовых фильтров есть возможность отсеивать полезные сообщения и быть уверенным в том что они не подвергались переработке и искажению.

Меньше рекламы

В книге это называется "Low-Ad". Речь о том что наша современная информационная культура, практика потребления информации, предполагает её бесплатность, однако за счет большей цены - рекламы. В то время как уменьшение объёмов рекламы крайне важно для разумного информационного потребления. Есть несколько сервисов и практик которые развивают эту идею. Одна из них - это платный доступ к контенту без рекламы, по примеру сервисов National Geographic, другой путь в использование таких сервисов как Readability и Instapaper.

Автор призывает минимизировать количество рекламы в Вашей жизни и использовать платные подписки на качественный  контент.

Я обращу внимание что он ничего не пишет про сервисы баннерорезок вроде AdWord предполагая ответственность потребителя информации и что реклама - это возможность авторам ресурсов её создавать. К тому же Readability является хорошей заменой вырезки баннеров. Идея потребления информации через оплату - сейчас популярна в США, многие онлайн издания реализуют её с целью сохранения качества публикаций. Вполне обоснованно, однако это работает только начиная с определённого уровня информационного самоосознания и наличия свободных средств и, действительно, меняет культуру потребления информации. Я считаю что это всё безусловно актуально и для России и совершенно точно будет развиваться. Хотя и врядли будет столь же прибыльно как в США, в виду нашей информационной периферийности.

Влияние окружения

Также как и с обычными диетами и вообще всем тем что определяет нашу социальную жизнь - мы сильно зависим от окружения. Зависим даже если сами считаем себя самодостаточными, умными, сформировавшимися личностями потому как мы всё равно полагаемся на примеры вокруг нас, даже если не всегда это осознаём. Это касается всего - ориентированности на успех, желания похудеть, чему-либо научиться и так далее.

Это также верно как то что если общаться с алкоголиками, то сложно бросить пить. С потреблением информации всё очень похоже. Если круг Вашего общения составляют люди которые считают что смотреть телевизор, зависать в социальных сетях и проводить часы в играх - это нормально, то и Вам будет непросто прийти к информационной диете. Шансов что Вы не выдержите и начнёте неконтролируемое потребление информации - очень много.

Поэтому важно общаться с теми кто осознаёт и регулирует своё потребление информации. Перенимать лучшие практики и смотреть как они достигают лучшего. В России есть множество ресурсов и сообществ посвящённые темам эффективности, борьбе с откладыванием и лайфхакингу. Я могу порекомендовать Lifehacker.ru, там регулярно встречаются материалы и описания ресурсов близких к теме управления потоками личной информации. А заодно буду рад если Вы мне порекомендуете похожие ресурсы в комментариях.

Мои личные мысли

Как и у каждой хорошей книги ценность этой даже не в том что она исчерпывающе описывает проблему неконтролируемого потребления информации, а в том что она даёт множество отправных точек для размышления. Плюс множество ссылок на ресурсы и книги посвящённые этой проблеме.

У меня в голове стали восстанавливаться многочисленные примеры, как собственного потребления информации, так и реакции на чужое потребление и способность, хотя бы отчасти, вербализировать это понятными словами.

Например, я достаточно давно общаюсь в кругу людей считающих что смотрение телевизора человеком - это вполне достаточная причина чтобы не общаться с данным человеком без необходимости. Если только это не образовательные передачи, отчасти телеканал "Культура" или международные просветительские каналы вроде Discovery. Однако лучше всего - вообще не смотреть ничего. Это можно назвать формирующейся постепенно культурой "инфонаци" по аналогии с "граммарнаци".  Поэтому я совершенно не удивлюсь появлению сообществ в формате "Смотришь телевизор? Тогда ты не с нами!".  Это, разумеется, пока не распространяется на просмотр видео онлайн, поскольку там у того кто смотрит есть возможность контролировать видеопоток проникающий в собственное сознание.

Я лично отказался от телевизора начиная с 2005 года полностью, а ранее его также практически не смотрел года 3-4.

В принципе же информационное потребление - это суть развитие тех культурных особенностей что были и раньше при чтении книг и газет. По тому что человек читал можно было понять к какому социальному и культурному слою он относится, будут ли с ним общие темы для разговора, сможет ли он понять Вас, а Вы его.

Сейчас многие работодатели по той же причине просматривают блоги и профили кандидатов в соц. сетях. Это как первый, самый базовый фильтр адекватности человека.

Я вспоминаю как много лет назад один мой коллега прислал мне ссылку на профиль в соц. сети одной чиновницы с которой мы были вынуждены контактировать и в котором та указала в интересах Дом-2. Тогда это, отчасти дало нам ответ о том отчего общение с ней было столь бессодержательно.

Однако обратите внимание из чего складываются оценки - из информационного потребления.

Как резюме, потребление информации - это огромная тема особенно актуальная сейчас. Осознанное её потребление - это логичный шаг после осознания необходимости поддержания нормального веса, бросания курить, умеренно употреблять алкоголь и прочее.

Это наиболее практическая часть всего что можно назвать информационной психологией и тем самым наиболее востребовано разумными потребителями.

Советы

И несколько советов, часть из книжки, часть моих.

1. Начните учитывать то сколько и какой информации Вы потребляете. Поставьте себе, например, RescueTime (https://www.rescuetime.com/) программу которая мониторит какие программы вы используете и какие сайты вы смотрите на своём компьютере. Она же способна их классифицировать, а через веб-интерфейс отдавать Вам отчеты о том  насколько продуктивно Вы работали. Очень рекомендую, я пользуюсь ей уже год и теперь отчетливо понимаю сколь долгий путь мне ещё предстоит до разумного информационного потребления. У RescueTime есть также отличная функция - "Get Focused". Будучи включённой она на 30 минут блокирует все отвлекающие сайты и программы. Рекомендую, этот текст был написан именно в таком режиме.

2. Заведите на компьютере отдельный аккаунт для игр и развлечений. Назовите его, например, "Play" и только в нём смотрите фильмы и играйте в игры. Во первых это придаст полную осознанность тому когда Вы будете развлекаться на компьютере, во вторых это позволит избавится от самообмана игры на заднем фоне. Когда Вы одновременно редактируете какой-нибудь файл, смотрите кино и ещё во что-то играете, периодически переключаясь между этими процессами.

3. Используйте Readability, есть плагины для всех основных браузеров и такие сервисы как View later и Instapaper. Старайтесь избегать рекламы и чтения текста в некомфортных условиях - неудобного размера и типа шрифтов, множественной мусорной информации и так далее. Создавайте себе комфортное информационное потребление.

4. Устраивайте себе информационные диеты часов по 6-8. Не просто вечер с книжкой на даче, а вообще постараться не потреблять никакой информации. Попробуйте поклеить модели, например, погулять в парке, порисовать, помастерить, поговорить с друзьями, приготовить что-то интересное и так далее. Главное сократить информационные потоки насколько это возможно. Конечно, важно не делать это резко, но важно делать это регулярно.

5. Читайте оригиналы и ищите первичную информацию. Старайтесь не доверять самым ярким и пронзительным эмоциональным статьям, всегда ищите первичную информацию, она зачастую может сильно отличаться от интерпретаций. Старайтесь чтобы между Вами и оригинальной информацией было как можно меньше посредников.

6. Если Вы можете себе это позволить - используйте платный безрекламный доступ к качественному контенту. Чаще всего оно того стоит.

Про сбор данных и мобильные устройства
26 апреля 11 01:50

Думаю что все уже написали по поводу того что iPhone хранит историю передвижения человека. О чем можно почитать, например, тут - http://www.readwriteweb.com/archives/your_iphone_is_tracking_your_every_move.php

А также про то что и Google «делает это» можно почитать в CNet – http://news.cnet.com/8301-31921_3-20056657-281.html

Однако то что я могу сказать обо всем этом – это то что все это, конечно, вызывает опасения и, конечно, неизбежно. Лично меня удивляет лишь то что они собирают данные только о передвижении, а не вообще обо всем и вся ибо вся эта информация, фактически, событийная может иметь прямые возможности использования в моделировании поведения человека/потребителя.

Но это только начало. Совсем недавно в посте про Пермский экономический форум я упоминал что мобильные устройства могут применятся весьма разнопланово, но практически всегда для сбора информации.

Так что же ещё может собираться?

1. Пассивная аудиозапись, автоматически, по внешней команде, по местонахождению и так далее.

Идея простая. Если аппаратные возможности смартфона позволяют выполнять на нем приложения при этом никак не показывая этого визуально – не подсвечивая экран и не показывая на нем ничего, то, к примеру, телефон может осуществлять пассивную аудиозапись, как все время, так и в определенные промежутки времени или в привязке к другим триггерам.

Главная сложность здесь в последующем снятии этой информации. Её передача по сети может быть детектирована, однако, все же, возможна.

Все упирается в полезность этой штуки. Казалось бы, шпионство и только? Но, нет. При наличии технологий распознавания речи, в том числе, сильно зашумленной это может быть подано как сервис авто-секретаря, автоматически регистрирующего  все диалоги, чтобы не была возможность к ним вернуться, при необходимости или вести по ним поиск.

Этот пласт событийности все ещё не окучен, но до него осталось совсем немного.

2. Данные о других мобильных устройствах с Wifi

Как я понимаю если устройство является Wifi роутером, то, оно, конечно, может детектировать другое устройство ищущее Wifi сети. А также, если я не ошибаюсь, то даже если устройство само находится в поиске точек для подключение, в принципе оно продолжает получать запросы при сканировании от других устройств. Иначе говоря, если смартфоны начнут регистрировать не только адреса стационарных Wifi сетей, но и других смартфонов сканирующих окружающее пространство, то эта информация может использоваться, в частности, для определения групп скопления людей (оценки посещаемости той или иной локации) и для определения их предпочтений.

Плюс даже имеющиеся механизмы сбора информации позволяют:

- собирать коммерческую информацию об инфраструктуре сотовых и Wifi операторов

- в будущем, возможно, обеспечивать точное определение месторасположения стационарных точек доступа к Wifi на основе данных о близлежащих точках.

Это все, конечно, не говоря о способах извлечения информации из человека на добровольной основе – подключение датчиков мониторинга медицинских показателей, извлечение биометрических  параметров, датчики погоды, активация режима ‘измененной реальности», сбор информации о посещении веб-сайтов и так далее.

На самом деле, все что для этого нужно – это появление аккумуляторов способных работать дольше и лучше.


Originally published at Иван Бегтин. You can comment here or there.

Итоги лекции в Киеве об открытых данных
23 декабря 10 11:50

Итак, вчера в Киеве завершилась моя лекция по открытым данным. Для меня это не первое выступление по этой теме, но, пожалуй, первое именно в формате лекции.

За её организацию спасибо Полiт.уа, их статью о лекции можно прочитать тут – http://polit.ua/articles/2010/12/23/begtin.html

Было немало вопросов, чувствовалось что в аудитории кто-то имеет опыт работы с информацией, но для большинства это было вновинку. Многие сомневались что на Украине подобная тема и такие проекты возможны, что меня, если честно сильно удивило, казалось бы, и специалистов в ИТ немало, и судя по AidData и другим источникам внешней помощи через НКО тоже немало.

В реальности, пока ещё ситуация хуже чем в России, поскольку пока нехватает энтузиастов желающих заниматься этой темой, да и госорганы раскрывают даже меньше информации чем их российские аналоги.

Однако будем надеятся что и на Украине когда нибудь появится data.gov.ua и громодяне смогут создавать свои проекты для общественного блага.

Originally published at Иван Бегтин. You can comment here or there.

10 ошибок при анализе данных с точки зрения кошачьей статистики
23 декабря 10 06:39

В прекрасном блоге о анализе данных и статистики в частности под названием «Stats with cata» (http://statswithcats.wordpress.com/) или «Статистика с кошками» появился пост под названием «10 фатальных ошибок при анализе данных» – http://statswithcats.wordpress.com/2010/11/07/ten-fatal-flaws-in-data-analysis/

Всячески рекомендую его прочитать.

А сам приведу краткую выжимку:

1. «Где говядина?»   Цифры, выборки и данные без целей, ответов на вопросы или желания «рассказать историю» – бессмысленны.

2. Фантомное население

3. Ненастоящие примеры

4. Достаточно значит достаточно

5. Потворство противоречиям

6. Сумашествие в методах

7. Торренты тестов

8. Значимые незначимости и незначимые значимости

9. Интоксикация экстраполированием

10. Невернонаправленные модели

В общем, рекомендую, и блог, и этот пост.

А ещё я вот о чём подумал. Это же какая гениальная делать блог со своими животными, но не о животных.

У меня тоже возникла гениальная идея – отдаю бесплатно, кто первым успеет её сделать.

Сделать что-то «Электронное правительсто с» и на выбор черепахами/козами/щенками/бобрами/крысами/рыжыми котами.

Например, вариант «Электронное правительство с козлами» и по русски хорошо звучит, а на английском будет «eGov with goats». Осталось только коз найти.

Или вот «Электронное правительство с рыжими котами». Нужен только рыжий кот с каким-нибудь популярным прозвищем на букву Ч, а на остальное фантазии хватит.

Ваши варианты?

Originally published at Иван Бегтин. You can comment here or there.

Про метаданные документов. Без примеров
08 декабря 10 10:45

Последний раз про метаданные в офисных документах я писал более года назад в этой заметке «Извлечение скрытых метаданных из документов MS Office«.

Я какое-то время назад очень активно интересовался этой темой, в последнее время появилось много другого любопытного и метаданные документов отошли на второй план, однако в практических целях иногда знание того что и как искать помогает.

Всех нюансов, конечно, не расскажешь, но кое что в дополнение и повторение к ранее написанному у меня есть. Единственно – примеров не будет. Те примеры что у меня сейчас на руках, могут оказаться не самые приятными для тех кто документы готовил. Так что примеры как-нибудь в другой раз.

Итак метаданные.

Если ранее я писал что есть два типа метаданных – метаданные документа и метаданные связанных объектов, то теперь вынужден признать что, на самом деле, метаданных куда больше.  Вернее даже не метаданных, а информации идентифицирующей автора и окружение.

Фактически я бы разделил эту идентификационную информацию на 4 типа:

метаданные документа – свойства (properties)  документа которые обычно забывают удалить при сохранении и пересылке.

метаданные вложенных объектов – свойства вложенных OLE объектов и изображений.

маркеры – данные в гипертексте документа идентифицирующие его владельца.

скрытые данные - информация в участках документа недоступных для визуального просмотра.

Для каждого из типов идентификационной информации имеются свои ограничения доступности и характера содержимого.

1. Метаданные документа

Это свойства документа которые видны если открыть его «Свойства» в Эксплорере Windows или открыв в соответствующей программе MS Office. Про эти свойства, казалось бы, должны знать все и последние версии MS Office включают возможности удаления этих метаданных. Однако на практике это далеко не так. Часто метаданные забывают почистить и удалить и там можно увидеть «чувствительную информацию» о том кто был на самом деле автором документа,

2. Метаданные вложенных объектов

Об этом я писал в прошлой заметке и повторю сейчас. Вложенные объекты – это так называемые OLE объекты или контейнеры StructuredStorage содержащие другие документы/объекты с которыми умеет работать MS Office. Ещё вернее что объекты с которыми вообще умеет работать MS Windows, но в данном случае чуть упростим.

Если описать это ещё проще, то когда Вы готовите таблицу в Excel, а потом вставляете её в презентацию – это вставка OLE объекта. Точно также если вы делаете диаграмму в Visio и потом вставляете её в презентацию или документ – это вставка OLE объекта, если только вы не преобразовали вначале диаграмму в изображение.

Особенность этих вложенных объектов в том что каждый из них несёт свой собственный набор свойств заданных в той программе в которой данный объект создавался. Если Вы вложили таблицу Excel – значит у документа будут свойства которые указаны в Excel. Если объект Visio, то свойства заданные в Visio.

Коварство этой ситуации в том в что, что если Вы создаёте объект не в родной его программе, а через меню другой офисной программы через «Вставить объект», то у Вас не будет возможности отредактировать свойства документа. А также если Вы работаете над документом вместе с кем-то и этот кто-то вставил объект, то в свойствах этого объекта будут метаданные с компьютера того пользователя и они там останутся.

Вложенные объекты можно извлечь несколькими способами, но большая часть из них весьма техническая и требует знаний того как устроены документы MS Office внутри, поэтому самый практичный способ – сохранить документ в одном из форматов OpenXML и распаковать его любимым ZIP распаковщиком. В результате, OLE объекты будут в папке embeddings. Впрочем  я ранее уже это описывал и заметке на которую я сослался вначале этого поста есть подробное описание процесса.

Однако, вложенными объектами могут быть не только OLE объекты. К этой же категории носителей информации можно отнести изображения. В изображениях может сохранятся информация EXIF (в JPEG файлах) и XMP. Подобное встречается гораздо реже, в основном если кто-то необдуманно вставляет в документы необработанные фотографии. Извлечь изображения можно по тому же рецепту – преобразовать в OpenXML, распаковать и заглянуть в папку media.

3. «Маркёры»

Это очень условное название для той информации которая может присутствовать в тексте документа и позволяет узнать более о его авторе. К подобной информации можно отнести:

обсуждения и комментарии в режим правки. Иногда (в последнее время всё реже) авторы документов забывают про режим правки и публикуют документ со всей историей обсужения, заметками и так далее.

ссылки. В некоторых случаях, сознательно или по ошибке в документах остаются ссылки на локальные документы того же пользователя или документы в его локальной сети. Чаще всего эти ссылки указывают на файлы на Desktop или же в папке «Мои документы«. Главное что такие ссылки позволяют узнать – локальное имя пользователя извлекаемой из пути к данному документу.

4. Скрытые данные

Кроме вполне очевидных данных (маркёров) в тексте есть некое количество данных которые скрыты в блоках бинарных файлов о предназначении которых можно знать или догадываться. Например, в Excel файлах есть специальный блок PLS содержащий информацию о принтерах.  Он содержит точно название модели принтера и его название и, скорее всего некую дополнительную информацию.

В некоторых случаях в скрытых данных присутствуют адреса файлов и пути которые могут быть интерпретированы так же как данные в ссылках, а то есть позволят извлечь информацию о локальном аккаунте пользователя.

А как собственно получить все эти данные?

Инструменты

Существует довольно большое число инструментов по работе с метаданными, но чего-то универсального не нет. Каждый из инструментов имеет свои плюсы и минусы и многие из них (но не все) описаны в статье Document Metadata Extraction в Forensics Wiki -http://www.forensicswiki.org/wiki/Document_Metadata_Extraction здесь много ссылок на инструменты и библиотеки.

Набор инструментов:

MS Office 2007-2010 для преобразования из бинарных форматов MS Office в OpenXML. В данном случае OpenOffice не подойдёт поскольку он не сохраняет OLE объекты

Strings - утилитка из пакета Sysinternals позволяющая извлечь строковые переменные.

OffVis – это такая специальная утилита от Microsoft позволяющая копатся в глубинах офисных документов. При глубоком анализе документов и выковыриванию PLS блоков из файлов Excel – незаменима. Скачать можно здесь http://download.techworld.com/3214034/microsoft-offvis-11/

Metadata Extraction Tool – бесплатная утилитка по извлечению метаданных из офисных документов, PDF, изображений и так далее. заглядывает неглубоко и находит не всё  http://meta-extractor.sourceforge.net/

Catalogue – собирает метаданные из разного типа файлов http://peccatte.karefil.com/software/Catalogue/CatalogueENG.htm

- Metadata Analyzer – извлекает метаданные (только базовые) http://smartpctools.com/metadata/

Document Trace Remover – убирает метаданные http://smartpctools.com/trace_remover/

- Oracle Outside In - инструмент для разработчиков, поддерживает около 500 форматов файлов http://www.oracle.com/us/technologies/embedded/025613.htm

Это, конечно, совсем не предел тем вокруг извлечения информации. Есть также метаданные и способы их выковыривания из документов PDF и OpenOffice, электронных писем и так далее.

Кроме того есть масса нераскрытых возможностей связанных с неполным описанием бинарных проприетарных форматов.

Originally published at Иван Бегтин. You can comment here or there.

Почему Навальный не прав
25 октября 10 02:16

Тут гр-н Навальный вновь пишет про ИТ конкурсы и коррупцию – http://navalny.livejournal.com/517479.html.

Как бы так помягче сказать об этом – ничем хорошим его инициатива не закончится и лично я сильно сомневаюсь в адекватности выбранных им методов и их применению.

И не по той причине что коррупции нет и не по той причине что госзаказ «проходит правильно», а по той что конструктивного в этой деятельности ничего нет.

Потому как:

a. Подавляющее число проблемных закупок связано не с договорённостями между поставщиков и госзаказчиком, а с тем как устроен бюджетный процесс и, в принципе, работа органов власти.

б. ИТ – это одна из наименее коррупционных отраслей при госзакупках. Там вообще есть хоть какая-то конкуренция, в других отраслях ничего такого нет.

в. Российская система закупок _действительно_ одна из наиболее прозрачных в мире за счёт общедоступности большей части документов процедур – конкурсной и аукционной документации и протоколов.

Как итог.  При нетаргетированном гражданском воздействии и отсутствии конкретных предложений, куда больше вероятность что будут приняты изменения в 94-ФЗ ограничивающие доступ к информации о торгах только для поставщиков, чем какие-либо иные институциональные изменения.

Так что желающим участвовать в таких инициативах стоит помнить что результат может оказаться отрицательным.

Originally published at Иван Бегтин. You can comment here or there.

Ещё один блог по открытым данных в формате «журналистов данных»
24 октября 10 06:09

Немецкое издание Zeit Online открыло блог по открытым данным который можно увидеть здесь – http://blog.zeit.de/open-data/

По концепции и по форме подачи материалов этот блог практически идентичен Guardian Datablog http://www.guardian.co.uk/news/datablog. А то есть все темы создаются вокруг общедоступных машиночитаемых государственных и иных социально значимых данных которые анализируются журналистами, а также предоставляются всем желающим.

В первом посте – Die Herren Der Daten (http://blog.zeit.de/open-data/2010/10/21/die-herren-der-daten/) там пишут про открытые данные в Берлине и проект Apps4Berlin(http://www.berlin.de/projektzukunft/wettbewerbe/detailseite/datum/2010/09/13/apps4berlin/) организованный администрацией регионов Берлин и Бранденбург.

Во втором посте рассматривается доступность открытых данных о маршрутах транспорта в Германии и близлежащих странах – http://blog.zeit.de/open-data/2010/10/22/transiki-ein-weltweites-fahrplansystem/

В любом случае, всячески рекомендую этот блог.

Кстати в России ниша «блогов данных» ещё никем не занята. И те СМИ и просто граждане кто захочет выбрать такой формат имеют все шансы возглавить зарождающийся тренд.

Originally published at Иван Бегтин. You can comment here or there.

Техническое: Про NoSQL в ГосСети
11 июня 10 01:49

В сети идёт активное обсуждение нужен ли NoSQL или не нужен рекомендую почитать посты тут – http://zabivator.livejournal.com/412053.html и http://rainman-rocks.livejournal.com/120682.html.

Ещё один технический нюанс ГосСети (www.govweb.ru) в том что в проекте частично использует NoSQL, а точнее – базу MongoDB (www.mongodb.org).

К примеру, как устроен проект ГосСетью.

Есть публичный фронтэнд (www.govweb.ru) в котором публикуется информация о сайтах. Сам проект живёт на Django + MySQL. Это позволяет вести разработку предельно быстро и удобно, но и имеет ряд ограничений, например, в том что в подобной схеме неудобно хранить данные не имеющие четкой структуризации.

Поэтому были самые разные идеи – от использования Semantic MediaWiki, до адаптации или разработки движка аналогичного FreeBase (но это оказалось слишком дорогой задачей).  А Semantic MediaWiki хоть и выглядит соблазнительно, но вплане импорта/экспорта информации с ним нужно немало разбираться.

Однако вернёмся к NoSQL. Кроме, фронтэнда, отдельно от проектов и уже давно существует бэк-офисный непубличный движок и сервис который выдаёт для ГосСети следующие API методы:

  • извлечение данных из веб-страниц и сайтов: изображений, ссылок, объектов, метаданных и так далее
  • извлечение признаков из веб-страниц: определение CMS, технологий, счетчиков и так далее
  • получение, парсинг и классификация данных WHOIS
  • валидацию через W3C Validator
  • извлечение метаданных из веб-страниц
  • поиск RSS лент (для случаев когда RSS ленты не указываются в тэгах LINK)

и ещё несколько полезных инструментов.

Это такой SWISS Knife, но построенный на общем хранилище и на общих принципах. И хранилище это работает на том самом MongoDB. Почему именно так?

Причины в самом деле просты:

1. Удобство хранения

Практически все случаи когда из веб-страниц необходимо извлекать много разнородной информации приводят к тому что есть выбор. Либо сильно упрощать структуры, либо создавать множество таблиц по которым эти структуры распихивать.
Пример, из веб-страницы извлекаются: изображения, скрипты, метаданные, ссылки, формы. Для каждого из этих типов данных есть своё описание структур которые могут существенно отличаться. А в случае, например, форм – у них есть ещё и вложенные структуры в виде элементов форм которые, по хорошему, тоже надо хранить.
В случае если разносить все данные по отдельным таблицам, то, во-первых их наберётся не один десяток, а во вторых строить сложные запросы по таким таблицам означает заранее закладываться на планировщик СУБД.
Это как раз решается на уровне документо-ориентированных баз данных вроде MongoDB и CouchDB.
2. Легкость изменений структур
Второй плюс NoSQL в том что структуры данных легко меняются даже в тех случаях когда данных накоплено уже очень большое количество. Приведу конкретный пример. Прежде чем появился описанный мною выше сервис – где-то с полгода назад у меня работал небольшой краулер робот который собирал данные по Рунету и основным используемым в нём технологиям с сайтов. Всего в базе было и есть около сотни тысяч описаний сайтов.  Это миллионы скриптов, ссылок, метаданных и т.д.  и чтобы понять какие носители признаков пригодны для классификации, а какие нет необходимо многократно анализировать и менять структуры. Так вот делать это с использованием NoSQL гораздо проще.

3. Map/Reduce

Собственно, не упомянутое авторами – это Map/Reduce. Это одна из наиболее интересных, полезных и, в некотором смысле, удобных фишек многих NoSQL движков.

Я могу посоветовать почитать про Map/Reduce в Википедии http://en.wikipedia.org/wiki/MapReduce и добавлю что нужно это далеко не всем, а только тем кто работает со сравнительно большим объёмом данных.

Лично я использую Map/Reduce в MongoDB уже давно, просто-напросто мало времени чтобы писать о технологиях.

4.  SQL != фундамент разработки

Это вообще какое-то распространённое заблуждение что _способ работы с данными_ является неотъемлимой частью процесса разработки. Я могу лишь сказать, что у тех кто так действительно думает, по всей видимости, мало опыта в использовании других технологий. Например, такие движки как Metakit, BerkeleyDB, а также объектные и XML базы данных вполне себе давно существуют и активно используются. Я знаю несколько весьма серьёзных продуктов полностью построенных на BerkeleyDB.

Добавлю лишь что NoSQL совершенно определённо годится не для всех видов систем, продуктов и задач. Но вот то что сама идеология вызывает столь активные обсуждения и в российской блогосфере и в мировой – это плюс, а не минус подхода.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Cnews про ТК22 Ростехрегулирования
21 мая 10 12:29

В Cnews вышла статья про ТК22 – http://www.cnews.ru/news/top/index.shtml?2010/05/21/392272

в том числе и с моими комментариями.

Я кстати, склонен согласится тут с Ольгой Усковой – вероятность что стандарты разработанные в ТК22 будут использоваться в требованиях по госзакупкам совсем ненулевая. В этом случае интерес Майкрософт вполне себе понятен – они могут продвигать там OpenXML и OData, да и другие свои стандарты.

И логика тут вполне понятная, вендоры лоббируют свои стандарты делятся собственным опытом и проводят формализуют свои наработки в которых у их продуктов есть преимущество.

Далее начинается нормативно-правовое закрепление стандартов в виде требований в конкурсной документации.

На федеральном уровне через постановления правительства, но к тому что на федеральном уровне делается внимания гораздо больше поэтому я больше склонен полагать что логичнее будет когда использование стандартов будет закрепляться на уровне субъектов федерации также постановлениями губернаторов/глав администрации.

И, конечно, индивидуально эти стандарты могут упоминаться в конкурсной документации даже без нормативно-правового закрепления.

Originally published at Иван Бегтин. You can comment here or there.

FreeBase Gridworks released
10 мая 10 12:27

Появился исходный код Gridworks – http://code.google.com/p/freebase-gridworks/ , а также всяческие интересные примеры там же, в Wiki проекта. Этой такой инструмент по очистке и преобразованию данных сделанный внутри Metaweb’а, компании разработчика проекта Freebase.

И инструмент уж больно интересный и полезный, особенно учитывая что он теперь и с открытым кодом однако я лично попал на баг с тем что в локализованной винде имена юзеров на русском языке и, похоже что, у Gridworks из-за этого не сохраняется история работы с проектами да  и, в принципе, не работают все операции требующие сохранение на диск так как не находится путь куда сохранять.

Багу я им уже зарегистрировал, но сколько ждать придётся неизвестно.

Originally published at Иван Бегтин. You can comment here or there.

МЭР, справочник по ценам и не-открытые данные
05 мая 10 08:44

Буквально сегодня  Александр Пироженко, руководитель Департамента по развитию конкуренции и анализу конъюнктуры цен у себя в блоге написал про то что вышел доклад по ценам в 2009 году.

Процитирую:

Вчера из типографии доставили свежий и красивый «Доклад по ценам в 2009 году. Стабилизация под воздействием спроса и конкуренции». В количестве 500 экз. Наконец-то мы сделали его! Мне нравится – получилось то, что задумывалось – профессионально, симпатично и доходчиво (надеюсь).

и проиллюстрирую

И всё бы хорошо, и графики красивые, и даже фотография министра есть. Вопрос в другом – а есть ли от этого польза?

Мой комментарий в блоге Александра находится тут: http://alex-pirojenko.livejournal.com/39024.html?thread=268656#t268656

А в этом посте я этот комментарий продублирую:

Александр, во всём мире сейчас идёт движение за раскрытие данных в форме пригодной для повторного использования чтобы любой мог загрузить их в Excel или иной удобный инструмент и самостоятельно проанализировать, сопоставить, отрисовать и так далее. А Вы вместо этого рисуете красивые буклеты с графиками. Да они посимпатичнее чем если их просто отрисовать в Excel’е, но вот только почему меня не покидает уверенность что пользы от этой информации было бы на порядок больше опубликуй Вы её в Excel, XML, CSV или ином пригодном для работы формате.

Я Вам больше скажу – была бы первичная информация доступна, можно было бы хоть конкурс устраивать по аналогии с Design for America и получить графики не худшего качества, а скорее всего из-за _конкуренции_ между инфодизайнерами, то и лучшего качества.

Поэтому впечатления от этой брошуры – кошмарные если не ужасающие.

Честно говоря стыдно, Александр, за Ваше ведомство.

При том что МЭР это далеко не самое закрытое наше ведомство, но есть огромная разница между тем и в какой форме предоставлять информацию – гражданам, экспертам, специалистам. Есть большая разница в публичной машиночитаемой доступности информации и графиками.

Поэтому, несмотря на симпатичные картинки – я считаю что подобный подход, публикации в печатном виде, крайне ограниченным тиражом информации которая могла бы быть общественным благом – это неверные действия.

Если кто-то со мной несогласен, приглашаю прокомментировать у меня в блоге. Если согласны – предлагаю написать комментарием к посту Александра что хорошо бы эти данные раскрыть публично, в Интернете и в формате пригодном для последующего использования. А те кто отрисуют на основе их красивые графики найдутся.

Originally published at Иван Бегтин. You can comment here or there.

Новое на Гослюдях.Ру: Антирейтинг, много RSS и фото/видео лента
30 марта 10 06:51

В Гослюдях много небольших, но заметных обновлений. Целиком приводить не буду, лучше почитать на Полит.Ру тут – http://www.polit.ru/country/2010/03/30/goslyudi.html

Остановлюсь же на главном. Итак что нового:
1. Появились разделы фото www.goslyudi.ru/photos и видеоленты — www.goslyudi.ru/video/ где размещаются последние видео и фотографии из блогов гослюдей. В каждом из разделов есть есть RSS лента для подписки.

2. Появилась страница с перечнем всех RSS лент, экспортируемых из Гослюдей.Ру — www.goslyudi.ru/export/.

3. Появился антирейтинг «лист позора» государственных блоггеров www.goslyudi.ru/shame/. В него входят только «псевдо-блоги», когда гослюди неправильно трактуют само понятие блога и вместо него создают очередной сайт.

Про антирейтинг всё практически наверняка будет понятно из разъяснений на Полит.Ру и на сайте Гослюдей, я же добавлю что в антирейтинге собраны совсем уж вопиющие случаи серьёзного непонимания у государственных служащих что такое блог и с чем его едят.
Это то что называется деятельная критика – критерии которые мы использовали при оценке самоочевидны и если хоть кто-то из попавших в рейтинг их прочитает и изменит свой блог в соответствии
с тем что там написано, то, конечно, мы будем только рады.

И ещё одно дополнение. В антирейтинг включены только те блоги записи которых не попадают в Гослюди.Ру потому как на самом деле блоговости в них одно название.

Вот так.

Originally published at Иван Бегтин. You can comment here or there.

Торрент трекер для датасетов и открытых данных
15 декабря 09 12:28

Игорь Артамонов буквально вот-вот запустил сайт http://www.datasetpublisher.com/ где будут публиковаться torrent’ы открых данных которыми бы хотелось поделиться и которые хотелось бы скачать.

Пока данных там немного, но уверен что будет больше.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Онтология и примеры анализа кодов и идентификаторов
24 ноября 09 11:16

Почти год назад я писал на эту  тему в заметке Систематизация расшифровки кодов и управления справочниками, а сейчас продолжу приостановленные тогда размышления.

Если вкратце, то основной постулат такой – подавляющее число маркирующих кодов и уникальных идентификаторов создаются по ограниченному числу правил и подлежат разложению на ряд признаков позволяющих связывать эти коды с другими информационными массивами и справочниками, а также на их основе извлекать больше информации об исследуемых/анализируемых объектах.

Но, вернёмся к кодам – что это такое и как они есть. Буду приводить примеры:

  • 049205770 – пример кода БИК – банковского идентификационного кода
  • 02.03.1989 – пример записи даты в формате dd.mm.yyyy, где dd – день, mm – месяц, yyyy – год от рождества Христова
  • ru.wikipedia.org – пример кодирования адреса в виде домена
  • 09808117 – пример кода ОКПО,  общероссийского классификатора предприятий и организаций
  • 5460000016 – пример кода ИНН. Идентификационного номера налогоплательщика
  • 65.12, 65.22.5 - примеры кодов ОКВЭД
  • 30401810701200001022 – пример кода корреспондентского счета банка в ЦБ РФ
  • ALMZRU8Y – пример кода S.W.I.F.T используемого банковскими организациями
  • ГОСТ Р 52980-2008 – пример кода в виде документа ГОСТ
  • 454091 – российский почтовый индекс
  • 359 – код по общероссийскому классификатору единиц измерения (ОКЕИ) означающий “сутки”.
  • NO93 8601 1117 947 – международный номер банковского счета, в примере номер счета в банке Норвегии
  • 13001 – код правительства Российской Федерации по справочнику ОКОГУ
  • 1021600000256 – пример общероссийского государственного регистрационного номера, ОГРН, присваеваемого юридическим лицам.
  • ГС-1-50-02-26-0-7709342342-013097-1 – пример номера лицензии на проектирование зданий и сооружений
  • 08050 – код улицы “Зелёный проспект” по общемосковскому классификатору улиц

плюс сюда же можно добавить такие коды как: номера банковских карт, автомобильные коды VIN, телефонные номера, коды ISBN, MAC адреса сетевых карт, IP адреса, коды EAN-8, EAN-13, GS-128, DUNS номера организаций в США и многие и многие другие.

Суть же всегда одна – кодирование информации об объектах, это способ решения следующих задач:

  • сопоставление объекта некой информационной записи о нём содержащей подробную информацию о его характеристиках, особенностях и атрибутах
  • предоставление людям и программным средствам информацию об атрибутах данного объекта.

При этом я пока затрагиваю только вопросы кодирования информации в текста, но есть и другие способы в виде баркодов, знаков, аудиосигналов.

Анализ примеров

Код ИНН 5460000016

Структурно код ИНН состоит из:

- 4 цифры – код налоговой инспекции по справочнику СОУН: 5460 (Межрайонная инспекция по крупнейшим налогоплательщикам Новосибирской области)

- 5 цифр – порядковый номер регистрации организации в инспекции: 00001

- 1 цифра проверочный код: 6 (код верен)

Что ещё мы знаем об этом коде? Далее по наблюдениям:

1. Коды инспекций в справочнике СОУН состоят из 4-х цифр, две первых из которых – это код региона инспекции или же код 99 для крупнейших налогоплательщиков. Но, при указании кодов, код 99 используется для другого налогового кода КПП – поэтому для ИНН мы можем говорить о 100% привязке кода СОУН к определённому региону что закодировано в первых двух его цифрах. Отсюда код ИНН позволяет всегда определить регион местонахождения организации

2. Код ИНН всегда состоит из 10 символов цифр для юридических лиц и 12 символов цифр для физ. лиц. Что означает что код обладает фиксированной длиной.

3. Присвоение порядкового номера производится инкрементально, отсюда зная даты присвоения нескольких номеров можно с высокой вероятностью предсказывать дату его присвоения. Фактически инспекция – это генератор последовательно прирастающих значений и то же правило работает и со всеми остальными кодами в которых можно отделить прирастающую часть от идентификационной.

4. Все части кода ИНН обладают фиксированной длиной, отсутствуют случаи когда они могут перекрываться.

5. Код не содержит иерархии, а только ссылки на другие справочники.

6. Код является совершенным, а то есть - в нём отсутствуют неидентифицированные части и раскрываемым, а то есть все части кода являющиеся ссылками на внешние справочники (регионы и справочник СОУН) существуют и доступны.

7. Код является идентификатором в реестре юридических лиц ЕГРЮЛ где и содержится более подробная информация об идентифицируемом им объекте – организации.

Итого: код ИНН содержит минимальную базовую информацию и является ссылкой на запись о более подробной информации об организации одновременно.

Другой пример код S.W.I.F.T: ALMZRU8Y

Код S.W.I.F.T состоит из следующих частей:

– 4 символа – уникальный код организации: ALMZ (АлмазЭргиЭнБанк)

– 2 символа – код страны по ISO 3166-1 alpha-2: RU (Россия)

- 2 символа – код местонахождения организации: 8Y (г. Якутск)

При наличии филиалов код SWIFT может включать дополнительные 3 символа идентифицирующие его филиал. Например, UBSWUS33CHI, где CHI это признак филиала в городе Чикаго.

Что можно сказать об этом коде?:

1. Код можно рассматривать как один код с переменной длиной в 8 и 11 символов, так и как два кода – полный в 11 символов и короткий в 8 символов.

2. Код является совершенным, но не раскрываемым. Несмотря на то что все части кода предопределены, не все справочники известны. В частности справочники кодов местонахождения свои для каждой страны и неизвестны в открытом доступе, равно как и справочники идентификации филиалов

3. Поскольку коды местонахождения уникальны только в пределах страны, а то есть кода страны, то для сведения местонахождений в единый справочник правильная полная запись кода местонахождения должна включать оба этих кода. В нашем случае это RU8Y, одновременно с этим, учитывая что глобального всемирного справочника регионов, городов и муниципальных образований не существует и их заменяют региональные государственные справочники, можно говорить о множественности справочников и определения типа ссылки на основании кода страны.

4. Код не содержит кода проверки и допускает опечатки и неточности.

5. Код является ссылкой на идентификатор в базе международной организации SWIFT где содержится более подробная информации об участнике этой системы.

6. Код не содержит признаков иерархии объектов.

Итого: код содержит минимальную базовую информацию и является ссылкой на идентификатор в базе.

Рассмотрим далее, код почтового индекса – 454091

- 6 цифр – это идентификатор почтового отделения в базе почтовой службы.

Что можно о нём сказать:

1. Код является несовершенным, поскольку для понимания принципов его кодирования требуется детальный анализ имеющихся

2. Информация по данному коду может быть получена из общедоступных справочников публикуемых Почтой России.

3. Код не содержит признаков иерархии объектов.

4. Код и его отдельные части обладают фиксированной длиной.

Код ОКЕИ – 359

- 3 цифры – уникальный идентификатор единицы измерений по справочнику ОКЕИ, в нашем случае этот код означает единицу измерений “сутки”

Что можно сказать о коде:

1. Код и его части обладают фиксированной длиной

2. Код является совершенным – он состоит из лишь одной части которая является лишь идентификатором.

3. Код не содержит каких-либо дополнительных признаков и ссылок, являсь лишь ссылкой на запись в реестре справочника.

Итого: это пример предельно простого кода не содержащего информации и лишь являющегося ссылкой.

Подробнее о коде ОКЕИ можно почитать и их посмотреть тут http://www.mosclassific.ru/mClass/okei_view.php

Код ОКВЭД – 65.22.1 (предоставление потребительского кредита)

Структура кода ОКВЭД: XX.XX.XX при этом код обладает нефиксированной длиной и может быть записан в формах: XX.X, XX.XX, XX.XX.X и XX.XX.XX

Что можно сказать о кодах ОКВЭД:

1. Справочник ОКВЭД является иерархическим и это вложено в его коды. Первые две цифры определяют группу, следующие остальные иерархии подгрупп.

2. Длина кода ОКВЭД колеблется от 4 до 8 символов разбитых на группы по 2 символа цифры разделённых точками.

3. Коды ОКВЭД являются совершенными и раскрываемыми, но не содержат информации о ссылках на внешние данные. Вместо этого они ссылаются на вышестоящие коды в иерархии.

4. По коду ОКВЭД можно получить дополнительную информацию из общедоступного справочника кодов которая включает его название и категорию.

Итого: код ОКВЭД – это пример кода классификатора, когда основной дополнительной информацией которая извлекается это расшифровка его названия. В то же время, сам код не содержит прямых ссылок на другие справочники и объекты

Код IBAN и пример в виде:  NO93 8601 1117 947

Структура кода IBAN является нефиксированной и зависит от первых двух символов после его идентификатора. Например, для NO длина кода составляет 15 символов и обладает следующей структурой:

- 2 символа – идентификатор страны

- 2 символа – два знака контрольного числа

- 4 символа – код банка

- 6 символов – код счета

- 1 символ – дополнительное контрольное число

При этом, для других стран длина и структура кода будет отличаться. Подробнее о IBAN можно почитать тут  http://en.wikipedia.org/wiki/International_Bank_Account_Number

В итоге что можно сказать о коде:

1. Код является совершенным, но не полностью раскрываемым поскольку коды банков в кодах IBAN ведутся центробанками отдельных стран в виде отдельных справочников не все из которых доступны.

2. Код является нечётким – это означает что его длина и/или структура зависит от содержимого и требует дополнительных правил интерпретации и/или ведения справочника структурных схем

3. Код обладает множественными ссылками – на справочник стран, на справочники банков в странах, на справочники типов счетов для некоторых стран и так далее.

4. Учитывая нечёткость кода и наличие множественных ссылок на зависящих от содержимого – можно разделять коды IBAN для стран как независимые справочки наследующие общие подходы от некого мета-класса.

Примечание: в принципе, IBAN – это пример одного из наиболее неприятных видов кодов, поскольку детализация и интерпретация зависят от его содержимого и требуются дополнительные усилия на описания структуры кодов в едином формате.

Рассмотрим код даты в виде записи 02.03.1989

Об этом коде немного свободным текстом без тезисов.

Почему вообще дата и почему в таком формате? Этот формат даты  dd.mm.yyyy, является не более чем примеров, разумеется этих форматов множество. Факт же в том что записывая дату мы тем самым кодируем данные о временном отрезке длительностью в 24 часа в виде текста. Формат позволяет определить из описания: день, месяц и год. Все три числа – это ссылки на справочники: дней в месяце, месяцев в году и годов. Одновременно с этим значения дня и месяца вместе являются проверочными для определения корректности написания из-за разницы числа дней в месяце, а комбинация дня, месяца и года – проверочной комбинацией для високосных годов.

Это кодирование даты, по сути, является не кодом, а форматом – главное отличие которого от кода в множественности форм представления эталонной информации. Например, также дату можно представить в видах: 02 марта 1989, 62.1989 (день от начала года плюс год), 1989-03-02 и так далее, всего форматов десятки. Одной из особенностью и отличием форматов от кодов является возможность приведения к эталонному значению которое может быть приведено к одному из форматов и заведомо содержит все те признаки что и любой из его форматов.

Итоги и выводы

Остальные коды я не буду расшифровывать сейчас, там схожие принципы и подходы, сейчас же о сведении всего вышенаписанного воедино:

1. Коды можно делить на совершенные и несовершенные – по наличию неидентифицированных частей

2. Коды могут быть раскрываемым и нераскрываемыми – в зависимости от доступности справочников на которые ссылаются отдельные его части и сам код.

3. Коды бывают четкими и нечёткими – по зависимости их структуры и длины от отдельных признаков в коде.

4. Коды могут содержать перекрывающие друг друга части или части накладывающиеся друг на друга. Например, идентификация местонахождения банков в кодах SWIFT является уникальной с кодом страны.

5. Форматы простых данных – дат и чисел в некоторых случаях могут рассматриваться как коды.

В итоге можно говорить об онтологии кодирования – наборе базовых правил и их формальном описании для интерпретации и сопоставления информации скрытой в кодах.

Зачем это нужно?

Собственно, а зачем всё это нужно помимо простого любопытства?

Причин несколько:

1. Понимание и расшифровка кодов нужны при обогащении баз данных. Довольно часто возникает ситуация когда те или иные коды – о продуктах, об организациях или о документах были накоплены и одновременно необходимо к данным добавить дополнительные срезы для их анализа – в этом случае эта информация извлекается как из кодов, так и из внешних справочников и реестров на которые эти коды ссылаются.

2. Применение в различных алгоритмах извлечения информации – для её обогащения и классификации. Я лично делал уже несколько подобных алгоритмов которые на основе минимума доступной, но нужной информации собирали набор классификационных признаков.

3. Конкурентная разведка, следственные мероприятия и так далее. Например, проверка организаций по регистрационным кодам, проверка автомобилей по кодам VIN, определение банка по первым 4-5 цифрам банковской карты и так далее.

Лично я уже довольно долгое время такие коды собираю и пишу о них, как вот в этой заметке так и постах ранее которые идут под категорией расшифровка реальности

Ну а если Вы знаете какие-либо расшифровки интересных видов кодов или же наоборот ищете как расшифровать какие-либо Вам неизвестные  - отмечайтесь в комментариях.


Originally published at Иван Бегтин. You can comment here or there.

Мнение про Wolfram Alpha и Semantic Web
17 ноября 09 10:01

Недавно обнаружил в блоге у Mencius Moldbug довольно интересное мнение про Wolfram Alpha. Жаль не прочитал его ранее, там есть целый ряд интересных мыслей.

Но, пожалуй, одна из самых интересных в предсказуемости результатов в WA. Фактически он назsвает Wolfram Alpha – “control interface” и сравнивает с Google который таким не является поскольку результат выдачи Google не предопределён.

Это как со школьным и многим другим навязанным образованием – отсутствует в WA разнообразие мнений, несколько точек зрения и, фактически, Wolfram Alpha сейчас это такой особо умный словарь / энциклопедия где вся разница с классическими энциклопедиями в том что в WA гораздо больше источников информации.

Вообще я соглашусь что в текущей форме Wolfram Alpha хоть и любопытный проект, но большой пользы для среднего пользователя я не вижу. А вот создание связанной базы данных как развитие проекта Freebase , по моему, обладает очень мощным потенциалом ибо там решаются вопросы связанности данных, а не подбора однозначных ответов.

Кстати, ещё одно интересное наблюдение на сайте Wolfram Alpha нет упоминаний про Semantic Web, онтологии и так далее, хотя, на самом деле, там данные из Semantic Web и Linked Data используются и внутри есть онтология.

Причина проста, RDF, SPARQL, OWL, Semantic Web и прочая – это всё довольно сложные технологии для даже для подготовленного пользователя. Так порог вхождения для изучения SQL и SPARQL довольно существенен и многие проекты используют свои, сильно упрощённые языки запросов чтобы минимизировать заведомую сложность.

Но причина не только в этом. Для построения подавляющего большинства частных коммерческих задач использование RDF или Triple Store – это оверкилл и более простые и дешёвые решения подходят лучше. Иначе говоря для проектов на базе Sematic Web до сих пор нет рынка и тем более его нет в России и большой вопрос будет ли.

С другой стороны в странах где культура работа с информации весьма высока там медленно, но верно развивается идеологиях Linked Data и само понимание доступности и связанности информации.

P.S. Постоянно сталкиваюсь с тем что когда путают “семантические технологии” и “семантический веб”. Первое – это, по сути, мат. лингвистика и анализ текстов, к RDF и онтологиям имеет слабое отношение.

Originally published at Иван Бегтин. You can comment here or there.

More Posts Next page »

This Blog

Tags

Archives

Syndication