Browse by Tags

Автоматическое индексирование отсканированных документов
26 августа 09 06:01

Сегодня обнаружил интересное явление. Оказывается Гугл научился автоматически индексировать PDF файлы содержащие отсканированные страницы документов. Соответственно эти документы теперь находятся через поиск.

Например, вот такой документ МинЭкономРазвития (ссылка на документ со сканами страниц) можно найти через поиск – например, вот так и щелкнув на ссылку “просмотреть” переходим в Google Docs где ещё одним щелчком на “Обычный формат HTML” документ возвращается в виде текста.

В общем, Google нашли себе ещё один большой срез данных. Осталось лишь дождаться когда поисковик начнет заглядывать в архивы, распознавать текст и объекты на картинках и так далее.

Originally published at Иван Бегтин. You can comment here or there.

Информационная архитектура наоборот и анализ форм
08 апреля 09 02:23

В прошлой заметке я писал про построение объектной карты сайта в практическом применении к поиску новостных страниц на сайтах для распознавания новостей. Разумеется, кроме этого применения есть и множество других, в основном не напрямую коммерческих или самозначных, но вспомогательных для других задач.

Интересно и другое - анализ веб ресурсов очень тесно перекликается с их информационной архитектурой, условной логикой их структуры и принципов наполнения. 

Фактически, практически любой веб сайт, может быть представлен в виде набора разного уровня сложности и вложенности шаблонов страниц, ссылок, принципов взаимодействия с другими сайтами и большого числа мета-информационных метрик характеризующих веб ресурс. 

В конечном итоге эти шаблоны поддаются анализу и последующей визуализации полностью автоматически или с минимальной ручной корректировкой. И здесь очень бы к месту пришлись наработки в области исскуственного интеллекта и просто “умные алгоритмы” действующие по принципу формирования гипотез и апробации их в действии вплоть до нахождения оптимального результата. 

Слабость этой идеи в слабой готовности как технически так и на уровне общего понимания. Если обработка информации предметной, как то космические снимки или анализ генов уже достигло области практического применения, то исследование принципов “создания и жизни информации” как явление, всё ещё изучено очень незначительно.  Фактически направления исследования информации можно разделить на те что ведутся поисковыми системами для повышения релевантности поисковой выдачи, поддержания сателлитных проектов и так далее, а также компаниями специализирующимися на обработке больших массивов данных из публичных источников.  

Анализ веб сайтов восстановление их информационной архитектуры за счёт автоматического анализа их содержимого применимо не только для этой задачи. Оно применимо для множества самых разных областей.

Например,  полгода назад, ища сайты по госзакупкам и объективно оценивая длительность поиска я с помощью небольшого автоматического скрипта искал такие сайты автоматически. Сейчас я знаю что большая часть работы которая шла в Еноте Поискуне по разбору веб страниц может быть доведена до автоматики на 90%. А то есть задача направленного индексирования с последующей структуризацией данных, может решаться без необходимости в разработке отдельных парсеров под каждый сайт, может решаться лишь с самым минимальным участием человека или же вообще без его участия.  

Впрочем направленное индексирование лишь одна из областей применения. Возвращаясь к распознаванию новостей, то у этой области есть простые и комплексные решения от распознавания только текста до деталей и медиаинформации. Единственная более-менее сложная задача в большом числе регулярных выражений.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Работа с данными с нечеткой структурой
01 апреля 09 11:32

Прежде чем продолжить рассуждения, а что же такое данные с нечеткой структурой? Начну с примера.

При преобразовании HTML в RSS, как, например, это происходит в Скиуре, очень часта ситуация когда структура данных меняется. Это может быть из-за того что немного подкрутили верстку или, к примеру, у новости появилась метка которая при обучении на данных сайта не встречалась, но была с самого начала предусмотрена, например, “новое” или ещё что-либо не являющееся сменой CMS или реорганизацией структуры сайта, но затрагивающее HTML структуру ленты новостей.

Сейчас, чтобы обеспечить обработку новостной ленты  в любом случае, лента распознавание структуры Скиур производит каждый раз “на лету” полностью игнорируя любые ранее накопленные данные. Это позволяет обеспечить высокий уровень распознавания, ограниченный лишь числом поддерживаемых форматов дат и времени, но и накладывает ряд ограничений в числе которых:

  • более долгий процесс извлечения структурных блоков;
  • невозможность ручной корректировки шаблона распознавания в виду его отсутствия.

Это пример, ситуации и решения когда источник данных находится вне управления и возможности воздействия системы потребляющей его информацию и необходим ряд мер по приведению его к нормализованному виду за счёт предварительного или динамического распознавания структуры данных и приведение распознанной структуры к хранимых данных.

В случае новостной информации - это довольно просто и даже очень просто, поскольку структура транслируемых новостей давно уже определена в спецификациях RSS/ATOM, и то при распознавании достаточно 10% от специфицированных полей.  Кроме того отслеживание структурных аномалий для частного случая - это однократная и решаемая задача. Поиск решения для новостной информации закодированной в HTML у меня занял пару месяцев - в основном на анализ и систематизацию структуры данных в источниках. 

А вот в случае условно неограниченного числа данных различных по структуре, форме размещения/публикации, способу хранения и так далее, ситуация отличается в корне. Без автоматизации процесса распознавания, без формализации поиска отклонений в структуре данных, без совмещения динамического формирования шаблонов с шаблонами уже накопленными - решить эту задачу невозможно. Фактически полноценное решение требует системы близкой по логике к ETL, но отличной в том что в отличии от ETL источники данных там не фиксированы, структуры данных могут меняться, новые источники могут добавляться даже при неполном описании приходящих из них данных, а все ошибки в обработке яляются не предметом приостановки процесса импорта или игнорирования, а обучения.  При этом, разумеется, необходимы специальные методы распознавания структур данных, решение проблемы производительности использования больших баз регулярных выражений и так далее.  

К вопросу о том зачем всё это нужно? Это нужно, поскольку сейчас процесс организации данных в Linked Data и иных связанных машиночитаемых формах - весьма долгосрочен. В каждом случае - это связано с долгим ожиданием когда владелец/контролёр источника данных решит представлять его в более удобной форме. При том что есть множество энтузиастов которые могут оцифровать тот или иной срез данных - как, например, статистические данные США или России, в машиночитаемую форму - тем не менее систематизация источников данных позволит обеспечить доступность данных на потоковой основе. 

Или, говоря иначе, ненужно ждать пока государство начнёт отдавать данные в RDF или же общедоступные данные станут доступными в виде микроформатов или тех или иных срезов - необходимо создавать механизмы и программные продукты автоматизирующие процесс преобразования данных из Legacy форм в формы пригодные к последующей интеграции. 

Всё это к вопрос о том как лично я вижу data.gov.ru  примерно через пару лет, разумеется, в случае его появления.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Yandex vs. Google vs. MailRu. Личное мнение
12 января 09 09:12
Моё личное мнение на тему сможет ли Google выдавить Яндекс с места лидируещего поисковика в России или нет заключается в том что решение кроется не только в техническое конкуренции, но и целенаправленном лоббировании своих сервисов на государственном Read More...
Ещё о регулярных выражениях и их анализе
11 января 09 06:06
Задача которую я затрагивал в предыдущем посте, конечно, решаема и даже понятно как её решать, вопрос лишь во времени и в оценке достаточности решения для решаемых задач. Например, лично я считаю что рассматривая регулярные выражения с целью их индексирования Read More...
Cсылки на 1.01.2009: Twitter, IR, инструменты, профили в соц. сетях и другое
01 января 09 02:45
Социальные сети, Twitter, Evernote и так далее: TWHirl - удобное настольное ПО для работы с Twitter’ом изготовленный с помощью Adobe AIR. Бесплатный, удобный, англоязычный. У него есть и российский сайт - http://twhirl.ru , но пока его не пробовал. Read More...
Официальный гайд Google по SEO
13 ноября 08 10:49
Гугл опубликовали у себя в блоге 22 страничный PDF документ с рекомендациями по оптимизации сайтов под поисковые системы. Нового там мало, основной акцент на правильной подачи собственного контента. В то же время, что характерно, правила описанные там Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: , ,
Ссылки. Поиск схожих изображений и прочие поиски по изображениям
29 октября 08 11:07
Alipr - Automatic Photo Tagging and Visual Image Search Simplicity - Semantics-sensitive Integrated Matching for Picture LIbraries a-LIP - Automatic Linguistic Indexing of Pictures Tiltomo - поиск изображений по похожести Cydral - поисковик родом из франции Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under:
О поисках по отдельным сайтам и CMS
23 октября 08 12:06
Что меня удивляло и продолжает удивлять так это так это нерасторопность поисковых машин, за исключением Google, в продвижении своих сервисов везде где только возможно. Например, организация поиска по собственному сайту с помощью внешнего поисковика требует Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: , ,
Веб, списки и уникальность страниц
22 октября 08 07:25
Относительно недавно, размышляя над антипаттернами юзабилити , там же я упоминал про такое явление как сдвиге идентификаторов элементов веб списках. Это довольно большая тема сама по себе и я раскрою её подробнее. Вначале озвучу проблему: подавляющее Read More...
Postedfrom Иван Бегтин | 0 Comments    
GCSE, Flexum и другие частные поиски
21 октября 08 10:59
В своё время когда только-только появился Google Coop, признаться, я очень порадовался что такая штука стала доступна. У меня всегда было, да и есть, с десяток разных интересов и всегда был интерес находить нужную информацию максимально удобным и быстрым Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: ,
Поиск по государственным сайтам
21 октября 08 04:05
Признаться отсутствие в сети поисковика по российским гос. сайтам меня всегда удивляло. например, у того же Гугла есть Google U.S. Government Search , а USA.gov предоставляет аналогичный поиск на базе технологий Live Search + VIvisimo. Но для Рунета создание Read More...
Поисковикам по картинкам на заметку
16 октября 08 06:24
Рецепт удержания и привлечения аудитории в самом деле прост. Необходимо вместо обычного ранжирования картинок применять “интеллектуальный подход”, а то есть: 1. Уметь отличать мужские поисковые запросы от женских. 2. Желательно уметь отличать Read More...
Про поисковики и то чем занимаюсь я
16 октября 08 02:40
Поскольку мне периодически задают вопросы отчего же я пишу столько всего про механизмы поиска, классификации и прочих темах которыми занимаются поисковики, но при этом ни в одном из них не работаю, то я лучше отвечу на эти вопросы заранее. Всерьёз темой Read More...
Metadata Analysis and Mining Application
16 октября 08 10:30
Оказывается Opera разрабатывают Metadata Analysis and Mining Application что буквально один в один то чем я занимаюсь (исследую возможности). У них там больший упор на структуру, у меня на её смысловой анализ, построение объектной карты и онтологии связей. Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: ,
More Posts Next page »

This Blog

Tags

Archives

Syndication