Дэйв Келлог в своей статье «Базы данных остались в
20 веке» указывает нам на разницу между данными и контентом. При этом он
производит интересное сравнение: данные – это богатые люди, имеющие все блага
цивилизации, а контент (неструктурированные данные) – это остальная масса людей.
В частности богатые люди живут в своих домах (таблицах, полях), они у всех на
виду (для их поиска заведены специальные критерии) и т.д. Простые люди живут в
многоквартирных домах или общежитиях (в одном файле или в одной ячейке таблицы),
в лицо их никто не знает (слабые возможности поиска).
Кроме того, автор приводит статистику, согласно которой в
общем объеме неструктурированная информация занимает 80%, а структурированная –
лишь 20%. В связи с этим Дэйв Келлог предлагает пересмотреть подход к
проектированию систем управления контентом, а именно рассматривать данные как
часть контента, а не наоборот. Соответственно и работать надо в основном с
контентом, а не с данными.
Не вдаваясь в тонкости терминологии хочется отметить, что
далее в статье обнаруживается противоречие. Дэйв Келлог указывает на то, что
«пользователи захотят запускать запросы, в которых сочетаются структурированные
и неструктурированные поля». И вот здесь хочется спросить: «А что проще при
поиске – отсеять часть контента по формальным признакам или произвести поиск по
всему контенту, а потом проверять на соответствие результатов структурированным
значениям?». На мой взгляд первый вариант предпочтительнее.
Таким образом, получается что существующие подходы вполне
себя оправдывают. Хранить неструктурированную информацию в специально
отведенных для этого местах в базе данных намного логичнее, чем хранить
структурированную информацию внутри контента. Ведь и богатые люди стараются
жить не в тех же кварталах, где все остальные…