Big data для глазами solution architect
2020-03-06 00:00:00 +0000 UTC
шпаргалка по big data
Big data для глазами solution architect
Что такое Big Data?
-
Amazon - Big data can be described in terms of data management challenges that – due to increasing volume, velocity and variety of data – cannot be solved with traditional databases.
-
Gartner - high-volume, high-velocity and/or high-variety information assets that demand cost-effective, innovative forms of information processing that enable enhanced insight, decision making, and process automation.
Чтобы действительно понимать большие данные, полезно иметь некоторые исторические сведения. Вот определение Gartner, около 2001 года (которое до сих пор остается определением): большие данные - это данные, которые содержат большее разнообразие, поступающее в увеличивающихся объемах и с все более высокой скоростью. Это известно как три V.
Проще говоря, большие данные - это большие, более сложные наборы данных, особенно из новых источников данных. Эти наборы данных настолько обширны, что традиционное программное обеспечение для обработки данных просто не может ими управлять. Но эти огромные объемы данных могут быть использованы для решения бизнес-задач, которые вы не смогли бы решить раньше.
The Three Vs of Big Data
-
Volume The amount of data matters. With big data, you’ll have to process high volumes of low-density, unstructured data. This can be data of unknown value, such as Twitter data feeds, clickstreams on a webpage or a mobile app, or sensor-enabled equipment. For some organizations, this might be tens of terabytes of data. For others, it may be hundreds of petabytes.
-
Velocity Velocity is the fast rate at which data is received and (perhaps) acted on. Normally, the highest velocity of data streams directly into memory versus being written to disk. Some internet-enabled smart products operate in real time or near real time and will require real-time evaluation and action.
-
Variety Variety refers to the many types of data that are available. Traditional data types were structured and fit neatly in a relational database. With the rise of big data, data comes in new unstructured data types. Unstructured and semistructured data types, such as text, audio, and video, require additional preprocessing to derive meaning and support metadata.