- btv
- Bài viết
Các thuật ngữ như dữ liệu có cấu trúc, bán cấu trúc hoặc phi cấu trúc thường được nhắc đến khi các cuộc trò chuyện chuyển qua phân tích hoặc nhập dữ liệu vào các mô hình dữ liệu lớn. Trong kỷ nguyên tăng trưởng chóng mặt của cả dữ liệu bán cấu trúc và phi cấu trúc, đây là những loại dữ liệu quan trọng cần hiểu và các công cụ để quản lý cũng như phân tích những loại dữ liệu này đang trở nên phổ biến. Đây là những gì bạn cần biết.
1. Dữ liệu có cấu trúc
Đây là kiểu dữ liệu dễ tìm và sắp xếp nhất vì nó thường được chứa trong các cột và hàng, đồng thời các phần tử của chúng có thể được liên kết bằng cách sử dụng các trường được xác định trước. Hãy nghĩ về dữ liệu bạn có thể lưu trữ trong tệp excel, chúng ta sẽ sớm xem các ví dụ về dữ liệu có cấu trúc. Dữ liệu có cấu trúc có thể tuân theo mô hình dữ liệu được tạo bởi một nhà thiết kế cơ sở dữ liệu (csdl) — ví dụ: thống kê doanh số bán hàng theo khu vực, theo loại mặt hàng hoặc theo khách hàng. Đối với dữ liệu có cấu trúc, các mục có thể được nhóm lại để tạo mối quan hệ với nhau (ví dụ: “khách hàng” có cùng phản hồi “hài lòng” đối với một dịch vụ). Những điều này sẽ làm cho dữ liệu có cấu trúc dễ lưu trữ, phân tích và tìm kiếm hơn, đồng thời trở thành loại dữ liệu dễ truy cập nhất cho các doanh nghiệp sử dụng hiện nay. Ngày nay, hầu hết các loại dữ liệu được gọi là có cấu trúc chiếm chưa đến 20% tổng số dữ liệu được thu thập.
Thông thường, dữ liệu có cấu trúc được quản lý bằng Ngôn ngữ truy vấn có cấu trúc (sql), một ngôn ngữ lập trình do ibm phát triển vào những năm 1970 dành cho cơ sở dữ liệu quan hệ.
Dữ liệu có cấu trúc do máy móc và con người tạo ra. Ví dụ về dữ liệu có cấu trúc bao gồm dữ liệu tài chính như giao dịch, chi tiết địa chỉ, thông tin nhân khẩu học, đánh giá của người dùng, ghi chú máy, dữ liệu vị trí từ thiết bị. Thông minh,…
2. Dữ liệu phi cấu trúc
Phần lớn dữ liệu trên thế giới này là dữ liệu phi cấu trúc. Loại dữ liệu này không thể được chứa trong cơ sở dữ liệu hàng và cột và nó không có mô hình dữ liệu liên quan. Ví dụ một đoạn văn bản trong email. Sự thiếu cấu trúc này làm cho dữ liệu phi cấu trúc khó tìm, quản lý và phân tích, đó là lý do tại sao các doanh nghiệp bỏ qua nó; chỉ gần đây, sự ra đời của trí tuệ nhân tạo và các thuật toán học máy đã làm cho quá trình này dễ dàng hơn một chút.
Các ví dụ khác về dữ liệu phi cấu trúc bao gồm hình ảnh, tệp phim và âm thanh, tệp chứa chữ cái, nội dung từ mạng xã hội, hình ảnh từ vệ tinh, bản trình bày, tệp pdf, phản hồi từ khảo sát mở, trang web và khách hàng Hỗ trợ ghi âm điện thoại.
Dữ liệu phi cấu trúc thường được lưu trữ trong kho dữ liệu, cơ sở dữ liệu nosql, ứng dụng và các kho dữ liệu khác thay vì sử dụng excel hoặc cơ sở dữ liệu quan hệ. Trong thời đại ngày nay, có thể khai thác và tự động xử lý thông tin trong các khối dữ liệu phi cấu trúc thông qua các thuật toán và trí tuệ nhân tạo. Công nghệ này đã nâng cấp dữ liệu phi cấu trúc thành một nguồn tài nguyên vô cùng quý giá cho các tổ chức.
3. Dữ liệu bán cấu trúc
Bên cạnh dữ liệu có cấu trúc và phi cấu trúc, còn có một loại dữ liệu khác về cơ bản dựa trên sự kết hợp của cả hai. Kiểu dữ liệu này có một số tính đồng nhất dễ nhận biết, nhưng không tạo thành cấu trúc rõ ràng và nhất quán của cơ sở dữ liệu quan hệ. Vì vậy, để tạo điều kiện thuận lợi cho việc sắp xếp, nó được gán một số thuộc tính tổ chức, chẳng hạn như thẻ ngữ nghĩa hoặc siêu dữ liệu, nhưng vẫn sẽ có những khoảng trống trong quá trình phân loại. này-này.
Email là một ví dụ điển hình. Nội dung thực tế của một email không có cấu trúc, nhưng nó mang dữ liệu có cấu trúc như tên người gửi và người nhận, địa chỉ, thời gian gửi, v.v. Một ví dụ khác là ảnh kỹ thuật số. Bản thân hình ảnh không có cấu trúc, nhưng nếu ảnh được chụp từ điện thoại di động, ảnh sẽ được đóng dấu ngày giờ, gắn thẻ địa lý và thậm chí có thể là id thiết bị. Ảnh cũng có thể được gắn thẻ là “chó” hoặc “mèo” khi được lưu trữ.
Nhiều thứ khác mà mọi người thường phân loại là dữ liệu phi cấu trúc thực ra là dữ liệu bán cấu trúc vì nó có các thuộc tính phân loại.
4. Sự khác biệt giữa dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc
Để dễ dàng hiểu được sự khác biệt giữa các loại dữ liệu, hãy thử phép loại suy này. Khi bạn đi phỏng vấn xin việc, hãy tưởng tượng chúng ta có 3 kiểu phỏng vấn khác nhau: có cấu trúc, bán cấu trúc và không cấu trúc.
Đối với kiểu phỏng vấn có cấu trúc, người phỏng vấn sẽ làm theo một kịch bản do bộ phận nhân sự viết ra và áp dụng cho tất cả các ứng viên. Đối với các cuộc phỏng vấn phi cấu trúc, người phỏng vấn sẽ quyết định các câu hỏi là gì và thứ tự hỏi từng ứng viên. Phỏng vấn bán cấu trúc sẽ rút ra các yếu tố từ cả phỏng vấn có cấu trúc và phi cấu trúc. Nó sẽ có tính nhất quán và các yếu tố định lượng giống như một cuộc phỏng vấn có cấu trúc, và sẽ bao gồm quyền tự do điều chỉnh các câu hỏi dựa trên sự thật.
Như vậy, đối với dữ liệu phổ thông, dữ liệu có cấu trúc sẽ dễ dàng sắp xếp và tuân theo một định dạng nhất định; dữ liệu phi cấu trúc phức tạp hơn và thường chứa những thông tin định tính mà hầu như không thể cắt bớt hay sắp xếp lại trong cơ sở dữ liệu quan hệ; còn dữ liệu bán cấu trúc có hai các dạng phần tử.
Xem thêm
sql là gì? Kiến thức về sql