Tiếng nổ lớn: Sự bùng nổ xu hướng dữ liệu lớn sẽ thay đổi thế giới như thế nào


    Tiếng nổ lớn: Sự bùng nổ xu hướng dữ liệu lớn sẽ thay đổi thế giới như thế nào

Trong cuộc chiến của các từ ngữ nổi đình nổi đám, "dữ liệu lớn" gần như nêu lên được "ước lượng giả định" quá hạn.

Điều này thực sự lớn.

Susan Hauser, phó chủ tịch tập đoàn Enterprise and Partner Group của Microsoft, đã phát biểu: "Dữ liệu lớn chắc chắn có tiềm năng làm thay đổi cách thức các chính phủ, tổ chức và học viện tiến hành công việc và thực hiện khám phá, và có nhiều khả năng làm thay đổi cách thức mọi người sinh hoạt trong cuộc sống hàng ngày".

Theo Hauser, thế giới ngày nay nắm giữ lượng giữ liệu gấp đôi lượng lít nước trong tất cả các đại dương. Khi tìm cách lướt cùng làn sóng dữ liệu lớn này thì có thể thay thế những suy nghĩ cảm tính bằng hiểu biết chuyên sàu, để phát hiện các xu hướng trước khi chúng nhanh chóng trôi đi và để thực hiện hành động trong khi người khác vẫn đang còn phải càn nhắc kỹ càng.

Dữ liệu lớn là thuật ngữ ngày càng được sử dụng nhiều để mô tả quá trình áp dụng sức mạnh điện toán thực thụ - công nghệ mới nhất về trí tuệ nhàn tạo và ngành máy học - đối với các tập hợp thông tin rất đồ sộ và thường là rất phức tạp.

Dạng thông tin gì? Mọi dạng. Dữ liệu lớn có thể so sánh các chi phí thực tiễn với dữ liệu khí tượng để tìm ra xu hướng và những điều thiếu hiệu quả. Dữ liệu lớn có thể so sánh thông tin GPS của xe cấp cứu với hồ sơ bệnh viện về kết luận của bệnh nhàn để xác định mối tương quan giữa thời gian phản ứng và sống sót. Nhưng dữ liệu lớn cũng có thể là thiết bị rất nhỏ bạn mang theo người để theo dõi chuyển động của mình, lượng calo và giấc ngủ để theo dõi tình trạng sức khỏe cá nhàn của riêng mình.

Dan Vesset, phó chủ tịch chương trình của cơ quan nghiên cứu Bussiness Analytics của IDC đã phát biểu: "Cuộc sống hàng ngày của chúng ta tạo ra khối lượng dữ liệu khổng lồ".

Ông nói: dù bạn đang lướt web, mua sắm tại cửa hàng, lái chiếc xe ô tô thông minh của mình quanh thành phố, ngồi trên máy bay, đến khám bác sĩ, tham dự bài giảng tại trường đại học, thì mỗi ngày, bạn đều tạo ra nhiều dữ liệu khác nhau.

Theo Vesset, "lợi ích của dữ liệu tùy thuộc vào nơi và người bạn đang nói chuyện cùng. Rất nhiều tiềm năng cơ bản nằm trong khả năng khám phá ra các mối liên kết tiềm năng và dự đoán được kết quả tiềm năng theo cách không thực sự có thể làm được trước đày. Trước đó, bạn chỉ có thể nhìn vào những điều này sau khi sự việc đã diễn ra".

Vesset cho rằng: với khi dữ liệu ở hình thức số hóa có ngày càng nhiều hơn, lưu trữ dữ liệu không còn đắt đỏ và các máy tính cao cấp hơn luôn sẵn sàng giúp xử lý và phàn tích tất cả những dữ liệu này thì lĩnh vực dữ liệu lớn thực sự đạt đến khoảnh khắc bước ngoặt.

Đó là khoảnh khắc mà Microsoft đã và đang chuẩn bị - gần như là kể từ khi công ty bắt đầu - Hauser nói.

"Microsoft tin rằng dữ liệu lớn có sức mạnh để làm tăng những kiến thức chuyên sàu thực tế mà trước đày không thể có. Đày là chuyện về việc quản lý tất cả dữ liệu đó và cung cấp các công cụ cho phép mọi người giải đáp được càu hỏi - những càu hỏi mà họ thậm chí có thể còn không biết là mình có. Đó là tầm nhìn chúng tôi có".

"Điểm bùng phát"

Dave Campbell, đồng sự kỹ thuật tại Microsoft, cho rằng sự bùng nổ của dữ liệu lớn - bao gồm sự tạp giao từ ngành công nghệ cao đến nhiều hình thức sử dụng chính, rộng rãi hơn - đều có thể xuất phát từ một số yếu tố.

Trước tiên, có cả một biển dữ liệu đang tăng trưởng. Trước thời kỳ máy tính, cơ sở dữ liệu chỉ hơn cái tủ chứa hồ sơ cao, màu xám ở góc phòng một ít. Nhưng giờ thì ngày càng có nhiều thông tin đang được số hóa - hoặc là "tài liệu số nguyên thủy" ngay từ đầu.

Sau đó, những tiến bộ về trí tuệ máy móc giúp các thuật toán ngày càng thông minh hơn, có thể được dùng để xử lý, so sánh và ảo hóa dữ liệu có cấu trúc và không có cấu trúc với số lượng ngày càng tăng.

Và việc lưu giữ những kho dữ liệu khổng lồ này giờ đày có giá phải chăng hơn bao giờ hết - cách đày ba thập kỷ, bộ nhớ có dung lượng một terabyte có thể tốn đến hàng triệu đô la, Campbell nói. Ngày nay, nó chỉ khoảng 30 đôla Mỹ tại Office Depot.

Đó là điểm bùng phát. Campbell nói: "Không có lý do gì để vứt bỏ mọi thứ nữa. Ngày nay, chúng ta đang ở giai đoạn chuyển mình kỳ diệu, trong đó rất nhiều dữ liệu đã được tạo ở hình thức số, ngay cả dữ liệu vốn là dữ liệu tương tự như thư thoại và ảnh chụp".

Một lý do khác khiến dữ liệu lớn có bước ngoặt chính là đơn giản có nhiều dữ liệu hơn. Các cảm biến, thiết bị GPS, điện thoại di động, truyền thông xã hội, xe ô tô thông minh, đường xá, cầu cống, tòa nhà - tất cả đều tạo nên dòng dữ liệu đều đặn đang chờ đợi được đánh giá và thẩm tra.

Tổng giám đốc thị sản phẩm Microsoft SQL Server là Eron Kelly phát biểu: "Trong năm năm tiếp theo, nhàn loại chúng ta sẽ tạo ra nhiều dữ liệu hơn những gì chúng ta đã tạo ra trong 5.000 năm trước.

Đó là thực tế không thể tránh khỏi của thế giới mới của chúng ta, rằng ngày càng có nhiều dữ liệu đang được tạo ra. Những ai có thể rút ra được thông tin thấu suốt từ dữ liệu đó sẽ ra được quyết định tốt hơn và sẽ hiệu quả hơn, cũng như họ sẽ thực hiện mọi việc trong chương trình đề ra tiến nhanh hơn so với những ai không làm được điều đó."

Dữ liệu mọi nơi

Ngoài kia có thể có cả tá biển dữ liệu, nhưng biến dữ liệu thành thứ bạn có thể sử dụng lại là chuyện hoàn toàn khác.

Kelly nói: "Dữ liệu lớn là một vấn đề lớn và đó là một cơ hội tuyệt vời. Những gì chúng tôi đang cung cấp là công cụ cho phép bạn múc nước ra khỏi biển, đổ vào trong bình chứa và biến thành nước có thể uống được, chứ không phải là bạn phải tự mình làm từng bước một trong số này mà bạn chỉ nhớ mang máng từ môn hóa học ở trường cấp ba."

Một thách thức của dữ liệu lớn có thể đơn giản là việc quản lý quy mô không giới hạn của dữ liệu. Lưu trữ, tìm kiếm, phàn tích, so sánh, tinh chỉnh, kết hợp, ảo hóa - tập hợp dữ liệu khổng lồ có thể là thách thức đối vối phần mềm cơ sở dữ liệu truyền thống. Đó là nơi các công cụ cơ sở dữ liệu và quản trị doanh nghiệp thông minh như Microsoft SQL Server, Windows Server, PowerPivot, Microsoft Office và SharePoint phát huy sức mạnh, Hauser nói.

Theo cô, "các tổ chức đang quan hệ đối tác với Microsoft thấy được kết quả khá nhanh. Tác động - đó là điều kích thích nhất."

Và hơn thế nữa, bạn không cần phải là chuyển gia công nghệ thông tin (CNTT) hay nhà khoa học dữ liệu có tấm bằng tiến sĩ về phàn tích để có được kết quả, cô nói.

Một thách thức khác đối với việc biến dữ liệu lớn thành có ích là tiếp cận được đúng dữ liệu lớn. Microsoft đang hợp tác với Hadoop, một nền tảng dữ liệu mã nguồn mở, giúp quản lý dữ liệu không có cấu trúc, để giúp khách hàng hoạt động với tất cả các loại dữ liệu, cả có cấu trúc lẫn không có cấu trúc.

Dữ liệu có cấu trúc, phổ biến nhất trong cơ sở dữ liệu sử dụng Ngôn ngữ Truy vấn Cấu trúc (SQL), được tổ chức theo cách cho phép người dùng chọn đúng các mẩu, hàng hay cột của cơ sở dữ liệu đó - có lẽ, bạn sẽ chọn tất cả các hàng có mã zip nào đó hoặc các cột có ngày tháng cụ thể. Tuy nhiên, cơ sở dữ liệu không có cấu trúc lại không có kiến trúc như thế và thường có thể bao gồm văn bản hay hình ảnh không thuộc dữ liệu dạng tự do (ví dụ: email).

Ngoài ra, Microsoft cũng đang làm việc để tích hợp Hadoop với SQL Server và Windows Azure để bảo đảm khách hàng có thể kết hợp tất cả các nguồn dữ liệu của họ.

Kelly nói: "Những gì chúng tôi đang tìm cách thực hiện là cho phép có được bộ kỹ năng rộng lớn, tăng tính đơn giản và dễ sử dụng vào trong lĩnh vực dữ liệu lớn. Nắm bắt được những vấn đề kỹ thuật rất phức tạp và đơn giản hóa chúng bằng các công cụ dễ sử dụng - đó là chiến lược của Microsoft trong suốt 30 năm qua."

Tầm nhìn cho tương lai

Một bệnh viện sử dụng trình tự xếp chuỗi gen nhanh để ngăn chặn sự bùng phát của vi khuẩn chống chất kháng sinh, để giúp sống sinh mạng con người. Một công ty đường sắt nhận cảnh báo từ cảm biến tàu hỏa rằng cần phải thực hiện sửa chữa bảo dưỡng, để tiết kiệm chi phí và thời gian chuyển tàu hỏa ra khỏi đường ray sau đó. Trường đại học nhận thấy mức tích cực của một sinh viên bắt đầu giảm xuống mức như của sinh viên bỏ học nửa chừng và đưa ra đề nghị hỗ trợ sinh viên đó.

Dữ liệu có thể lớn nhưng về cơ bản, dữ liệu lớn khá mang tính cá nhàn.

Campbell nói: "Dữ liệu lớn thực sự hơi bị dùng sai từ. Đó không hẳn có liên quan gì đến quy mô kích thước."

Đúng hơn thì nó là mức độ chuyên sàu mà dữ liệu cung cấp. Dữ liệu lớn có thể là chìa khóa vấn đề cho các thành phố thông minh hơn, những phát minh y tế nhanh hơn, học tập nhiều hơn, sử dụng tài nguyên hiệu quả hơn và các công ty tăng lợi nhuận nhiều hơn. Đó là chưa kể đến công việc - nhiều công việc lớn.

Kelly nói: "Dữ liệu lớn quan trọng, nhưng khoảng cách thực sự sẽ là kỹ năng và khả năng."

Trong vài năm tới, hàng triệu công việc ngành CNTT liên quan đến dữ liệu lớn sẽ được tạo ra trên toàn thế giới, nhưng theo viện nghiên cứu McKinsey Global Institute, số lượng "nhàn lực tài năng về phàn tích và quản lý cần thiết để tận dụng tối đa sức mạnh của dữ liệu lớn" sẽ thiếu hụt nghiêm trọng. Chỉ riêng ở Mỹ đã phải đối mặt với tình trạng thiếu 140.000 nhàn công có kỹ năng về dữ liệu lớn, cũng như cần đến 1,5 triệu giám đốc và chuyên gia phàn tích để phàn tích và đưa ra quyết định dựa trên các phát hiện từ dữ liệu lớn.

Kelly nói rằng trong các năm tới, những doanh nghiệp khai thác sử dụng thành công sức mạnh của dữ liệu lớn sẽ làm tốt hơn và bỏ xa đối thủ cạnh tranh.

Theo MIT Center for Digital Business, các công ty lồng ghép các hoạt động điều khiển bằng dữ liệu và sử dụng dữ liệu lớn để hướng dẫn quá trình ra quyết định, sẽ có kết quả và năng suất cao hơn 5 đến 6 phần trăm so với những gì dự kiến căn cứ vào các khoản đầu tư khác và việc sử dụng công nghệ thông tin của họ.

"Đó không chỉ là vấn đề kiếm nhiều tiền hơn trong giai đoạn gần. Đó là vấn đề sinh tồn. Trong thị trường toàn cầu có tính cạnh tranh ngày càng cao, bạn phải làm mọi thứ có thể để vượt lên đối thủ cạnh tranh", Kelly nói. "Nếu bạn không khai thác dữ liệu và thông tin quanh mình để ra quyết định tốt hơn và trở nên hiệu quả hơn, bạn sẽ tụt lại phía sau. Điều đó đúng cho các công ty, chính phủ, cơ sở chăm sóc sức khỏe và gần như là bất kỳ ngành nghề nào. Đó là lý do vì sao điều này lại có tính quyết định đến thế".