'Kỷ nguyên vàng' của thấu hiểu thông tin: Tương lai tươi sáng của dữ liệu lớn

Trong hơn 20 năm, các phòng nghiên cứu của Microsoft Research trên toàn thế giới đã tập trung vào nghiên cứu trên bình diện rộng các chủ đề về khoa học máy tính. Ngay từ đầu, tổ chức đã đầu tư mạnh tay cho việc tiên phong đột phá vào lĩnh vực trí tuệ máy móc, bao gồm những nỗ lực về ngành máy học và dữ liệu lớn. Trong phỏng vấn này, nhà khoa học lỗi lạc Eric Horvitz sẽ trò chuyện về những tiến bộ ông nhìn thấy được trong tương lai, ảnh hưởng của chúng đối với cuộc sống hàng ngày của bạn và việc thấu hiểu thông tin từ dữ liệu lớn cũng như phát triển các dịch vụ và phần mềm thông minh hơn sẽ thay đổi thế giới như thế nào.
Tại các phòng thí nghiệm của Microsoft Research trên toàn thế giới, một số nhà khoa học rất chuyên sâu đang nghiên cứu về dữ liệu lớn. Trong số này bao gồm cả Eric Horvitz, nhà khoa học lỗi lạc tại Microsoft và là đồng giám đốc của phòng thí nghiệm Microsoft Research, người gần đây được bầu chọn vào Viện hàn lâm Khoa học Kỹ thuật Quốc gia Hoa Kỳ cho công trình của ông về "cơ chế điện toán đối với việc ra quyết định trong điều kiện bất định và với nguồn tài nguyên hạn chế".
Ông thấy được tương lai mà theo đó, máy móc nạp đầy lượng lớn dữ liệu có thể trở thành "bạn đồng hành số hóa suốt đời và đầy năng lực", người biết được bạn muốn hay cần gì (dù là bánh pizza hay thuốc), bạn muốn đi đâu (là Hawaii hay tuyến đường ít người nhất đến sân bóng) và thường làm việc hết mình thay mặt cho bạn.
Thu thập, lưu trữ, diễn giải và tận dụng dữ liệu có thể cung cấp thông tin chuyên sâu trên quy mô nhỏ và lớn, cũng như trong các lĩnh vực chính và công nghệ cao hay lĩnh vực tương tự thế, Horvitz cho biết.
"Trong thế giới ngày nay, phân tích dữ liệu hiệu quả trên quy mô lớn cho mô hình hóa dự báo, ảo hóa và phát minh khám phá đang trở thành trung tâm của thành công trong nhiều lĩnh vực".
Gần đây, Microsoft News Center đã trò chuyện với Horvitz về cách thức Microsoft Research (MSR) đang đầu tư thời gian và nhân tài trong lĩnh vực dữ liệu lớn và trí tuệ máy móc, những phát minh quan trọng của MSR và tầm nhìn của ông đối với tương lai của những lĩnh vực này.
MNC: Ông nghĩ vì sao dữ liệu lớn lại đang gây cơn sốt vào lúc này?
Horvitz: Những từ ngữ đình đám xảy ra vì nhiều nguyên nhân khác nhau. Trong trường hợp này, tôi tin là vì nhiều yếu tố kết hợp với nhau nên nhiều người sử dụng cụm từ dễ nhớ dễ thuộc đó. Một yếu tố trong đó là dữ liệu đang được thu thập với số lượng nhiều chưa từng có vào lúc này, trong nhiều lĩnh vực khác nhau và các tiến bộ về khoa học máy tính - đối với việc hiểu, lưu trữ và hoạt động mạng. Nhiều dữ liệu đang được thu thập một phần vì nhiều hoạt động của con người chuyển sang hoạt động trên web - và điều đó giúp việc thu thập giao dịch và sự kiện thuộc nhiều loại khác nhau trong luồng hoạt động được dễ dàng hơn. Điều này bao gồm mọi thứ từ thương mại điện tử đến lái xe ngang qua các cảm biến đặt trên đường đi, đến các dịch vụ điện thoại thông minh tận dụng dữ liệu về địa điểm, đến việc chăm sóc sức khỏe. Trong lĩnh vực chăm sóc sức khỏe, sự bùng nổ của ngành nghiên cứu gen và dữ liệu lâm sàng thu được ngày nhiều tại bệnh viện đã khiến hàng gigabyte và terabyte dữ liệu bệnh nhân được chuyển vào trong các cơ sở dữ liệu - và chúng ta đang ở trong giai đoạn đầu của ngành tin học y sinh. Lưu trữ cũng trở nên rất phải chăng so với trước đây. Trước đây, chúng ta thường nói có lẽ một ngày nào đó sẽ có hàng terabyte dữ liệu. Giờ đây, terabyte là thứ mà con bạn có thể mang đi trong ổ đĩa nhỏ bé nằm trong túi khi chúng đến trường cấp hai. Đứng về mặt điện toán, con người đã có những thành tựu về các quy trình điện toán mà chúng ta sử dụng để khai thác dữ liệu cho nhiều hình thức sử dụng lý thú - ví dụ như xây dựng các mô hình dự đoán từ dữ liệu. Theo những ví dụ đó, chúng ta có thể tận dụng dữ liệu để đưa ra các dự đoán trong thời gian thực về các mối quan tâm hay mục đích hay thay đổi của người dùng máy tính và tìm cách để nhận ra các cử chỉ của ai đó. Chúng ta có thể tìm hiểu từ dữ liệu của bệnh nhân để dự đoán khả năng sẽ phải nhập viện lại sau khi xuất viện.
MNC: Điều gì khiến nghiên cứu của Microsoft Research về ngành máy học trở nên độc đáo so với những nghiên cứu khác trong ngành?
Horvitz: Microsoft Research là phòng thí nghiệm nghiên cứu mở nổi tiếng, tại đây, chúng tôi khuyến khích tự do nghiên cứu để công bố các kết quả và thành tựu của chúng mình. Điều đó đã thu hút những con người thông minh nhất và giỏi nhất. Các thách thức thú vị trong thế giới thực kích thích những người tại MSR. Họ cũng có quyền tiếp cận sử dụng các nguồn tài nguyên dữ liệu lớn và cơ hội đầy thử thách, nhưng xứng đáng, để mang đến những ý tưởng tốt nhất cho hàng trăm hàng triệu người. Các nhà nghiên cứu của chúng tôi nghiên cứu về ngành máy học đóng góp nhiều cho cộng đồng các nhà nghiên cứu trên toàn thế giới đang theo đuổi nghiên cứu về lĩnh vực trí tuệ máy học. Vượt lên trên phạm vi máy học, nghiên cứu này bao gồm cả nhận thức cơ giới, suy luận tự động và đưa ra quyết định. Lĩnh vực máy học ăn sâu vào nền tảng của Microsoft Research; lĩnh vực hoạt động này là một trong những lĩnh vực ưu tiên trọng yếu đầu tiên mà chúng tôi đầu tư vào đó.
Ngày nay, những người đang nghiên cứu về lĩnh vực máy học trong các phòng thí nghiệm của chúng tôi là lực lượng lao động trí óc nòng cốt. Trong đó bao gồm các nhóm nhà khoa học chuyên sâu, nghiên cứu về những nguyên lý cốt lõi cũng như các ứng dụng của chúng. Chúng tôi có các nhóm khoa học nghiên cứu về ngành máy học tại Redmond, Cambridge, Bắc Kinh, Bangalore, Thung lũng Silicon, New England và Thành phố New York. Những nhóm này hoạt động cùng nhau, hình thành nên một trong những nỗ lực nghiên cứu lớn nhất về máy học trên thế giới.
MNC: Một số cách thức mà nghiên cứu của MSR về ngành máy học đã ứng dụng vào trong sản phẩm Microsoft là gì?
Horvitz: Vô số kết quả nghiên cứu đã được ứng dụng vào trong các sản phẩm và dịch vụ của Microsoft. Nhiều thành công trong số này xuất phát từ mối quan hệ rất chặt chẽ giữa những người làm việc tại MSR và những người làm việc trong các nhóm sản phẩm. Lấy ví dụ: Microsoft Research thực hiện công việc cốt lõi là tìm hiểu cách xếp hạng các mục. Công trình này tạo ra các phương pháp nền tảng giúp Bing xếp hạng kết quả tìm kiếm để phản hồi lại những câu truy vấn của người dùng. MSR còn nổi tiếng với công trình về hệ thống cảm biến - những chiếc máy có thể nhìn và nhận ra những gì chúng đang nhìn thấy - cũng như nhận dạng lời nói và dịch thuật. Khi bạn dùng tìm kiếm giọng nói của Bing hay bộ dịch thuật của Bing, thì bạn đang tận dụng các kết quả nghiên cứu chính về ngành máy học của MSR.
Nhóm Cambridge của chúng tôi nổi tiếng về các phương pháp tìm hiểu cách thức lấy hình ảnh và phân đoạn cũng như phân loại hình ảnh; công trình sáng kiến và có giá trị này là nền tảng trọng yếu, cho phép tạo ra Kinect có thể nhận dạng người và cử chỉ của họ trong phòng.
MSR còn được biết đến với việc áp dụng nghiên cứu máy học trong lĩnh vực tin học y sinh và những khía cạnh khác của chăm sóc sức khỏe lâm sàng. Tại phòng thí nghiệm Redmond, chúng tôi thực hiện nhiều công trình lớn về khai thác và sử dụng khối lượng lớn dữ liệu lâm sàng có được từ bệnh viện ngày nay, để xây dựng các mô hình dự đoán giúp hướng dẫn bệnh viện trong việc đưa ra quyết định. Lúc tôi nói về điều này thì những hệ thống này cũng đang chạy tại các bệnh viện, giúp cho việc chăm sóc sức khỏe tốt hơn. Một ứng dụng khác là Bing Bản đồ và Bing Directions, cung cấp hướng dẫn đường đi có cập nhật tình hình giao thông cho 72 thành phố tại Bắc Mỹ. Bing Directions sử dụng các phương pháp từ MSR, trong đó cho biết cách thức chúng ta có thể học được từ lịch sử của dữ liệu giao thông, cách dự đoán lưu lượng giao thông trong thời gian thực trên tất cả các tuyến đường trong khu vực thành phố rộng lớn hơn. Lĩnh vực máy học còn xâm nhập sâu vào hệ điều hành Windows. MSR đã hợp tác với nhóm Windows để phát triển hệ thống tìm nạp trong thời gian thực, chạy trong Windows 7 và Windows 8. Windows tiếp tục học tập người dùng về các mẫu hình hoạt động của họ, rồi đưa ra dự đoán về những hoạt động tiếp theo - giúp cho hệ điều hành chạy nhanh hơn nữa.
MNC: Nghiên cứu bao quát này về trí tuệ máy móc có một số mục tiêu nào?
Horvitz: Phương hướng và mục tiêu thì có rất nhiều, từ khám phá ra khoa học cơ bản về máy học đến hiểu được cách tốt nhất để xử lý các lớp dữ liệu cụ thể và thực hiện những nhiệm vụ cụ thể. Chúng tôi cũng nghiên cứu phát triển các công cụ mạnh và hiệu quả hơn để hỗ trợ quy trình xây dựng kỹ thuật về máy học. Trong lĩnh vực này, chúng tôi đang nghiên cứu phát triển các công cụ và phương pháp cho phép người không chuyên và bán chuyên hoạt động hiệu quả với mô hình dự đoán và phân tích dữ liệu riêng của họ. Đây là thách thức rất đáng quan tâm - để đặt sức mạnh vào tay người dùng cuối - sức mạnh phân tích kiểu này thường chỉ nằm trong tay của các chuyên gia về máy học và chuyên viên thống kê.
MNC: Nghe có vẻ là thách thức thực sự lớn. Xuất phát điểm của ông ở đâu trong công cuộc biến trí tuệ máy móc này sẵn có cho đại chúng?
Horvitz: Ngành máy học đã phát triển vô số thủ tục thuật toán; từng thủ tục thường đi kèm với các công cụ hỗ trợ để tinh chỉnh những phương pháp này cho dữ liệu và nhiệm vụ đang có. Câu hỏi đặt ra là sử dụng phương pháp nào thì tốt nhất cho nhiệm vụ tìm hiểu và tập dữ liệu cụ thể. Lọc sạch, chuẩn bị và ẩn danh cho dữ liệu thô cũng là điều thách thức, để có thể dễ dàng xử lý và phân tích dữ liệu. Lĩnh vực máy học có nhiều vùng nguy hiểm và các dạng công cụ mới có thể giúp mọi người xác định được họ muốn gì để tìm hiểu và biết cách xác thực tính chính xác của những dự đoán do mô hình họ xây dựng nên đưa ra. Sau đó là đến việc đưa ra quyết định. Việc này tập trung vào cách thức để hướng dẫn các hành động và chính sách trên thế giới dựa vào dự đoán. Chúng tôi đang nghiên cứu để tạo ra những kiểu công cụ mới hướng dẫn thu thập, phân tích và kiểm tra dữ liệu - và điều đó cũng cung cấp cho người dùng thông tin chuyên sâu về ảo hóa và đưa ra quyết định.
MNC: Một số rào cản gặp phải trong lĩnh vực máy học là gì?
Horvitz: Một thử thách mà chúng tôi đang tìm cách giải quyết là những cỗ máy có thể hiểu và thậm chí là dịch được lời nói hội thoại. Một số thành tựu nhỏ về độ chính xác thỉnh thoảng cũng có hệ quả lớn đối với năng lực của hệ thống. Gần đây, Rick Rashid (Giám đốc Nghiên cứu của MSR) đã trình bày trước đám đông khán thính giả tại Thiên Tân, Trung Quốc về khả năng dịch trong thời gian thực từ tiếng Anh sang tiếng quan thoại. Ông thoải mái phát biểu và bài phát biểu của ông được dịch ra, rồi được kết xuất lại thành giọng của chính ông - ông nói tiếng quan thoại trong thời gian thực. Kênh dịch thuật đó thực hiện được nhờ vào một số công nghệ, nhưng ở khía cạnh nào đó thì sáng kiến đáng kinh ngạc và nổi bật nhất là độ chính xác trong nhận diện lời nói hội thoại tăng lên đến mức đáng ngạc nhiên. Điều đó chỉ vừa diễn ra trong hai năm qua và là kết quả nghiên cứu thử nghiệm tại MSR về các phương hướng mới trong lĩnh vực máy học.
MNC: Vậy Microsoft Research sẽ tập trung vào những khía cạnh nào của dữ liệu lớn?
Horvitz: Thật có quá nhiều phương hướng đầy triển vọng và thú vị. Tôi phải nói là đây là thực sự là lĩnh vực có nhiều cơ hội đầy kích thích - và chúng ta đang ở trong thời kỳ cũng đầy kích thích. Phóng tầm mắt về tương lai dài hạn hơn, tôi hy vọng rằng ngành máy học và trí tuệ máy học khi nói rộng hơn, sẽ cung cấp cho chúng ta các công cụ mới, nền tảng để thực hiện nghiên cứu khoa học và rằng nhiều phát minh đột phá trong vài thập kỉ tiếp theo sẽ là kết quả của sự hợp tác giữa con người và các công cụ suy luận cũng như máy học. Có nhiều cơ hội để tìm hiểu những điều mới mẻ từ số lượng dữ liệu lớn, bao gồm giải quyết tận cùng những điều bí ẩn về sức khỏe con người bằng cách hiểu thông suốt dữ liệu với các công cụ học tập tự động - một số công cụ trong số đó có thể nhận ra được quan hệ nhân quả, rằng A thực tế gây ra B.
Một phương hướng khác là hợp tác để tạo nên tập hợp công nghệ - máy học, nhận dạng giọng nới, hiểu ngôn ngữ tự nhiên, thị giác máy và đưa ra quyết định - để tạo ra những hệ thống hoạt động như những cộng tác viên thông minh và bổ sung trí tuệ con người theo những dạng cách thức mới.
Một mặt khác là có cơ hội lớn thực hiện được những dạng tìm kiếm và truy lục mới trên web. Chúng ta cũng áp dụng lĩnh vực máy học theo các cách thức mới để chọn ra những tín hiệu trong lượng lớn dữ liệu dân số. Ví dụ: trong công trình gần đây, chúng tôi đã phát triển cách để khám phá ra các manh mối về những tác dụng phụ của thuốc trong các sổ nhật ký tìm kiếm đã ẩn danh. Tôi tin rằng các phương pháp lấy dữ liệu làm trọng tâm sẽ làm thay đổi thế giới theo nhiều cách, gây ảnh hưởng đến y tế, giáo dục, khoa học và thương mại.
MNC:Nếu ông ở vị thế là người đi tiên phong thì tất cả nghiên cứu này có thể có ý nghĩa gì đối với tương lai?
Horvitz: Nhìn đến tương lai, tôi tin rằng có cơ hội để xây dựng các hệ thống thực sự trở thành bạn đồng hành số hóa suốt đời và đầy năng lực, hiểu sâu sắc những gì bạn muốn làm, nơi bạn muốn đến, những gì bạn muốn tìm hiểu, những gì bạn cần làm để giữ gìn sức khỏe, bạn giỏi và không giỏi về cái gì và tiếp tục làm việc thay mặt bạn để trợ giúp và bổ sung cho bạn. Nghiên cứu về một số lĩnh vực hiện dự đoán đang tạo nên một số khả năng rộng lớn hơn.
MNC: Vì sao ông lại tham gia vào lĩnh vực này?
Horvitz: Tôi quan tâm đến việc tìm hiểu trí óc con người từ lâu rồi và sự tò mò đó dẫn dắt tôi từ lĩnh vực sinh học đến vật lý, đến thế giới thông tin và điện toán. Vượt ra ngoài ham muốn theo đuổi chính đó, tôi dần có hứng thú với việc áp dụng các nguyên lý về tìm hiểu và ra quyết định trong những ứng dụng cung cấp giá trị trong thế giới thực - trong khi phần nào đó, có quan hệ với những câu hỏi lớn về các hệ thống tư duy thông minh. Tôi đã học được rất nhiều khi làm việc cùng và cạnh những đồng nghiệp ưu tú về các nguyên lý và ứng dụng. Và tại một nơi như Microsoft Research, tất cả chúng tôi đều có "đòn bẩy" đầy khiêu chiến này trong đầu, cùng nền tảng định hướng trong tầm nhìn để tiến tới. Ý tưởng hoặc sáng kiến tiếp theo của chúng tôi thực sự khuấy động cả hành tinh, thông qua ảnh hưởng lên các cản phẩm và dịch vụ của Microsoft.
MNC: Đều là việc trong ngày nữa chứ?
Horvitz: [Cười] Chính xác. Nhưng tôi nghiêm túc về vấn đề này, chúng tôi không đùa đâu.
MNC: Tạp chí Harvard Business Review công nhận nghề khoa học dữ liệu là nghề nghiệp mới hấp dẫn nhất.
Horvitz: Rất tuyệt. Bạn có thể nói là về mặt nào đó thì khoa học máy tính và các lĩnh vực kỹ sư khác không được coi trọng lắm trong nhiều năm, theo nghĩa là những người chọn lựa nghề nghiệp đều tìm kiếm "nghề cao quý" - trong những lĩnh vực như chăm sóc sức khỏe và pháp luật. Tôi tin rằng khoa học điện toán đang trở thành nghề nghiệp cao quý trong thời đại chúng ta, vì điện toán cho phép phát triển rất nhiều ngành khác từ hàng không vũ trụ đến chăm sóc sức khỏe, đến khoa học, đến luật pháp, đến chính phủ.