Datafication (Datafy) – Dữ Liệu Hóa
Có 4 khái niệm then chốt được phân loại theo các cấp độ khác nhau là: data (dữ liệu), information (thông tin), knowledge (kiến thức) và wisdom (trí tuệ). Có hai tiêu chí chính để xác định các cấp độ là tính phức tạp (complexity) và giá trị (value).
- Data (dữ liệu): đơn giản là các ký hiệu (signs) không thể hiểu hay giải thích được (not interpreted), là đơn vị cơ bản thấp nhất và là nguyên liệu thô của thang đo kiến thức. Chúng phát sinh từ những gì chúng ta trải nghiệm qua các sự kiện trong cuộc sống và những gì được cảm nhận bởi các giác quan của chúng ta và bởi các thiết bị điện tử. Ví dụ, 36.4 chỉ là một con số hay dữ liệu có thể được biểu hiện dưới dạng các ký tự $, @, & .v.v.
- Information (thông tin): là một tập hợp dữ liệu (data) được tổ chức trong một phạm vi / một thang đo, thể hiện cho một loạt các sự kiện được nhóm lại (data). Ví dụ, chữ “C” hoặc chữ “F” trong nhiệt kế là một thang đo biểu thị cho thông tin về nhiệt độ. Con người chúng ta ghi nhớ dữ liệu thu được bằng các giác quan (tổ chức và phân loại trong một thang đo / một phạm vi), còn hệ thống máy tính duy trì dữ liệu trong một danh sách, bảng tính, tài liệu, một cơ sở dữ liệu hoặc các hình thức khác.
- Knowledge (kiến thức): là một loại thông tin theo ngữ cảnh (contextual information) có thể thay đổi một thứ gì đó hoặc ai đó và được chứng minh bằng một cách nào đó là đúng. Ví dụ như 36.4 độ C là nhiệt độ trung bình của cơ thể người bình thường, nếu con số đó tăng lên đến 38 độ C thì nghĩa là người đó đang bị sốt và cần có một số hành động phù hợp để lấy lại sự cân bằng về thân nhiệt của cơ thể. Con người chúng ta có thể suy nghĩ về một vấn đề và đưa ra quyết định, còn hệ thống máy tính sử dụng thuật toán cho việc này, cả hai đều dựa trên dữ liệu (data) và thông tin (knowledge).
- Wisdom (trí tuệ): là cấp độ cao nhất. Trí tuệ trở nên chủ quan và dường như phi logic / phi lý, được tạo tác bằng một chuỗi các lý luận phức tạp, nhanh chóng thông qua ba giai đoạn ở ba cấp độ trước đó. Ví dụ, nếu một người đang sốt cao thì cách điều trị nào nên được áp dụng? Con người với kinh nghiệm của mình có thể đưa ra những chỉ dẫn khôn ngoan nhất. Còn trong hệ thống máy tính, chúng ta sử dụng các công cụ để kết nối dữ liệu từ các khu vực, các nguồn khác nhau nhằm mang lại các đáp án ngày càng thông minh hơn, một hệ thống như vậy chính là Sematic Web (Web Ngữ Nghĩa Học) hay còn gọi là Web 3.0
Data (dữ liệu) xuất phát từ thuật ngữ la tinh có nghĩa đen là “something given – một thứ gì đó được đưa ra”, nó là một tập hợp các đại lượng, ký tự hoặc biểu tượng ký hiệu, một giả định hoặc một tiền đề mà từ đó các suy luận có thể được rút ra, nó là cơ sở của lý luận hoặc tính toán. Dữ liệu đại diện cho các đơn vị thông tin rời rạc và đo đó chúng ta luôn tách biệt một số khía cạnh của hiện tượng và đóng băng cô lập nó. Dữ liệu luôn là một lát cắt của thực tế, chúng ta đang chẻ thế giới thành nhiều phần nhỏ và xem lượng thông tin có được từ từng phần là một chỉnh thể hoàn chỉnh. Điều này làm cho dữ liệu có khả năng di chuyển linh động (portable), nó có thể được lấy từ một bối cảnh này và mang vào một bối cảnh khác. Tất cả các dữ liệu trong thế giới thực tồn tại trong một bối cảnh tích hợp, không quan trọng việc thu thập dữ liệu của chúng ta mở rộng ra như thế nào, nó sẽ chỉ có thể nắm bắt được một phần đại diện của hệ thống và bằng cách đó tách nó ra khỏi bối cảnh tổng thể mà nó đang tồn tại trong đó. Dữ liệu luôn không hoàn chỉnh, nhưng bản chất rời rạc của dữ liệu làm cho nó có thể định lượng và do đó có thể tiếp cận được bằng các phương pháp phân tích định lượng hình thức. Dữ liệu như là một khái niệm chung đề cập đến thực tế rằng những thông tin và kiến thức hiện có được đại diện hoặc được mã hóa dưới dạng nào đó phù hợp để sử dụng hoặc để xử lý tốt hơn. Trong khi dữ liệu và thông tin luôn tồn tại xung quanh chúng ta thì những gì Datafication thực hiện là làm cho các thông tin đó khả dụng và sẵn có cho các hoạt động phân tích của máy tính.
Thuật ngữ Datafication (dữ liệu hóa) đề cập đến một thực trạng là chúng ta đang ngày càng để mắt đến nhiều thứ hơn và sử dụng công nghệ để diễn tả (render) chúng dưới một định dạng dữ liệu (data format). Datafication mô tả khả năng nắm bắt dữ liệu của chúng ta theo nhiều khía cạnh của thế giới mà những khía cạnh này chưa từng được chú ý tới. Nói đơn giản, Datafication ám chỉ đến việc sử dụng các công cụ, công nghệ và quy trình có tính tập thể để nắm bắt những hành động hay quá trình vô hình chưa bao giờ được định lượng trước đây và chuyển hóa nó thành dữ liệu – thứ mà chúng ta có thể giám sát, theo dõi, định lượng và tối ưu hóa thông qua các phân tích.
Trong khi Digitization (số hóa) đang diễn ra xuyên suốt nhiều thập kỷ qua thì Datafication (dữ liệu hóa) là một hiện tượng tương đối mới. Datafication (dữ liệu hóa) có thể được xem là sự tiến hóa tiếp theo dựa trên Digitization (số hóa). Digitization cơ bản là nói về việc chuyển đổi thông tin (information) thành một định dạng dữ liệu (data format), còn Datafication thì nói nhiều hơn về sự tương tác giữa lĩnh vực kỹ thuật số với các đối tượng vật lý, các quy trình và các môi trường. Với điện toán di động và IoT (Internet of Things – Internet Vạn Vật), chúng ta hiện có tất cả các loại cảm biến trong các môi trường của mình và chúng ta bắt đầu chuyển đổi tất cả các loại đối tượng sang một định dạng dữ liệu. Ví dụ trong thực tế, chúng ta đã lắp đặt các cảm biến để giám sát tính toàn vẹn trong cấu trúc của một chiếc cầu, giám sát không gian bãi đậu xe, để thực hiện quét 3D một đối tượng rồi sau đó in nó ra hoặc để đo lường các mức độ hoạt động của một người đối với sức khỏe của họ .v.v. Dữ liệu hiện được tạo ra bởi mọi thứ và mọi người xung quanh chúng ta bao gồm không chỉ khối lượng thông tin trực tuyến (online) và ngoại tuyến (offline) đang ngày càng tăng lên mạnh mẽ, mà còn cả các thông tin về quá trình tìm kiếm trên web của chúng ta, những tương tác truyền thông xã hội, hàng tỷ thiết bị di động thông minh và hàng chục tỷ cảm biến thông minh IoT .v.v.
Tất cả những dữ liệu này làm chúng ta hiểu hơn về cơ sở hạ tầng kinh tế, xã hội và cơ sở hạ tầng của các đối tượng vật lý trên thế giới, không những thế chúng còn cho phép chúng ta “truyền trí tuệ dựa trên thông tin có được” vào mọi khía cạnh của sự quản lý và các hoạt động của chúng. Với Datafication chúng ta không thể chỉ báo cáo về những gì đang xảy ra trong hiện tại mà còn phân tích cách mà tương lai có thể diễn ra như thế nào và đưa ra các dự đoán cũng như những quyết định tốt hơn. Dữ liệu hiện đang được áp dụng cho Machine Learning (Học Máy), chúng giúp cho máy tính có khả năng học bằng cách tiêu thụ (ingest) và phân tích một lượng dữ liệu khổng lồ thay vì được lập trình một cách xác định rõ ràng. Nó là một cách thức mạnh mẽ để phát triển AI (Artificial Intelligence – Trí Tuệ Nhân Tạo). Digitization kết hợp với Datafication đã đưa AI đến điểm bùng nổ về sự chấp nhận của thị trường sau nhiều thập kỷ chỉ dừng lại mức tiềm năng hứa hẹn thì giờ đây AI dường như đang xuất hiện ở khắp mọi lĩnh vực.
Một ví dụ điển hình cho việc thực hiện Datafication để chuyển đổi từ một tổ chức thông thường sang một tổ chức được dẫn hướng bởi dữ liệu (data-driven enterprise) là công ty General Electric. Họ đã thực hiện quá trình chuyển đổi mô hình của mình từ một công ty công nghiệp (an industrial company) sang mô hình mà họ gọi là công ty công nghiệp kỹ thuật số (a digital industrial company). Ở đó General Electric tạo ra một bộ đôi kỹ thuật số cho từng sản phẩm của mình. Những thiết bị công nghệ hữu hình của họ hiện nay được bao quanh bởi các cảm biến và các bộ điều khiển có thể hút về một số lượng dữ liệu khổng lồ từ một động cơ phản lực, một turbine khí hoặc một turbine gió .v.v. tất cả những đối tượng vật thể này đều cung cấp dữ liệu theo thời gian thực về chính chúng, dữ liệu này đi vào một mô hình ảo của hệ thống, mô hình ảo này là độc nhất dành cho đối tượng đó. Bộ đôi kỹ thuật số này là một hình ảnh ảo dựa trên đám mây của một tài sản vật lý, được duy trì trong suốt vòng đời của tài sản đó và có thể dễ dàng truy cập.
Tương tự như vậy, ngày càng có nhiều hoạt động xã hội của chúng ta được chuyển thành một định dạng kỹ thuật số như Facebook dữ liệu hóa mối quan hệ bạn bè của một cá nhân, Linkedin dữ liệu hóa những thành tích chuyên môn của chúng ta, Google Maps dữ liệu hóa các địa điểm .v.v. Hiện tại có vô số các công nghệ khác nhau giúp một người có thể đo lường và giám sát những thứ trước đây khó hoặc không thể định lượng được từ việc sử dụng bao nhiêu năng lượng bao nhiêu nước, thói quen mua thực phẩm như thế nào, chất lượng không khí của khu vực sinh sống, thời gian ngủ và thức, biết khi nào chúng ta căng thẳng, cách chúng ta lái xe, cách chúng ta đánh răng .v.v. Chúng ta tạo ra dữ liệu mỗi khi chúng ta trò chuyện trên điện thoại, nhắn tin, xem video, rút tiền từ ATM, sử dụng thẻ tín dụng hay thậm chí là đi ngang qua một camera an ninh .v.v. hiện nay tất cả điều này đều có thể được đo lường, định lượng và so sánh.
Việc sử dụng chính của dữ liệu là để thao tác / vận dụng trong các chương trình máy tính – là các hệ thống chính thống (formal system). Vì vậy với Datafication (dữ liệu hóa), chúng ta có thể chuyển đổi bất cứ loại thông tin hay dữ liệu phi chính thống nào trong cuộc sống thực sang một định dạng có cấu trúc ảo và có thể sử dụng nó trong một hệ thống chính thống. Trong khi trước đây, với Digitization (số hóa) chúng ta đã chuyển đổi được nhiều dạng thông tin trong một định dạng có cấu trúc và có thể định lượng thành một dạng kỹ thuật số để chúng có thể truy cập được trong các chương trình máy tính cá nhân. Những gì chúng ta đang làm ngày nay là xây dựng các nền tảng (platforms) hoạt động như những máy tính nhưng ở cấp độ vĩ mô. Máy tính là một hệ thống thao tác / vận dụng dữ liệu theo một tập hợp các chỉ thị, trong khi trước đây dữ liệu và các chỉ thị này nằm bên trong một máy tính cá nhân, thì hiện nay với các nền tảng trực tuyến điện toán đám mây là các máy tính có các thuật toán của chúng chạy trong các trung tâm dữ liệu, chúng lấy dữ liệu về con người và mọi thứ rồi phân tích những dữ liệu đó để tạo ra một kết quả đầu ra.
Một xã hội nền tảng (a platform society) là nơi các công nghệ và đời sống xã hội của chúng ta ngày càng được truyền thông qua các nền tảng trực tuyến (online platforms). Cuộc sống phi chính thống và các hệ thống kỹ thuật của chúng ta đã được chuyển sang các nền tảng chính thống (formal platforms), cho dù đây là các trang web hẹn hò, nền tảng chia sẽ xe cộ hay lĩnh vực chăm sóc sức khỏe. Tất cả đều yêu cầu chúng ta dữ liệu hóa (datafy) mọi thứ trong thế giới và cuộc sống của mình rồi nhập các dữ liệu này vào một nền tảng, sau đó nền tảng này vận hành dựa trên các dữ liệu được đưa vào, phân tích nó để tạo ra cái nhìn thấu hiểu sâu sắc (insight), đưa ra các quyết định và kết hợp với những hệ thống khác nhau. Hệ quả của việc chuyển đổi ngày càng nhiều các hệ thống tổ chức của chúng ta sang những nền tảng tự động (automated platforms) này là chúng ta bắt đầu ngày càng gia tăng sự hiểu biết và sự quản lý các tổ chức cũng như mọi thứ thông qua các tập hợp nhiều điểm dữ liệu. Như một bức tranh thông tin đầy đủ hơn bao giờ hết về việc chúng ta là ai và môi trường thiết kế của chúng ta được biên dịch (compiled) thành các dòng mã code trong các hệ thống thông tin này. Đây là hành trình hiện tại của các nền kinh tế tiên tiến, biến mọi thứ thành dữ liệu để có thể đưa vào các nền tảng, các hệ thống chính thức và có thể được xử lý.
Quá trình của Datafication cho phép chúng ta thay đổi mọi nền tảng cơ bản (foundation) mà chúng ta đưa ra các quyết định tổ chức kinh tế và xã hội. Thay vì mọi người cố gắng dự đoán tốt nhất có thể trong bối cảnh thông tin không đầy đủ, thì Datafication sẽ đưa chúng ta vào một thế giới của các quyết định được đưa ra bởi thuật toán dựa trên lượng dữ liệu khổng lồ điều phối các nền tảng (platforms) thứ mà ngày càng xuất hiện nhiều hơn để làm trung gian cho mọi khía cạnh cuộc sống của chúng ta. Chúng ta đang sống trong một thế giới nơi mà tất cả các sự kiện và hoạt động hàng ngày của mình đều được tổng hợp và biên dịch thành một cơ sở khổng lồ của dữ liệu lớn và dữ liệu này liên tục được triển khai theo nhiều cách. Dữ liệu đã trở thành một nguồn tài nguyên khổng lồ của các chính phủ, các tổ chức và thậm chí là đối với từng cá nhân. Chúng ta đang trong quá trình số hóa mọi thứ, từ việc sử dụng dữ liệu đến DNA của mình và trong tương lai là sự tích hợp của DNA và các đối tượng xung quanh chúng ta. Vì vậy chúng ta cần nhận thức rõ ràng rằng chúng ta đang sống trong một môi trường có sự đan xen sâu sắc với các dữ liệu mà chúng ta tạo ra khi sử dụng các nền tảng công nghệ trên các thiết bị máy tính và di động của mình.
Web 3.0 là thế hệ thứ 3 của các dịch vụ Internet dành cho các website và các ứng dụng, tập trung vào việc sử dụng các hiểu biết dữ liệu dựa trên học máy (machine-learning) để cung cấp một website ngữ nghĩa học và định hướng bởi dữ liệu (a data-driven and semantic web). Mục tiêu lớn nhất của Web 3.0 là tạo ra một kiểu trang web thông minh hơn, có tính kết nối cao hơn và tính mở hơn so với thế hệ Web 2.0 (web application – ứng dụng web), giúp người dùng tìm kiếm được chính xác những gì họ muốn vì hệ thống hiểu được ngữ cảnh của truy vấn thay vì chỉ đơn giản là so sánh các từ khóa (key words) như cách thức đang triển khai hiện nay. Giả sử nếu một người dùng tìm kiếm một loại côn trùng có tên là Camaro và chỉ sử dụng duy nhất một từ “Camaro” đó để tìm kiếm thì 90% kết quả tìm kiếm sẽ cho ra mẫu xe Chevy Camaro vì chiếc xe là kết quả tìm kiếm phổ biến nhất và có thông tin sinh sôi nảy nở nhất. Tuy nhiên Web 3.0 có thể nhận biết được bối cảnh của người dùng và sau đó có thể cung cấp cho người dùng thông tin hữu ích nhất về côn trùng Camaro, chẳng hạn như môi trường sống của nó và thậm chí là nơi bán những món ngon được chế biến từ côn trùng Camaro. Web 3.0 có thể được ví như một trợ lý trí tuệ nhân tạo (AI assistant) hiểu người dùng của nó và cá nhân hóa mọi thứ. Cho đến hiện tại Web 3.0 vẫn đang trong giai đoạn sơ khởi của việc nghiên cứu và phát triển, và chưa được chính thức triển khai một cách hoàn chỉnh.
Sự khác nhau giữa các thế hệ Web
Thế hệ Web 1.0 là các trang web cung cấp thông tin tĩnh (static information) đơn thuần, nơi mọi người chỉ có thể đọc các thông tin được cung cấp nhưng hiếm khi có thể tương tác ngược lại, hiện nay các công nghệ và phương pháp của Web 1.0 vẫn được sử dụng cho các trang chuyên hiển thị các nội dung như văn bản luật hay một hướng dẫn cụ thể nào đó có dạng như – https://www.copyright.gov/title17/92preface.html – có thể nói, ưu điểm tốt nhất mà Web 1.0 mang lại là sự dân chủ hóa việc truy cập thông tin.
Đến thế hệ Web 2.0 các website đã tiến hóa thành các trang có tính tương tác và kết nối xã hội cao hơn, các trang web này cho phép sự cộng tác với nhau giữa những người dùng hay nói cách khác là người dùng không chỉ đơn thuần là người tiêu dùng nữa mà họ còn có thể đồng thời trở thành người sản xuất hoặc đồng sản xuất nội dung, điển hình như các trang Wikipedia, các blog, mạng xã hội, Youtube .v.v. Ưu điểm lớn nhất của thế hệ Web 2.0 chính là sự dân chủ hóa trong việc sản xuất nội dung. Và thế hệ Web 3.0 tiếp theo có tầm nhìn giả định sẽ thay đổi cả cách thức mà một website được tạo ra lẫn cách mà mọi người tương tác với chúng.
Web 3.0 là sự kết hợp các ưu điểm của Web 1.0 và Web 2.0 được xây dựng cùng với Trí Thông Minh Nhân Tạo (AI – Artificial Intelligence), Web Ngữ Nghĩa Học (Semantic Web), đồ họa 3D (3D Graphics), điện toán phân tán rộng khắp cùng lúc (Ubiqitous Computing) và các đặc tính phổ biến khác của trí tuệ con người. Trong Web 3.0, máy (machines) kết hợp ăn ý với người dùng trong việc sản xuất nội dung và ra quyết định, chuyển đổi vai trò hỗ trợ truyền thống của cơ sở hạ tầng Internet thành một thực thể giữ vai trò chủ đạo trong việc tạo ra nội dung/quy trình. Do đó, Web 3.0 có thể hợp nhất người dùng và máy tính cho các nhiệm vụ giải quyết vấn đề và các nhiệm vụ tạo ra kiến thức chuyên sâu. Với khả năng xử lý cực lớn, Web 3.0 có thể mang lại các sản phẩm/dịch vụ cho mọi người và doanh nghiệp có giá trị gia tăng cao, bởi vì sự quyết đoán (assertiveness) và khả năng tùy biến cao của chúng. Ưu điểm tuyệt vời của Web 3.0 là thúc đẩy dân chủ hóa năng lực hành động và khả năng tiếp nhận kiến thức, điều mà trước đây chỉ có thể được phép thực hiện đối với các doanh nghiệp lớn và các tổ chức chính phủ.
Ý tưởng đằng sau việc sử dụng AI xuất phát từ mục tiêu có khả năng cung cấp dữ liệu nhanh hơn, phù hợp hơn cho người dùng cuối một khi có yêu cầu truy vấn. Một trang web sử dụng AI có thể lọc qua và cung cấp dữ liệu mà nó nghĩ rằng một người dùng cụ thể nào đó sẽ cảm thấy những dữ liệu mà nó cung cấp là phù hợp với yêu cầu của họ. Tuy nhiên, phần lớn dữ liệu mà AI được “cho ăn” bởi con người nên kết quả của dữ liệu cũng có thể bị thao túng. Trường hợp điển hình là một nhóm người vì động cơ lợi ích nào đó họ có thể bỏ phiếu (vote) cho một trang web hoặc một bài viết cụ thể với mục đích làm cho nó trở nên phổ biến hơn, vậy nên nếu AI có thể học cách tách cái tốt ra khỏi cái xấu nó có thể tạo ra các kết quả thông minh với độ chính xác cực cao trong khi vẫn loại bỏ được các yếu tố xấu đó. Một trang web AI cũng sẽ giới thiệu các trợ lý ảo cho người dùng – một nhân tố công nghệ đang nổi lên hiện nay – các trợ lý ảo này đang xuất hiện bằng cách được tích hợp bên trong các thiết bị di động hoặc thông qua các ứng dụng của bên thứ ba cung cấp như Wolfram Alpha, ứng dụng Siri của Apple hay ứng dụng Alexa của Amazon. Giả sử, nếu một người dùng đang chuẩn bị cho một kỳ nghỉ, họ cần tìm kiếm các chuyến bay và chỗ ở giá rẻ cũng như các nhà hàng, họ phải xem qua rất nhiều thông tin trên các web để so sánh các lựa chọn khác nhau và việc tìm kiếm này có thể mất rất nhiều thời gian, nhưng các công cụ tìm kiếm hay trợ lý Web 3.0 sẽ có thể quét qua tất cả các thông tin này và trình bày cho người dùng một cách rất thông minh, thậm chí đưa ra các đề xuất có độ chính xác cao và thuận lợi dựa trên hồ sơ cá nhân (profile) của người dùng.
Ý tưởng đằng sau việc sử dụng Semantic Web là để phân loại và lưu trữ thông tin theo cách giúp dạy cho hệ thống hiểu được ý nghĩa của các dữ liệu cụ thể là gì. Nói cách khác, một trang web có thể tự nó hiểu được các từ ngữ được đặt ra trong các truy vấn tìm kiếm (search queries) giống như một con người, nhằm tạo ra và chia sẽ các nội dung tốt hơn. Hệ thống này cũng sẽ sử dụng AI, Semantic Web sẽ dạy cho một máy tính hiểu được ý nghĩa của các dữ liệu, sau đó AI sẽ lấy những thông tin này và sử dụng chúng. Hãy xem xét ví dụ sau để thấy được ý nghĩa của Semantic Web:
Đâu là sự khác nhau giữa hai câu “I love you” và “I <3 you” ? – Về mặt cú pháp, hai câu này thể hiện là khác nhau nhưng ngữ nghĩa (semantic) của chúng là giống hệt nhau. Ngữ nghĩa học (Semantics) giải quyết vấn đề về ý nghĩa và cảm xúc được truyền tải bởi dữ liệu, và trong trường hợp này cả hai câu đều thể hiện cùng một ý nghĩa giống nhau.
Web Semantic là tiền để để hình thành nên hệ thống siêu dữ liệu có cấu trúc ngữ nghĩa học (Sematic Metadata) để tạo ra một mạng nhện web của các dữ liệu kiến thức có liên kết với nhau trên Internet, giúp hệ thống hiểu được ý nghĩa của các từ ngữ để khởi tạo, chia sẽ và kết nối nội dung thông qua các hoạt động tìm kiếm và phân tích.
Ubiquitous Computing (Điện toán đa hiện diện / điện toán phân tán rộng khắp cùng lúc – một người dùng, nhiều thiết bị) đề cập đến việc xử lý nhúng (embedded processing) trong các thiết bị thường nhật, cho phép việc giao tiếp liên kết của các thiết bị trong một môi trường của người dùng. Chẳng hạn như, công cụ tìm kiếm (search engine) được nhúng vào một trợ lý xe hơi cung cấp cho người dùng câu trả lời có tính cá nhân hóa, được tính toán liên quan đến vị trí mà người dùng đang có mặt, đề xuất rạp chiếu phim gần nhất phù hợp với yêu cầu của họ và một nhà hàng món Ý chất lượng bằng cách tự động tham khảo các đánh giá trên các phương tiện truyền thông xã hội. Sau đó, nó thậm chí còn có thể hiển thị một menu 3D từ nhà hàng trong màn hình tìm kiếm của người dùng. Hay nói cách khác, Ubiquitous Computing là điện toán được tạo ra để xuất hiện ở khắp mọi nơi, Internet không chỉ xuất hiện trên máy tính để bàn như đối với Web 1.0 hoặc trên điện thoại thông minh như của Web 2.0, Ubiquitous Computing có thể xảy ra bằng cách sử dụng bất kỳ thiết bị nào, chẳng hạn như các thiết bị điện gia dụng thông minh (smart home appliances), ở bất kỳ vị trí nào và dưới bất kỳ định dạng nào. Đây được xem là đặc tính khác mà Web 3.0 sẽ có. Mô hình này giống với Internet of Things (IoT – Vạn Vật Kết Nối).
*Ubiquity / Ubiquitousness (tính đồng thời có mặt ở khắp nơi) có nghĩa là cùng một nội dung sẽ có thể truy cập bằng nhiều ứng dụng, mọi dịch vụ sẽ có sẵn trên mọi thiết bị và có thể truy cập từ bất cứ đâu.
Các công nghệ sẽ tạo nên các đặc tính này bao gồm vi định dạng (microformats), khai thác dữ liệu (data mining), tìm kiếm ngôn ngữ tự nhiên (nature language search) và học máy (machine learning). Web 3.0 cũng sẽ tập trung nhiều hơn vào các công nghệ ngang hàng (Peer-to-Peer) như Blockchain, các công nghệ khác như các giao diện lập trình ứng dụng mở (open APIs), các định dạng dữ liệu (data formats), phần mềm nguồn mở cũng có thể được sử dụng trong khi phát triển các ứng dụng Web 3.0
Web 2.0 đề cập đến các ứng dụng web (web applications) sử dụng nội dung do người dùng tạo ra cho người dùng cuối. Web 2.0 được sử dụng nhiều trong thế hệ các trang web hiện nay, chủ yếu tập trung vào sự tương tác và cộng tác của người dùng. Web 2.0 cũng tập trung vào cung cấp các kênh giao tiếp và kết nối mạng phổ quát hơn. Ví dụ như Evernote là một ứng dụng web rất tiện ích cho việc lưu trữ các ghi chú của người dùng trên một máy chủ, cho phép người dùng tạo nhóm và chú thích ghi chú của mình, hay như Facebook, Youtube đều là các ứng dụng web rất nổi tiếng và quen thuộc với chúng ta. Một ứng dụng web (web application) cung cấp một ứng dụng lẽ ra phải được cài đặt trực tiếp trên máy tính để bàn thì ứng dụng đó có thể truy cập được từ máy chủ (server) để người dùng không phải cài đặt chúng trên máy tính và bảo trì ứng dụng.
Sự khác biệt giữa Web 2.0 và Web 3.0 là Web 3.0 tập trung vào việc sử dụng các công nghệ như Machine Learning và AI để cung cấp nội dung phù hợp cho từng người dùng riêng biệt thay vì nội dung mà người dùng cuối khác đã cung cấp. Về cơ bản, Web 2.0 cho phép người dùng đóng góp và đôi khi là cộng tác trên nội dung trang, trong khi Web 3.0 rất có thể chuyển các công việc này sang Semantic Web và công nghệ AI.
Các giao thức như TCP/IP, HTTP, HTML .v.v. trong hệ thống World Wide Web đã cung cấp cho chúng ta cách để có thể nhận thông tin và trình diễn các dữ liệu siêu văn bản. Tuy nhiên, có một khối lượng khổng lồ các tài nguyên thông tin trên hệ thống web, điều này làm nảy sinh vấn đề là làm thế nào để tìm kiếm chính xác tài nguyên mà người dùng mong muốn. Dữ liệu trong các file HTML có thể hữu ích ở ngữ cảnh này nhưng vô nghĩa đối với ngữ cảnh khác.
Semantic Web ra đời nhằm mục đích sẽ làm cho các dịch vụ web trở nên thông minh hơn. Semantic Web không phải là một kiểu web riêng biệt mà là một sự mở rộng của web hiện tại theo cách các dữ liệu thông tin được xác định ý nghĩa tốt hơn, nó cho phép máy tính và người cộng tác với nhau hiệu quả hơn. Semantic Web là một mạng lưới các dữ liệu thông tin được liên kết sao cho chúng có thể được hiểu và được xử lý dễ dàng bởi các máy tính ở phạm vi toàn cầu. Nó được xem là cách mô tả dữ liệu thông tin rất hiệu quả trên World Wide Web, và cũng được xem là một cơ sở dữ liệu có khả năng liên kết toàn cầu. Semantic Web là một phương pháp cho phép định nghĩa và liên kết dữ liệu thông tin một cách có ngữ nghĩa nhằm phục vụ cho máy tính có thể hiểu được. Semantic Web còn cung cấp một môi trường chia sẽ và xử lý dữ liệu tự động bằng máy tính. Nói tóm lại Web hiện hành chỉ cho con người đọc chứ không dành cho máy hiểu, Semantic Web sẽ cung cấp ý nghĩa của các dữ liệu thông tin để cho máy hiểu được chúng. Ví dụ, như khi chúng ta thực hiện một tìm kiếm về thời gian chiếu của một bộ phim nào đó trên mạng, Web Semantic sẽ giúp chúng ta không chỉ nhận được thời gian chiếu của bộ phim mà còn cả các thông tin liên quan như những địa điểm có chiếu phim gần nhất, những phim nào bạn bè của bạn đang xem, những ý kiến từ bạn bè của chúng ta trên mạng xã hội đánh giá về bộ phim và có thể là nơi mà mọi người có dự định sẽ cùng nhau ăn tối sau khi xem phim .v.v.
Những thông tin mà con người thu được trực tiếp trên Web hiện nay có thể trả lời cho câu hỏi truy vấn đặt ra trong quá trình tìm kiếm của mình, nhưng đòi hỏi con người phải tự phân tích ý nghĩa của các dữ liệu và sự liên quan của dữ liệu đó với yêu cầu đề ra, chúng không thể được xử lý tự động bằng máy tính.Ví dụ:
- The Beatles là một ban nhạc nổi tiếng của thành phố Liverpool.
- John Lennon là một thành viên của The Beatles.
- Bản nhạc “Hey Dude” do nhóm The Beatles trình bày.
Những câu như thế này có thể hiểu bởi con người nhưng làm sao chúng có thể được hiểu bởi máy tính? Semantic Web là tất cả những gì về cách tạo một web mà cả người và máy có thể hiểu. Người dùng tin sẽ vẫn có thông tin trình bày theo cách trước đây, nhưng đối với máy tính, Semantic Web sẽ làm cho máy hiểu được nghĩa và tìm ra thông tin chính xác hơn web hiện hành. Bây giờ, máy không phải suy luận dựa vào ngữ pháp và các ngôn ngữ đánh dấu (Markup Language) nữa vì cấu trúc ngữ nghĩa của văn bản (text) thực sự đã chứa nó rồi. Mục tiêu của Semantic Web là phát triển các tiêu chuẩn và kĩ thuật để giúp máy hiểu nhiều thông tin trên web, để máy tìm ra các thông tin dồi dào hơn, tích hợp, duyệt dữ liệu, và tự động hóa các thao tác. Với Semantic Web, chúng ta không những nhận được những thông tin chính xác hơn khi tìm kiếm thông tin từ máy tính, mà máy tính còn có thể tích hợp thông tin từ nhiều nguồn khác nhau, biết so sánh các thông tin với nhau.
Vấn đề hiện nay là đa số các bộ máy tìm tin đều thực hiện cho phép người sử dụng có thể tạo các câu truy vấn gồm các từ khóa tìm kiếm để nhận về kết quả mong muốn. Tuy nhiên, phương pháp này gặp hai vấn đề chính sau đây:
- Mỗi từ khóa có thể có một hay nhiều ý nghĩa tùy theo từng ngữ cảnh và bộ máy tìm kiếm không thể hiện mối quan hệ giữa các từ khóa với nhau.
- Có thể các thông tin cùng ý nghĩa với thuật ngữ trong biểu thức tìm của người sử dụng sẽ không tồn tại trong kết quả tìm.
Ví dụ, ta cần tìm thông tin về người trưởng bộ môn công nghệ thông tin của MIT, ta gõ: “MIT information technology chair” vào Google, nhưng kết quả thu được là không chính xác. Nguyên nhân của việc tìm kiếm thất bại là do từ khoá “MIT” có nhiều ý nghĩa. Ngoài ra, máy tìm không thể hiểu mối liên hệ giữa các từ khoá MIT, information, technology và chair. Nếu bộ máy tìm kiếm được tích hợp tri thức để hiểu được ý nghĩa của các từ, thì rất có thể nó cho ta kết quả chính xác hơn, lúc đó việc tìm kiếm sẽ dựa trên khái niệm (concept) chứ không phải theo từ khóa (keyword). Internet ra đời đã mang lại nhiều hữu ích cho con người, đặc biệt là trong tìm kiếm thông tin. Tuy nhiên việc tìm tin trên mạng thường bị nhiễu và nhiều khi rất khó lựa chọn được thông tin cần thiết. Semantic Web ra đời hy vọng sẽ sớm khắc phục được những nhược điểm này, góp phần nâng cao hiệu quả của mạng toàn cầu trong việc tìm và khai thác thông tin của người dùng.