LÝ PHI PHI
TRUNG TÂM AI HƯỚNG CON NGƯỜI, ĐẠI HỌC STANFORD
10 THÁNG 11, 2025
LỜI GIỚI THIỆU CỦA NGƯỜI DỊCH
Sáng chủ
nhật 9/11/2025, tôi đã có cuộc nói chuyện liên quan tới trí năng hiện thân (embodied intelligence) trong cơ thể người.
Đây là đề tài tôi quan tâm thứ ba trong những
năm gần đây sau Ý thức, Trí năng nhân tạo. Tôi nghiêng theo hướng suy nghĩ rằng
chúng ta nhận thức thế giới, hình thành tư duy với sự kết hợp tâm và thân. Sáng nay tình cờ có một bạn trẻ gửi cho tôi bài
báo này của một nữ khoa học gia lừng danh Lý Phi Phi mà tôi vốn vô cùng ngưỡng
mộ.
Phải nói hơn 40 năm nay, kể từ khi đọc các công trình của Edward Witten, tôi mới
lại có sự phấn khích như vậy khi đọc một bài báo khoa học. Không phải là nội
dung khoa học và công nghệ có gì đặc sắc mà tầm nhìn, cách định hướng và hoạch định
sự phát triển cho cả một ngành với sự thông thái, sáng suốt và nhân văn làm tôi
vừa cảm phục vừa phấn khích.
Lý Phi Phi là Giáo sư khoa học máy tính
của Đại học Stanford, là Giám đốc Trung tâm AI hướng con người. Bà là một nhân
vật có hạng trong lĩnh vực AI và đã đạt được mọi thành công cần thiết. Tuy nhiên,
bà đã thành lập Phòng Thí nghiệm thế giới để ra khỏi vùng an toàn, dấn thân vào
một cuộc phiêu lưu mới đó là Trí năng không gian. Nếu thành công, bà sẽ bước chân
vào ngôi đền bất tử của Einstein và Turing là thần tượng tinh thần của bà. Không
thỏa mãn với thành công quá khứ, không ngần ngại bước vào miền đất mới chưa có
dấu chân người, đó là những điều tôi thán phục ở Einstein, Schrodinger,
Columbus,… và tiếp theo sẽ là Lý Phi Phi.
Tôi vẫn nghĩ đơn giản rằng trào lưu
khai thác AI vật lý hiện nay chỉ là việc gắn AI tạo sinh hiện tại dựa trên mô hình
ngôn ngữ lớn (LLM) vào các vật dụng, robot. Nhiều đồng nghiệp của tôi mà tôi đã
trao đổi cũng nghĩ thế. Tuy nhiên bài báo của Lý Phi Phi mở ra trước mắt tôi một
chân trời vô tận, trong đó việc tôi quan tâm tới Trí năng hiện thân (embodied
intelligence) của người đột nhiên lại trở thành trung tâm. Ở đó không những vật
lý, khoa học thần kinh, tâm sinh lý người sẽ giao hòa trong một tương lai rực rỡ
của AI, một thứ AI mới, nhân bản hơn và thay đổi tới căn cội cuộc sống của chúng
ta.
Với niềm phấn khích đó, tôi đã miệt mài
liên tục hơn 8 tiếng đồng hồ để hoàn thành bản dịch này, với hy vọng chia sẻ niềm
hân hoan này với mọi người. Điều kỳ lạ là AI dịch bài này vô cùng kém cỏi và
sai lạc một cách bất thường. Có thể vì tầm nghĩ của Lý Phi Phi vượt quá xa cách
nghĩ thông thường mà AI có thể xử lý. Do
không thể chờ đợi và phải hoàn thành nhanh, hơn nữa bài báo có quá nhiều tư tưởng,
tầm nhìn sâu sắc mà tôi cần thêm thời gian để lĩnh hội, chắc chắn bản dịch có nhiều sai sót, tôi để
song ngữ để bạn đọc có thể đối chiếu và phủ phê cho. Xin trân trọng cám ơn.
Năm 1950, khi tính toán hầu như chưa hơn gì công cụ tính toán tự động và logic đơn giản, Alan Turing đã đặt ra một câu hỏi vẫn còn vang vọng đến ngày nay: “Liệu máy móc có thể suy nghĩ được không?” Để nhìn thấy điều ông đã thấy khi đó đòi hỏi một trí tưởng tượng phi thường: rằng một ngày nào đó trí thông minh có thể được xây dựng chứ không chỉ sinh ra. Tư tưởng đó sau này đã khởi nguồn cho một cuộc truy tìm khoa học bền bỉ mang tên Trí năng Nhân tạo (AI). Hai mươi lăm năm trong sự nghiệp AI của mình, tôi vẫn thấy mình được truyền cảm hứng bởi tầm nhìn của Turing. Nhưng, chúng ta đã đến gần bao nhiêu với điều đó? Câu trả lời không hề đơn giản.
Ngày nay, các công nghệ AI hàng đầu như mô hình ngôn ngữ
lớn (LLM) đã bắt đầu thay đổi cách chúng ta tiếp cận và làm việc với tri
thức trừu tượng. Tuy nhiên, chúng vẫn chỉ là những “người thợ chữ trong bóng
tối”: hùng biện nhưng thiếu kinh nghiệm, uyên bác nhưng không có nền tảng. Trí
năng không gian (Spatial Intelligence) sẽ thay đổi cách ta sáng tạo và
tương tác với thế giới thực và ảo, sẽ cách mạng hóa việc kể chuyện, sáng tạo,
ngành robot, khám phá khoa học và hơn thế nữa. Đây chính là tiền tiêu tiếp
theo của AI.
Việc
theo đuổi trí năng thị giác và không gian đã là ngôi sao Bắc Đẩu dẫn đường cho
tôi từ khi bước chân vào lĩnh vực này. Đó là lý do tôi dành nhiều năm xây dựng
ImageNet, bộ dữ liệu học thị giác và đánh giá chuẩn quy mô lớn đầu tiên, và là
một trong ba yếu tố then chốt làm nên sự ra đời của AI hiện đại, bên cạnh các
thuật toán mạng nơ-ron và năng lực tính toán hiện đại như GPU. Cũng vì thế mà
phòng thí nghiệm học thuật của tôi tại Stanford đã dành suốt thập kỷ qua để kết
hợp thị giác máy tính với học robot. Và đó là lý do hơn một năm trước đây, tôi
cùng các đồng sáng lập Justin Johnson, Christoph Lassner và Ben Mildenhall lập
ra World Labs: để lần đầu tiên hiện thực hóa trọn vẹn khả năng này.
Trong bài viết này, tôi sẽ giải thích trí năng không gian là gì, vì sao nó quan
trọng, và chúng tôi đang xây dựng các mô hình thế giới để mở khóa nó như thế
nào, cùng với những tác động sẽ tái định hình sự sáng tạo, trí năng hiện thân
và tiến bộ của con người.
Trí năng không gian – Giàn giáo nhận thức con người
AI chưa bao giờ thú vị đến thế. Các mô hình sinh tạo như LLM đã ra khỏi phòng thí nghiệm bước vào đời sống hành ngày, trở thành công cụ sáng tạo, năng suất và giao tiếp cho hàng tỷ người. Chúng đã chứng tỏ những năng lực mà một thời người ta nghĩ là không thể, tạo sinh ra văn bản mạch lạc, hàng núi mã nguồn, những tranh ảnh thật như in, và thậm chỉ cả những video ngắn dễ dàng. Không còn nghi ngờ gì về việc liệu AI sẽ thay đổi thế giới. Nó đã làm điều đó theo bất cứ định nghĩa hợp lý nào.
Nhưng vẫn còn nhiều thứ nằm ngoài tầm với của chúng ta. Viễn kiến về robot tự chủ thật lôi cuốn nhưng vẫn chỉ là viễn tưởng, những đồ gia dụng mà các nhà tương lai học hứa hẹn từ lâu còn xa mới tới. Giấc mơ về các nghiên cứu tăng tốc lớn trong các lĩnh vực như chữa bệnh, phát hiện vật liệu mới và vật lý hạt phần lớn vẫn chưa thành hiện thực. Và lời hứa hẹn của AI về thật sự hiểu và trao quyền sáng thế cho con người, cho dù từ các sinh viên học các khái niệm rắc rối của hóa phân tử, các nhà kiến trúc đang hiển thị các không gian, đến các nhà làm phim đang tạo những thế giới ảo hoặc bất cứ ai đang tìm kiếm các trải nghiệm nhập vai ảo – đều vẫn ngoài tầm với.
Để hiểu vì sao những năng lực này vẫn còn xa vời, chúng ta cần xem xét trí năng không gian đã tiến hóa như thế nào, và nó định hình cách chúng ta hiểu thế giới ra sao.
Thị giác từ lâu đã là nền tảng của trí năng con người, nhưng sức mạnh của nó bắt nguồn từ một điều còn căn bản hơn thế nữa. Từ rất lâu trước khi các loài động vật biết làm tổ, chăm sóc con nhỏ, giao tiếp bằng ngôn ngữ hay xây dựng nên các nền văn minh, hành động cảm nhận đơn giản đã lặng lẽ khơi dậy một hành trình tiến hóa hướng đến trí năng.
Năng lực tưởng như đơn lẻ để thu nhận thông tin từ thế giới bên ngoài, dù chỉ là một tia sáng le lói hay cảm giác về bề mặt vật thể, đã tạo nên một cây cầu nối giữa tri giác và sinh tồn, ngày càng lớn mạnh và được gia công tinh vi hơn qua từng thế hệ. Từng lớp neuron hình thành từ cây cầu đó, kết nối lại thành hệ thần kinh, diễn giải thế giới và phối hợp hành động giữa các sinh thể và môi trường xung quanh. Vì vậy, nhiều nhà khoa học dự đoán rằng cảm nhận (perception) và hành động (action) chính là vòng lặp cốt lõi thúc đẩy sự tiến hóa của trí năng, và là nền tảng tự nhiên tạo nên loài người chúng ta — sinh vật tối hậu thể hiện trọn vẹn khả năng cảm nhận, học hỏi, tư duy và hành động.
Trí năng không gian giữ vai trò nền tảng trong cách con người tương tác với thế giới vật lý. Mỗi ngày, chúng ta dựa vào nó để thực hiện những hành động tưởng như bình thường nhất: đỗ xe bằng cách tưởng tượng khoảng cách đang thu hẹp giữa cản xe và mép vỉa hè; bắt lấy chùm chìa khóa được ném từ bên kia phòng; đi giữa đám đông mà không va chạm; hay rót cà phê vào cốc trong trạng thái ngái ngủ mà chẳng cần nhìn.
Trong những tình huống khắc nghiệt hơn, những người lính cứu hỏa phải đi lại trong tòa nhà đang sụp đổ, xuyên qua làn khói thay đổi liên tục, đưa ra quyết định trong tích tắc về sự ổn định và sống sót, giao tiếp với nhau bằng cử chỉ, ngôn ngữ cơ thể cùng bản năng nghề nghiệp chung, điều mà không một ngôn ngữ nào có thể thay thế. Còn trẻ em, sử dụng hoàn toàn những tháng năm chưa biết nói, để học về thế giới bằng những tương tác chơi đùa với môi trường xung quanh. Mọi điều này diễn ra một cách trực giác, tự động — một sự trôi chảy mà máy móc vẫn chưa thể đạt tới.
Trí năng không gian cũng là nền tảng của trí tưởng tượng và sức sáng tạo của chúng ta. Những người kể chuyện tạo ra những thế giới phong phú độc đáo trong tâm trí của mình và sử dụng các hình thức truyền đạt thị giác khác nhau để đem đến cho người khác, từ tranh vẽ trong hang động thời tiền sử, đến điện ảnh hiện đại, hay trò chơi điện tử nhập vai sống động. Dù đó là trẻ em đang xây lâu đài cát trên bãi biển hay chơi Minecraft trên máy tính, thì trí tưởng tượng có nền tảng không gian vẫn là cơ sở cho mọi trải nghiệm tương tác, trong cả thế giới thực lẫn thế giới ảo. Trong nhiều ứng dụng công nghiệp, các mô phỏng vật thể, cảnh quan và môi trường tương tác động đang tạo động lực cho vô số ứng dụng quan trọng, từ thiết kế công nghiệp, đến mô hình song sinh số (digital twin) đến huấn luyện robot.
Lịch sử nhân loại tràn ngập những thời khắc định hình nền văn minh, nơi trí năng không gian đã từng đóng vai trò trung tâm. Ở thời Hy Lạp cổ đại, Eratosthenes đã biến bóng nắng thành hình học, ông đo được góc 7 độ tại Alexandria, đúng thời điểm mặt trời không tạo bóng ở Syene, để từ đó tính ra chu vi Trái Đất. Hargreaves, với phát minh “Jenny xoay tít”, đã cách mạng hóa ngành dệt nhờ một trực giác không gian: bằng cách xếp nhiều trục quay song song trong cùng một khung, một công nhân có thể se nhiều sợi chỉ cùng một lúc, làm năng suất tăng lên gấp tám lần. Watson và Crick khám phá cấu trúc ADN bằng cách dựng những mô hình phân tử 3D vật lý, ghép nối các tấm kim loại và sợi dây cho đến khi cấu trúc không gian của các cặp base khớp lại hoàn hảo. Trong tất cả những trường hợp ấy, trí năng không gian là động lực thúc đẩy văn minh tiến lên, bởi các nhà khoa học và nhà phát minh đều phải thao tác với vật thể, hình dung các cấu trúc, và suy luận về các không gian vật lý, những điều ngôn từ đơn thuần không bao giờ diễn đạt hết.
Trí
năng không gian là bộ giàn giáo mà trên đó toàn bộ nhận thức của chúng ta được
xây dựng lên. Nó hoạt động cả khi ta quan sát thụ động lẫn khi ta chủ động sáng
tạo. Nó dẫn dắt việc suy luận và lập kế hoạch, ngay cả trong những chủ đề trừu
tượng nhất. Và nó là thiết yếu trong cách chúng ta tương tác – dù là bằng lời
nói hay hành động, với đối tác hay với môi trường xung quanh.
Dẫu hầu hết chúng ta không thường xuyên khám phá ra những chân lý mới vĩ đại như Eratosthenes, nhưng ta vẫn bất giác tư duy theo cùng một cách thức: hiểu thế giới phức tạp bằng cách cảm nhận nó qua các giác quan, rồi dựa vào trực giác không gian để suy ra cách thức nó vận hành theo nghĩa không gian, vật lý.
Đáng tiếc là, AI ngày nay vẫn chưa thể tư duy theo cách đó.
Trong vài năm qua, những bước tiến vượt bậc thực sự đã được đạt tới. Các mô hình ngôn ngữ lớn đa phương thức (Multimodal LLMs – MLLMs), được huấn luyện không chỉ bằng dữ liệu văn bản mà còn bằng lượng lớn dữ liệu đa phương tiện, đã bắt đầu hình thành những năng lực nhận thức không gian cơ bản, và ngày nay, AI đã có thể phân tích hình ảnh, trả lời các câu hỏi liên quan đến chúng, và tạo ra hình ảnh hoặc video ngắn siêu chân thực. Đồng thời, nhờ những đột phá trong công nghệ cảm biến và xúc giác (haptics), các robot tiên tiến nhất của chúng ta đã bắt đầu có khả năng thao tác với các đối tượng và công cụ trong những môi trường bị ràng buộc chặt chẽ.
Tuy nhiên, sự thật thẳng thắn là: khả năng không gian của AI vẫn còn cách rất xa so với con người. Và những giới hạn ấy bộc lộ rất nhanh. Các mô hình MLLM tiên tiến nhất hiện nay hiếm khi đạt kết quả tốt hơn mức ngẫu nhiên khi ước lượng khoảng cách, hướng hoặc kích thước — hay khi cố gắng “xoay vật thể trong đầu” bằng cách tái tạo chúng từ các góc nhìn khác nhau. Chúng không thể tự định hướng trong mê cung, nhận biết lối đi tắt, hay dự đoán các quy luật vật lý cơ bản. Các video do AI tạo ra – dù còn non trẻ và đúng là rất ấn tượng – thường mất tính mạch lạc chỉ sau vài giây.
Mặc dù các hệ thống AI tiên tiến nhất hiện nay có thể xuất sắc trong việc đọc, viết, nghiên cứu và nhận dạng mẫu trong dữ liệu, cũng các mô hình đó vẫn còn mang trong mình những giới hạn căn bản khi phải biểu diễn hoặc tương tác với thế giới vật lý. Cách chúng ta nhìn thế giới là toàn thể – không chỉ là những gì ta đang nhìn, mà còn là cách mọi thứ liên hệ với nhau trong không gian, ý nghĩa của điều đó, và vì sao nó quan trọng. Hiểu được những mối liên hệ ấy thông qua trí tưởng tượng, lý luận, sáng tạo và tương tác – chứ không chỉ qua mô tả bằng lời – chính là sức mạnh của trí năng không gian. Không có năng lực ấy, AI bị tách rời khỏi thực tại vật lý mà nó muốn hiểu. Nó không thể lái xe một cách hiệu quả, không thể hướng dẫn robot trong nhà hay trong bệnh viện, không thể tạo ra những hình thức trải nghiệm nhập vai và tương tác hoàn toàn mới cho học tập và giải trí, hoặc cũng không thể đẩy nhanh hơn quá trình khám phá khoa vật liệu hay nghiên cứu y học.
Nhà triết học Wittgenstein từng viết rằng: “Giới hạn ngôn ngữ của tôi cũng là giới hạn của thế giới trong tôi.” Tôi không phải là một triết gia, nhưng tôi biết ít nhất là đối với AI, thế giới không chỉ được tạo nên từ ngôn từ. Trí năng không gian chính là biên giới vượt ra ngoài ngôn ngữ — năng lực kết nối giữa trí tưởng tượng, tri giác và hành động, và mở ra khả năng để máy móc thật sự nâng cao đời sống con người — từ y tế đến sáng tạo, từ khám phá khoa học đến hỗ trợ đời sống hằng ngày.
Thập niên tới của AI:
Xây dựng những cỗ máy thực sự có Trí năng không gian
Vậy
làm thế nào để chúng ta xây dựng được AI có Trí năng không gian? Đâu là con
đường dẫn tới những mô hình có thể suy luận với tầm nhìn của Eratosthenes, thiết
kế kỹ thuật với độ chính xác của một nhà thiết kế công nghiệp, sáng tạo với trí
tưởng tượng của một người kể chuyện, và tương tác với môi trường xung quanh với
sự thuần thục của một nhân viên cứu hộ?
Xây dựng AI có trí năng không gian đòi hỏi điều gì đó tham
vọng hơn cả các mô hình ngôn ngữ lớn (LLM): đó là mô hình thế giới (world
model) – một loại mô hình tạo sinh mới, có khả năng hiểu, suy luận, tạo sinh và
tương tác với những thế giới phức tạp về ngữ nghĩa, vật lý, hình học và động
học, dù là ảo hay thực, vượt xa tầm với của các LLM hiện nay. Lĩnh vực này vẫn
đang ở giai đoạn sơ khai, với các phương pháp hiện tại trải rộng từ mô hình suy
luận trừu tượng đến hệ thống sinh tạo video. World Labs được thành lập vào đầu
năm 2024 dựa trên niềm tin ấy: rằng những cách tiếp cận nền tảng vẫn đang được thiết
lập, làm cho điều này trở thành thách thức mang tính quyết định của thập niên
tới.
Trong lĩnh vực mới nổi này, điều quan trọng nhất là xác lập
những nguyên lý định hướng cho sự phát triển. Đối với Trí năng không gian, tôi
định nghĩa mô hình thế giới thông qua ba năng lực cốt lõi:
1. Mô hình thế giới có thể tạo sinh các thế giới với sự phù hợp nhận thức, hình học và vật lý
Các mô hình thế giới có thể mở khóa khả năng hiểu và suy
luận không gian cũng cần phải có năng lực tự sinh ra các thế giới mô phỏng của
riêng mình. Chúng phải có khả năng tạo ra vô số thế giới mô phỏng đa dạng và phong phú, dựa
trên chỉ dẫn ngữ nghĩa hoặc cảm nhận, đồng thời vẫn duy trì được tính nhất quán
về hình học, vật lý và động lực học — dù đó là các không gian thực hay ảo. Giới
nghiên cứu hiện đang tích cực tìm hiểu liệu những thế giới này nên được biểu
diễn ngầm (implicitly) hay hiển thị rõ ràng (explicitly) theo cấu trúc hình học
vốn có của chúng. Bên cạnh các dạng biểu diễn tiềm ẩn mạnh mẽ (latent
representations), tôi tin rằng đầu ra của một mô hình thế giới phổ quát cũng
cần cho phép tạo ra các trạng thái cụ thể, có thể quan sát được của những thế
giới ấy — phục vụ nhiều mục đích khác nhau. Đặc biệt, sự hiểu biết của mô hình
về hiện tại phải được gắn kết chặt chẽ với quá khứ — với những trạng thái của
thế giới trước đó đã dẫn tới trạng thái hiện nay.
2. Tính đa phương thức: Mô hình thế giới được thiết kế đa
phương thức ngay từ bản chất
Cũng như động vật và con người, một mô hình thế giới cần có
khả năng xử lý các đầu vào - trong lĩnh vực AI sinh tạo thường được gọi là “prompt”
– dưới nhiều dạng khác nhau. Khi chỉ có thông tin không đầy đủ — dù là hình
ảnh, video, bản đồ độ sâu, hướng dẫn bằng văn bản, cử chỉ hay hành động — mô
hình thế giới vẫn phải có thể dự đoán hoặc sinh ra trạng thái thế giới hoàn
chỉnh nhất có thể. Điều đó đòi hỏi phải xử lý tín hiệu thị giác với độ trung
thực tương đương thị giác thật, đồng thời hiểu và diễn giải được các chỉ dẫn
ngữ nghĩa với mức độ linh hoạt tương tự. Nhờ vậy, cả các tác nhân AI (agents)
lẫn con người đều có thể giao tiếp với mô hình thông qua nhiều loại đầu vào
khác nhau, và tiếp nhận các đầu ra đa dạng tương ứng.
3. Tính tương tác: Mô
hình thế giới có thể sinh ra trạng thái tiếp theo của thế giới dựa trên hành
động đầu vào
Cuối cùng, khi các hành động và/hoặc mục tiêu là một phần
của tín hiệu đầu vào (prompt) gửi đến mô hình thế giới, thì đầu ra của mô hình
phải bao gồm trạng thái kế tiếp của thế giới, được biểu diễn dưới dạng ngầm định
(implicit) hoặc hiện rõ (explicit). Khi mô hình chỉ nhận được một hành động –
có hoặc không có trạng thái mục tiêu đi kèm – nó phải sinh ra đầu ra nhất quán
với trạng thái trước đó của thế giới, với mục tiêu dự định (nếu có), đồng thời tuân
thủ các quy luật ngữ nghĩa, quy luật vật lý và hành vi động học của thế giới đó.
Khi các mô hình thế giới có trí năng không gian ngày càng trở nên mạnh mẽ và
vững chắc hơn trong khả năng suy luận và tạo sinh, có thể hình dung rằng trong
trường hợp có một mục tiêu cụ thể, chính mô hình thế giới sẽ không chỉ dự đoán
được trạng thái kế tiếp của thế giới, mà còn dự đoán được cả những hành động kế
tiếp dựa trên trạng thái mới vừa được sinh ra.
Quy mô của thách thức này vượt xa bất kỳ điều gì mà AI từng
đối mặt.
Nếu ngôn ngữ chỉ là hiện
tượng tạo sinh thuần túy của nhận thức con người, thì “thế giới” lại vận hành
theo những quy luật phức tạp hơn rất nhiều. Ngay ở trên Trái Đất này, ví dụ, hấp
dẫn chi phối chuyển động, cấu trúc nguyên tử quyết định ánh sáng tạo ra màu sắc
và độ sáng như thế nào, và vô số quy luật vật lý khác ràng buộc mọi tương tác. Ngay
cả những thế giới giàu tưởng tượng nhất, nhiều tính sáng tạo đến đâu, cũng được
cấu thành từ các vật thể và tác nhân có tính không gian, vốn vẫn phải tuân theo
những quy luật vật lý và hành vi động học xác định nên chúng. Để hợp nhất tất
cả những yếu tố ấy một cách nhất quán — từ ngữ nghĩa, hình học, đến động lực
học và vật lý — đòi hỏi các phương pháp hoàn toàn mới. Không gian biểu diễn của
một “thế giới” phức tạp hơn rất nhiều so với tín hiệu một chiều và tuần tự như
ngôn ngữ. Để đạt được những mô hình thế giới có thể mang lại năng lực phổ quát
như con người đang có, chúng ta phải vượt qua hàng loạt rào cản kỹ thuật to lớn.
Tại World Labs, các nhóm nghiên cứu của chúng tôi đang tập trung vào những bước
tiến nền tảng nhằm tiến gần hơn đến mục tiêu đó.
Sau đây là một số ví dụ về các đề tài nghiên cứu hiện tại của
chúng tôi
·
Một chức năng nhiệm vụ huấn luyện mang
tính phổ quát mới: Việc xác định một hàm nhiệm vụ thống nhất, đơn giản và
thanh nhã như bài toán dự đoán token kế tiếp trong các mô hình ngôn ngữ lớn
(LLM), từ lâu đã là mục tiêu trung tâm của nghiên cứu về mô hình thế giới. Tuy
nhiên, độ phức tạp của cả không gian đầu vào và đầu ra khiến cho việc xây dựng
một hàm như vậy trở nên khó khăn hơn về bản chất. Dù vẫn còn rất nhiều điều cần
khám phá, hàm mục tiêu này cùng với các biểu diễn tương ứng của nó phải phản
ánh được các quy luật của hình học và vật lý, thể hiện đúng bản chất nền tảng
của mô hình thế giới — như một dạng biểu diễn có căn cứ trong cả tưởng tượng
lẫn hiện thực.
· Dữ liệu huấn luyện quy mô lớn: Việc huấn luyện các mô hình thế giới đòi hỏi loại dữ liệu phức tạp hơn nhiều so với dữ liệu văn bản thông thường. Tin tốt là các nguồn dữ liệu khổng lồ đã sẵn có: các kho hình ảnh và video ở quy mô Internet cung cấp nguồn dữ liệu dồi dào và dễ tiếp cận cho quá trình huấn luyện. Thách thức nằm ở chỗ phát triển các thuật toán có thể trích xuất thông tin không gian sâu hơn từ các tín hiệu hai chiều như hình ảnh hoặc khung hình video (RGB). Các nghiên cứu trong thập kỷ qua đã chứng minh sức mạnh của các quy luật mở rộng, cho thấy mối liên hệ giữa khối lượng dữ liệu và kích thước mô hình trong các mô hình ngôn ngữ. Chìa khóa mở ra cho mô hình thế giới nằm ở việc xây dựng những kiến trúc có thể tận dụng dữ liệu hình ảnh sẵn có ở cùng quy mô đó. Ngoài ra, tôi không xem nhẹ giá trị của dữ liệu tổng hợp chất lượng cao cùng với các dạng dữ liệu bổ sung khác, như bản đồ độ sâu hay thông tin xúc giác (tactile data). Chúng bổ trợ cho dữ liệu ở quy mô Internet trong những giai đoạn then chốt của quá trình huấn luyện. Tuy nhiên, con đường phía trước vẫn phụ thuộc vào việc phát triển các hệ thống cảm biến tốt hơn, thuật toán trích xuất tín hiệu mạnh mẽ hơn, và các phương pháp mô phỏng thần kinh (neural simulation) vượt trội hơn nhiều so với hiện nay.
· Kiến trúc mô hình mới và học biểu diễn: Nghiên cứu về mô hình thế giới chắc chắn sẽ thúc đẩy các bước tiến trong kiến trúc mô hình và thuật toán học, đặc biệt là vượt ra ngoài những khuôn khổ MLLM và mô hình khuếch tán video (video diffusion) hiện nay. Cả hai hướng tiếp cận hiện tại này đều mã hóa dữ liệu thành chuỗi 1 chiều hoặc 2 chiều, khiến cho những nhiệm vụ không gian đơn giản trở nên khó khăn một cách không cần thiết, chẳng hạn như đếm số chiếc ghế khác nhau trong một đoạn video ngắn, hoặc ghi nhớ hình dạng căn phòng cách đó một giờ. Những kiến trúc thay thế có thể mang lại giải pháp, chẳng hạn các phương pháp nhận thức 3D hoặc 4D trong mã hóa (tokenization), ngữ cảnh (context) và trí nhớ (memory). Chẳng hạn, tại World Labs, công trình gần đây của chúng tôi về mô hình tạo sinh theo khung hình thời gian thực mang tên RTFM (Real-Time Frame-based Model) đã cho thấy sự chuyển dịch quan trọng này: mô hình sử dụng các khung hình gắn với không gian (spatially-grounded frames) như một dạng trí nhớ không gian, cho phép sinh tạo thời gian thực một cách hiệu quả, đồng thời duy trì được tính liên tục và nhất quán trong thế giới được tạo ra.
Rõ ràng, chúng ta vẫn đang đối mặt với những thách thức to
lớn trước khi có thể hoàn toàn khai mở trí năng không gian thông qua mô hình
thế giới. Công trình nghiên cứu này không chỉ là một bài tập lý thuyết, mà còn
là động cơ cốt lõi cho một thế hệ mới các công cụ sáng tạo và năng suất. Những
tiến triển tại World Labs đến nay rất đáng khích lệ. Gần đây, chúng tôi đã chia
sẻ với một nhóm người dùng giới hạn bản trình diễn đầu tiên của Marble, mô hình
thế giới đầu tiên có thể được điều khiển bằng các đầu vào đa phương thức để tạo
ra và duy trì các môi trường 3D nhất quán cho người dùng và các nhà kể chuyện có
thể khám phá, tương tác và tiếp tục xây dựng trong tiến trình sáng tạo của họ.
Và chúng tôi đang nỗ lực để sớm đưa Marble ra công chúng!
Marble mới chỉ là bước đầu tiên của chúng tôi trong hành
trình xây dựng một mô hình thế giới thật sự sở hữu Trí năng không gian. Khi
tiến độ nghiên cứu ngày càng được đẩy nhanh, các nhà khoa học, kỹ sư, người
dùng và cả các nhà lãnh đạo doanh nghiệp đều bắt đầu nhận ra tiềm năng phi
thường của công nghệ này. Thế hệ tiếp theo của các mô hình thế giới sẽ cho phép
máy móc đạt tới Trí năng không gian ở một cấp độ hoàn toàn mới — một thành tựu
sẽ mở khóa những năng lực cốt lõi mà các hệ thống AI hiện nay vẫn còn thiếu
vắng.
Sử dụng mô hình thế giới để xây dựng một thế giới tốt đẹp
hơn cho con người
Điều thúc đẩy sự phát triển của AI có ý nghĩa quan trọng. Với
tư cách là một trong những nhà khoa học đã góp phần mở ra kỷ nguyên AI hiện đại,
động lực của tôi luôn rõ ràng: AI phải tăng cường năng lực của con người, chứ
không thay thế con người. Trong nhiều năm, tôi đã làm việc để hướng việc phát
triển, triển khai và quản trị AI tới nhu cầu của con người. Ngày nay, ta nghe
quá nhiều câu chuyện cực đoan, từ thiên đường đến tận thế công nghệ, nhưng tôi
vẫn tiếp tục giữ quan điểm thực tế hơn: AI được con người tạo ra, con người sử
dụng, và con người quản lý. Nó luôn phải tôn trọng quyền tự chủ và phẩm giá của
con người. Sức mạnh kỳ diệu của AI nằm ở chỗ nó mở rộng khả năng của chúng ta, giúp
chúng ta sáng tạo hơn, kết nối hơn, hiệu quả hơn và viên mãn hơn. Trí năng
không gian chính là biểu hiện của tầm nhìn đó: AI trao quyền cho nhà sáng tạo, người
chăm sóc, nhà khoa học và người mơ mộng bằng xương thịt, để họ thực hiện được những điều từng được xem
là không thể. Niềm tin ấy chính là động lực khiến tôi dấn thân vào trí năng
không gian như tuyến tiền tiêu vĩ đại tiếp theo của AI.
Các ứng dụng của trí năng không
gian trải dài trên nhiều mốc thời gian khác nhau. Những công cụ sáng tạo đang xuất
hiện ngay lúc này — như Marble của World Labs, vốn đã đưa năng lực này trực
tiếp vào tay các nhà sáng tạo và người kể chuyện. Môn robot học đại diện cho chân
trời trung hạn đầy tham vọng, khi chúng ta đang tinh chỉnh vòng lặp giữa tri
giác và hành động. Còn các ứng dụng khoa học mang tính chuyển hóa sâu sắc nhất
sẽ mất nhiều thời gian hơn, nhưng hứa hẹn tạo ra tác động lớn lao đối với sự
phát triển của con người.
Trên toàn bộ những mốc thời
gian đó, có một số lĩnh vực nổi bật với tiềm năng định hình lại năng lực con
người. Điều này cần có nỗ lực tập thể quy mô lớn, vượt xa khả năng của một nhóm
hay một công ty đơn lẻ. Nó đòi hỏi sự tham gia của toàn bộ hệ sinh thái AI: từ các
nhà nghiên cứu, nhà đổi mới, doanh nhân, doanh nghiệp, cho tới nhà hoạch định
chính sách, tất cả cùng hướng về một tầm nhìn chung. Và tầm nhìn ấy xứng đáng
để chúng ta theo đuổi. Dưới đây là những gì tương lai đang mở ra:
Sáng tạo: Nâng tầm kể chuyện và trải nghiệm nhập vai
“Sáng tạo là trí năng của vui thú.”
Đây là một trong những câu nói yêu thích của tôi, đến từ thần tượng cá nhân là
Albert Einstein. Từ rất lâu trước khi ngôn ngữ viết ra đời, con người đã kể
chuyện — đã vẽ chúng lên vách hang, truyền miệng qua nhiều thế hệ, và xây dựng
nên cả những nền văn hóa dựa trên những câu chuyện chung. Những câu chuyện
chính là cách chúng ta hiểu thế giới, kết nối vượt qua không gian và thời gian,
khám phá ý nghĩa của việc làm người, và trên hết là tìm thấy ý nghĩa của cuộc
sống và tình yêu trong chính bản thân mình. Ngày nay, trí năng không gian có
tiềm năng thay đổi tận gốc cách chúng ta sáng tạo và trải nghiệm các câu chuyện,
theo một cách vừa tôn vinh tầm quan trọng cốt lõi của chúng, vừa mở rộng ảnh
hưởng từ giải trí đến giáo dục, từ thiết kế đến xây dựng.
Nền tảng Marble của World Labs
sẽ đặt vào tay các nhà làm phim, nhà thiết kế trò chơi, kiến trúc sư và người
kể chuyện ở mọi lĩnh vực những khả năng không gian chưa từng có cùng mức độ
kiểm soát biên tập tinh vi. Nhờ đó, họ có thể nhanh chóng tạo ra và thử nghiệm
liên tục những thế giới 3D có thể khám phá hoàn toàn, mà không cần gánh nặng
của các phần mềm thiết kế 3D truyền thống. Hành động sáng tạo vẫn giữ nguyên tính
sống động và bản chất con người của nó: các công cụ AI chỉ đơn giản là khuếch
đại và tăng tốc những gì mà người sáng tạo có thể đạt được. Điều này bao gồm:
· Trải nghiệm kể chuyện trong những chiều kích mới: Các nhà làm phim và nhà thiết kế trò chơi đang sử dụng Marble để dự báo toàn bộ các thế giới không còn bị giới hạn bởi ngân sách hay địa lý, mở rộng khả năng khám phá vô số bối cảnh và góc nhìn vốn không thể thực hiện được trong quy trình sản xuất truyền thống. Khi ranh giới giữa các loại hình truyền thông và giải trí ngày càng mờ dần, chúng ta đang tiến gần tới một hình thái trải nghiệm tương tác hoàn toàn mới, nơi nghệ thuật, mô phỏng và trò chơi hòa quyện vào nhau — tạo nên những thế giới cá nhân hóa, nơi bất kỳ ai, không chỉ các hãng phim, đều có thể tạo dựng và sống trong câu chuyện của riêng mình. Với sự xuất hiện của những công cụ mới giúp chuyển hóa ý tưởng và bản phác thảo thành trải nghiệm hoàn chỉnh nhanh hơn bao giờ hết, câu chuyện sẽ không còn bị ràng buộc trong một loại hình duy nhất — các nhà sáng tạo được tự do xây dựng những thế giới có mạch truyện xuyên suốt, trải dài qua nhiều bề mặt và nền tảng khác nhau.
· Câu chuyện không gian qua thiết kế: Gần như mọi vật thể được chế tạo hay không gian được xây dựng đều phải được thiết kế trong không gian 3D ảo trước sáng tạo đời thực. Quy trình này thường lặp lại nhiều lần và tốn kém về cả thời gian lẫn chi phí. Với các mô hình có trí năng không gian, kiến trúc sư có thể nhanh chóng hình dung công trình trước khi bỏ ra nhiều tháng cho bản thiết kế, có thể dạo chơi trong những không gian chưa từng tồn tại - thực chất là đang kể những câu chuyện về cách con người có thể sống, làm việc và gặp gỡ nhau. Các nhà thiết kế công nghiệp hay thời trang cũng có thể biến tưởng tượng thành hình dạng ngay lập tức, thử nghiệm cách mà các vật thể tương tác với cơ thể và không gian quanh con người.
· Những trải nghiệm nhập vai và tương tác mới: Trải nghiệm chính là một trong những cách sâu sắc nhất mà chúng ta, với tư cách là một loài, tạo ra ý nghĩa. Suốt chiều dài lịch sử, chỉ có một thế giới 3D kỳ dị, thế giới vật lý mà chúng ta cùng chia sẻ. Chỉ trong vài thập kỷ gần đây, thông qua trò chơi điện tử và thực tế ảo (VR), chúng ta mới bắt đầu nhìn thấy ý nghĩa của việc cùng nhau chia sẻ những thế giới thay thế do chính mình sáng tạo nên. Ngày nay, Trí năng không gian, khi kết hợp với các công nghệ mới như kính thực tế ảo (VR), thực tế mở rộng (XR) và màn hình nhập vai, đang nâng tầm trải nghiệm này lên những đỉnh cao chưa từng có. Chúng ta đang tiến gần tới một tương lai nơi việc bước vào những thế giới đa chiều hoàn thiện sẽ trở nên tự nhiên như mở một cuốn sách. Trí năng không gian khiến cho việc xây dựng thế giới trở nên dễ tiếp cận hơn bao giờ hết, không chỉ dành riêng cho các hãng phim với đội ngũ sản xuất chuyên nghiệp, mà còn dành cho mọi cá nhân sáng tạo, các nhà giáo dục, hay bất kỳ ai có tầm nhìn muốn chia sẻ với thế giới.
Robot học: Trí năng nhập thể trong hành động
Mọi loại động vật, từ côn trùng cho đến con người, đều dựa
vào trí năng không gian để hiểu, đi lại và tương tác với thế giới quanh mình. Robot
cũng sẽ chẳng khác gì. Những cỗ máy có khả năng nhận thức không gian đã là giấc
mơ của ngành robot học từ thuở ban đầu, bao gồm cả công việc của tôi sinh viên
và cộng sự tại phòng thí nghiệm Stanford. Chính vì vậy, tôi cảm thấy vô cùng
phấn khích trước khả năng hiện thực hóa giấc mơ ấy sử dụng những mô hình thế
giới mà World Labs đang phát triển.
·
Mở rộng quy mô học tập cho robot thông qua mô hình thế
giới: Tiến bộ của học robot phụ thuộc vào việc tìm ra một giải pháp có thể mở
rộng quy mô với dữ liệu huấn luyện đủ khả thi. Xét đến không gian trạng thái
khổng lồ mà robot phải học để hiểu, suy luận, lập kế hoạch và tương tác, nhiều
nhà nghiên cứu cho rằng cần kết hợp ba nguồn dữ liệu: dữ liệu từ Internet, mô
phỏng tổng hợp (synthetic simulation) và dữ liệu thực tế ghi lại hành vi con
người, để có thể tạo ra được các robot có khả năng khái quát hóa thực sự. Tuy
nhiên, khác với các mô hình ngôn ngữ, nguồn dữ liệu huấn luyện cho robot hiện
nay vẫn rất hạn chế. Các mô hình thế giới (world models) sẽ đóng vai trò quyết
định trong việc thay đổi điều đó. Khi độ trung thực cảm nhận (perceptual
fidelity) và hiệu suất tính toán của chúng được nâng cao, đầu ra của các mô
hình thế giới có thể nhanh chóng thu hẹp khoảng cách giữa mô phỏng và thực tế. Điều
này ngược lại sẽ giúp huấn luyện robot thông qua mô phỏng vô số trạng thái,
tương tác và môi trường khác nhau.
· Bạn đồng hành và cộng sự: Robot với tư cách là những cộng tác viên của người, dù là hỗ trợ các nhà khoa học trong phòng thí nghiệm, hay giúp đỡ người cao tuổi sống một mình, có thể mở rộng phần lực lượng lao động trong những lĩnh vực đang thiếu nhân công và năng suất. Tuy nhiên, để làm được điều đó, robot cần có trí năng không gian, giúp chúng nhận biết, suy luận, lập kế hoạch và hành động, đồng thời — và đây là điều quan trọng nhất — phải duy trì được sự đồng cảm và hòa hợp với mục tiêu cũng như hành vi của con người. Ví dụ, một robot trong phòng thí nghiệm có thể xử lý các dụng cụ để nhà khoa học tập trung vào những công việc đòi hỏi sự khéo léo hoặc tư duy, trong khi một trợ lý gia đình có thể giúp người cao tuổi nấu ăn mà không làm giảm niềm vui hay sự tự chủ của họ. Những mô hình thế giới thật sự có trí năng không gian, có khả năng dự đoán trạng thái tiếp theo của thế giới, thậm chí dự đoán được hành động phù hợp với ngữ cảnh và kỳ vọng của con người sẽ có vai trò quyết định để đạt được mục đích này.
·
Mở rộng các hình thái hiện thân: Robot
hình người chắc chắn có vai trò trong thế giới mà con người đã kiến tạo cho
chính mình. Tuy nhiên, lợi ích trọn vẹn của đổi mới công nghệ sẽ đến từ các kiểu
thiết kế đa dạng hơn nhiều: từ nano robot có thể vận chuyển thuốc trong cơ thể,
đến robot mềm (soft robots) có khả năng di chuyển qua các không gian chật hẹp và
cả những cỗ máy được chế tạo để hoạt động trong đại dương sâu thẳm hay ngoài vũ
trụ. Dù mang hình dạng nào, các mô hình trí năng không gian trong tương lai
phải kết hợp được cả môi trường mà robot tồn tại lẫn khả năng cảm nhận và vận
động của chính bản thân chúng. Tuy nhiên, một thách thức then chốt trong việc
phát triển những loại robot này là thiếu dữ liệu huấn luyện cho sự đa dạng
khổng lồ của các dạng hình thể và cấu trúc hiện thân. Các mô hình thế giới
(world models) sẽ đóng vai trò trọng yếu trong việc tạo dữ liệu mô phỏng, xây
dựng môi trường huấn luyện, và đặt ra các bài kiểm định chuẩn (benchmark) cho
những nỗ lực này.
Tầm nhìn dài hạn: Khoa học, Y tế và Giáo dục
Bên cạnh các ứng dụng sáng tạo và robot học, tác động sâu
rộng của trí năng không gian sẽ còn vươn tới những lĩnh vực nơi AI có thể nâng
cao năng lực con người theo các cách thức để cứu sống sinh mạng và tăng tốc
khám phá khoa học. Dưới đây, tôi xin nhấn mạnh ba lĩnh vực ứng dụng có thể mang
tính chuyển hóa sâu sắc, mặc dù thực tế là phạm vi ứng dụng của trí năng không gian
còn rộng lớn hơn rất nhiều, bao trùm nhiều ngành công nghiệp khác.
Trong nghiên cứu khoa học, các hệ thống sở hữu Trí năng
không gian có thể mô phỏng thí nghiệm, kiểm định nhiều giả thuyết song song, và
khám phá những môi trường con người không thể tiếp cận được — từ đại dương sâu
thẳm cho tới các hành tinh xa xôi. Công nghệ này có khả năng cách mạng hóa mô
hình tính toán khoa học, đặc biệt trong nghiên cứu khí hậu và vật liệu học. Bằng
cách kết hợp mô phỏng đa chiều với dữ liệu thu thập từ thế giới thực, những
công cụ ấy có thể giảm rào cản tính toán và mở rộng tầm quan sát lẫn hiểu biết
của mọi phòng thí nghiệm.
Trong lĩnh vực y tế, trí năng không gian sẽ
tái định hình toàn bộ hệ thống,
từ phòng thí nghiệm cho đến giường bệnh. Tại Stanford, các sinh viên và cộng sự
của tôi đã dành nhiều năm hợp tác với các bệnh viện, cơ sở chăm sóc người cao
tuổi, và cả bệnh nhân tại nhà. Những trải nghiệm ấy đã thuyết phục tôi sâu sắc
về tiềm năng chuyển hóa to lớn của trí năng không gian trong y học. AI có thể đẩy
nhanh quá trình phát hiện thuốc mới bằng cách mô hình hóa các tương tác phân tử
trong đa chiều, nâng cao khả năng chẩn đoán bằng cách hỗ trợ bác sĩ X-quang
phát hiện các mẫu hình ẩn trong các hình ảnh y khoa, và cho phép các hệ thống
giám sát môi trường thông minh hỗ trợ bệnh nhân và người chăm sóc mà không thay
thế kết nối con người, mà quá trình chữa lành đòi hỏi, chưa kể, tiềm năng của các
robot trong việc hỗ trợ nhân viên y tế và bệnh nhân trong nhiều tình huống khác
nhau.
Trong giáo dục, trí năng không gian có
thể mang lại hình thức học tập nhập vai, giúp các khái niệm trừu tượng hoặc
phức tạp trở nên cụ thể, và tạo ra các trải nghiệm lặp lại, vốn rất cần thiết
cho cách não bộ và cơ thể chúng ta đã được cấu trúc để học hỏi. Trong kỷ nguyên
AI, nhu cầu học tập và đào tạo lại nhanh chóng, hiệu quả trở nên đặc biệt quan
trọng đối với cả trẻ em trong độ tuổi đi học và người lớn. Học sinh có thể khám
phá cấu trúc của tế bào hoặc bước đi qua các sự kiện lịch sử trong không gian
đa chiều. Giáo viên có được các công cụ giúp cá nhân hóa việc giảng dạy thông
qua những môi trường tương tác. Các chuyên gia — từ bác sĩ phẫu thuật đến kỹ sư
— có thể thực hành các kỹ năng phức tạp một cách an toàn trong những mô phỏng
chân thực.
Trong tất cả các lĩnh vực này, khả năng ứng dụng là vô hạn,
nhưng mục tiêu vẫn không thay đổi: AI có thể tăng cường năng lực chuyên môn của
con người, đẩy nhanh khám phá của con người, và tăng cường khả năng chăm sóc
con người —chứ không thay thế sự phán đoán, sáng tạo và lòng cảm thông, là những yếu tố
cốt lõi đối với bản chất của con người.
Kết luận
Mười năm qua đã chứng kiến AI trở thành một hiện tượng toàn
cầu, một bước ngoặt trong công nghệ, kinh tế, và thậm chí cả địa chính trị. Nhưng
với tôi — một nhà nghiên cứu, nhà giáo dục, và nay là doanh nhân — nguồn cảm
hứng lớn nhất vẫn là tinh thần ẩn sau câu hỏi mà Turing đã đặt ra cách đây 75
năm. Tôi vẫn chia sẻ với ông niềm kinh ngạc và tò mò ấy. Chính thách thức của trí
năng không gian là điều truyền năng lượng cho tôi mỗi ngày.
Lần đầu tiên trong lịch sử, chúng ta đang ở ngưỡng cửa xây
dựng được những cỗ máy hòa nhịp hoàn toàn với thế giới vật lý, đến mức con
người có thể tin tưởng vào chúng như những đối tác thực sự trong những thách
thức lớn lao nhất mà chúng ta sẽ đối mặt. Dù là đẩy nhanh cách chúng ta hiểu
biết về bệnh tật trong phòng thí nghiệm, cách mạng hóa nghệ thuật kể chuyện, hay
hỗ trợ con người trong những khoảnh khắc yếu đuối nhất vì bệnh tật, chấn thương
hoặc tuổi già, chúng ta đang tiến rất gần tới những công nghệ có thể nâng tầm
những giá trị của cuộc sống mà con người trân quý nhất. Đây chính là một tầm
nhìn về cuộc sống sâu sắc hơn, phong phú hơn, và trao quyền nhiều hơn cho con
người.
Gần nửa tỷ năm sau khi tự nhiên khơi dậy những tia sáng đầu tiên của trí năng không gian trong các loài động vật tổ tiên, chúng ta thật may mắn khi được sinh ra trong thế hệ những người làm công nghệ — những người có thể sớm ban cho máy móc cùng năng lực ấy, có đủ đặc quyền sử dụng năng lực đó để phục vụ lợi ích của toàn nhân loại. Giấc mơ về những cỗ máy thật sự thông minh sẽ không bao giờ trọn vẹn nếu thiếu trí năng không gian.