Tiêu đề gốc: "Toàn văn bài phát biểu GTC của Jen-Hsun Huang: Thời đại suy luận đang đến, doanh thu sẽ đạt ít nhất một nghìn tỷ đô la Mỹ vào năm 2027, tôm hùm là hệ điều hành mới"

Tác giả gốc: Bao Yilong, Wall Street News

Ngày 16 tháng 3 năm 2026, hội nghị NVIDIA GTC 2026 chính thức khai mạc, người sáng lập kiêm CEO NVIDIA Jen-Hsun Huang có bài phát biểu quan trọng.

Tại hội nghị được coi là "cuộc hành hương hàng năm của ngành AI" này, Huang Renxun đã trình bày chi tiết về quá trình chuyển đổi của Nvidia từ một "công ty chip" thành "công ty nhà máy và cơ sở hạ tầng AI". Đối mặt với các vấn đề về tính bền vững về hiệu suất và không gian tăng trưởng mà thị trường quan tâm nhất, Huang Renxun đã mổ xẻ chi tiết logic kinh doanh cơ bản thúc đẩy tăng trưởng trong tương lai - "Kinh tế nhà máy mã thông báo".

Hướng dẫn hiệu suất cực kỳ lạc quan, "Nhu cầu ít nhất 1 nghìn tỷ USD vào năm 2027"

Trong hai năm qua, nhu cầu điện toán AI toàn cầu đã bùng nổ theo cấp số nhân. Khi các mô hình lớn phát triển từ "nhận thức" và "tạo ra" sang "lý luận" và "hành động (thực thi nhiệm vụ)", mức tiêu thụ sức mạnh tính toán tăng mạnh. Đáp lại mức trần đơn hàng và doanh thu mà thị trường hết sức quan tâm, Huang Renxun đưa ra những kỳ vọng vô cùng mạnh mẽ.

Huang Renxun đã nói thẳng trong bài phát biểu của mình:

Thời điểm này năm ngoái, tôi đã nói rằng chúng tôi nhận thấy nhu cầu có niềm tin cao 500 tỷ USD dành cho Blackwell và Rubin cho đến năm 2026. Ngay bây giờ, ngay bây giờ, tôi thấy cần ít nhất 1 nghìn tỷ USD vào năm 2027.

Dự báo nghìn tỷ đô la của Huang Renxun từng đẩy giá cổ phiếu của Nvidia giá tăng hơn 4,3%.

Không chỉ vậy, anh ấy còn nói thêm đến con số này:

Điều này có hợp lý không? Đó là điều tôi sẽ nói tiếp theo. Trên thực tế, chúng tôi thậm chí có thể bị thiếu hụt nguồn cung. Tôi chắc chắn rằng yêu cầu tính toán thực tế sẽ cao hơn thế này nhiều.

Huang Renxun chỉ ra rằng hệ thống NVIDIA ngày nay đã chứng tỏ mình là “cơ sở hạ tầng có chi phí thấp nhất” trên thế giới. Vì NVIDIA có thể chạy các mô hình AI trong hầu hết mọi lĩnh vực nên tính linh hoạt này cho phép khách hàng tận dụng tối đa số tiền 1 nghìn tỷ USD đầu tư và duy trì vòng đời lâu dài.

Hiện tại, 60% hoạt động kinh doanh của NVIDIA đến từ năm nhà cung cấp dịch vụ đám mây rất lớn hàng đầu, trong khi 40% hoạt động kinh doanh còn lại của họ được phân bổ rộng rãi trong nhiều lĩnh vực khác nhau như đám mây có chủ quyền, doanh nghiệp, công nghiệp, robot và điện toán biên.

Kinh tế nhà máy mã thông báo, hiệu suất trên mỗi watt quyết định huyết mạch kinh doanh

Để giải thích tính hợp lý của nhu cầu 1 nghìn tỷ này, Huang Renxun đã trình diễn một loạt tư duy kinh doanh mới với các CEO của các công ty toàn cầu. Ông chỉ ra rằng trung tâm dữ liệu trong tương lai sẽ không còn là nhà kho lưu trữ tập tin mà là một "nhà máy" sản xuất Token (đơn vị cơ bản do AI tạo ra).

Huang Renxun nhấn mạnh:

Mọi trung tâm dữ liệu và mọi nhà máy theo định nghĩa đều bị giới hạn bởi nguồn điện. Một nhà máy 1GW (gigawatt) sẽ không bao giờ trở thành 2GW, đó là quy luật vật lý và nguyên tử. Theo công suất cố định, ai có thông lượng Token trên mỗi watt cao nhất sẽ có chi phí sản xuất thấp nhất.

Huang Jensen chia các dịch vụ AI trong tương lai thành bốn cấp độ thương mại:

· Cấp miễn phí (Thông lượng cao, tốc độ thấp)

· Cấp trung bình (~$3 mỗi triệu token)

· Cấp cao cấp (~6 USD mỗi triệu token)

· Cấp tốc độ cao(~45 USD mỗi triệu token)

· Cấp cực nhanh(~$150 trên một triệu token)

Ông lưu ý rằng khi mô hình ngày càng lớn hơn và bối cảnh dài hơn, AI sẽ thông minh hơn nhưng tốc độ tạo mã thông báo sẽ giảm. Huang Renxun cho biết:

Trong nhà máy Token này, thông lượng và tốc độ tạo Token sẽ trực tiếp chuyển thành thu nhập chính xác của bạn vào năm tới.

Huang Renxun nhấn mạnh rằng kiến trúc của NVIDIA cho phép khách hàng đạt được thông lượng cực cao ở cấp miễn phí, đồng thời tăng hiệu suất lên gấp 35 lần đáng kinh ngạc ở mức suy luận giá trị cao nhất.

Vera Rubin đạt được thành tựu Tăng tốc gấp 350 lần trong hai năm, Groq lấp đầy khoảng trống về khả năng suy luận cực nhanh

Trong giới hạn vật lý hạn chế này, NVIDIA giới thiệu hệ thống điện toán AI phức tạp nhất từ trước đến nay, Vera Rubin. Jen-Hsun Huang nói:

Khi tôi nhắc đến Hopper trước đây, tôi sẽ giơ một con chip lên, và điều đó thật dễ thương. Nhưng khi nói đến Vera Rubin, điều bạn nghĩ đến là toàn bộ hệ thống. Trước đây, giá đỡ phải mất hai ngày để lắp đặt giờ đây chỉ mất hai giờ trong hệ thống được làm mát bằng chất lỏng 100% và loại bỏ hoàn toàn cáp truyền thống.

Huang Renxun chỉ ra rằng thông qua việc đồng thiết kế phần cứng và phần mềm trọn gói tối ưu, Vera Rubin đã tạo ra bước nhảy vọt về dữ liệu đáng kinh ngạc trong cùng một trung tâm dữ liệu 1GW:

Chỉ trong hai năm, chúng tôi đã tăng tốc độ tạo Token từ 22 triệu lên 700 triệu, đạt mức tăng trưởng gấp 350 lần. Định luật Moore chỉ mang lại sự cải thiện khoảng 1,5 lần so với cùng kỳ.

Để giải quyết tình trạng tắc nghẽn băng thông theo lý luận cực nhanh (chẳng hạn như 1000 Token/giây), NVIDIA đã đưa ra giải pháp cuối cùng để tích hợp công ty mua lại Groq: lý luận tách biệt bất đối xứng.

Huang Renxun giải thích:

Đặc điểm của hai bộ xử lý này hoàn toàn khác nhau. Chip Groq có 500MB SRAM, trong khi chip Rubin có bộ nhớ 288GB.

Huang Renxun chỉ ra rằng thông qua hệ thống phần mềm Dynamo, Nvidia đã bàn giao giai đoạn "Pre-fill" đòi hỏi bộ nhớ đồ họa và tính toán lớn cho Vera Rubin, đồng thời giao giai đoạn "giải mã" cực kỳ nhạy cảm với độ trễ cho Groq. Huang Renxun cũng đưa ra gợi ý về cấu hình sức mạnh tính toán của doanh nghiệp:

Nếu công việc của bạn chủ yếu là thông lượng cao, hãy sử dụng Vera Rubin 100%; nếu bạn có số lượng lớn nhu cầu tạo mã thông báo cấp lập trình có giá trị cao, hãy phân bổ 25% quy mô trung tâm dữ liệu cho Groq.

Có thông tin tiết lộ rằng chip Groq LP30 do Samsung sản xuất đã được sản xuất hàng loạt và dự kiến sẽ xuất xưởng vào quý 3, đồng thời giá đỡ Vera Rubin đầu tiên đã chạy trên đám mây Microsoft Azure.

Ngoài ra, về công nghệ kết nối quang, Huang Renxun đã trình diễn Spectrum chuyển mạch quang (CPO) đồng đóng gói được sản xuất hàng loạt đầu tiên trên thế giới

Agent chấm dứt SaaS truyền thống và "lương hàng năm + Token" trở thành tiêu chuẩn ở Thung lũng Silicon

Ngoài các rào cản về phần cứng, Huang Renxun để lại rất nhiều không gian cho cuộc cách mạng về phần mềm và hệ sinh thái AI, đặc biệt là sự bùng nổ của Agent (tác nhân thông minh).

Ông mô tả dự án nguồn mở OpenClaw là "dự án nguồn mở phổ biến nhất trong lịch sử nhân loại", cho biết chỉ mất vài tuần để vượt qua thành tích của Linux trong 30 năm qua. Huang Renxun thẳng thắn cho rằng OpenClaw thực chất là “hệ điều hành” của máy tính Agent.

Huang Renxun khẳng định:

Mọi công ty SaaS (Phần mềm dưới dạng dịch vụ) sẽ trở thành công ty AaaS (Agent-as-a-Service, Intelligence as a Service). Không còn nghi ngờ gì nữa, để cho phép loại tác nhân thông minh này có khả năng truy cập dữ liệu nhạy cảm và thực thi mã được triển khai một cách an toàn, NVIDIA đã đưa ra thiết kế tham chiếu NeMo Claw cấp doanh nghiệp, bổ sung công cụ chính sách và bộ định tuyến quyền riêng tư.

Đối với những người lao động bình thường, sự thay đổi này cũng đang đến rất gần. Jen-Hsun Huang đã mô tả hình dạng mới của nơi làm việc trong tương lai:

Trong tương lai, mọi kỹ sư trong công ty chúng tôi sẽ cần ngân sách Token hàng năm. Mức lương cơ bản hàng năm của họ có thể lên tới hàng trăm nghìn đô la. Trên cơ sở này, tôi sẽ cung cấp cho họ khoảng một nửa số tiền dưới dạng hạn ngạch Token, cho phép họ đạt được mức cải thiện hiệu quả gấp 10 lần. Đây đã là con bài thương lượng tuyển dụng mới của Thung lũng Silicon: Bạn mang theo bao nhiêu token trong lời đề nghị của mình?

Cuối bài phát biểu, Huang Renxun cũng "làm hỏng" kiến trúc điện toán thế hệ tiếp theo Feynman, kiến trúc này sẽ lần đầu tiên đạt được khả năng mở rộng chung theo chiều ngang của dây đồng và CPO. Điều thậm chí còn giàu trí tưởng tượng hơn nữa là Nvidia đang phát triển “Vera Rubin Space-1”, một máy tính trung tâm dữ liệu được triển khai trong không gian, mở ra hoàn toàn không gian tưởng tượng cho sức mạnh tính toán AI vượt ra ngoài trái đất.

Toàn văn bài phát biểu GTC 2026 của Jensen Huang, toàn văn được dịch như sau (được hỗ trợ bởi các công cụ AI):

Người điều hành:Chào mừng đến với sân khấu Jensen Huang, người sáng lập và Giám đốc điều hành của NVIDIA.

Jensen Huang, Người sáng lập và Giám đốc điều hành:Chào mừng bạn đến với GTC. Tôi muốn nhắc mọi người rằng đây là hội nghị công nghệ. Tôi rất vui khi thấy rất nhiều người xếp hàng từ sáng sớm để được gặp mọi người ở đây.

Tại GTC, chúng tôi sẽ tập trung vào ba chủ đề chính: công nghệ, nền tảng và hệ sinh thái.

NVIDIA hiện có ba nền tảng chính: nền tảng CUDA-X, nền tảng hệ thống và nền tảng nhà máy AI mới nhất của chúng tôi.

Trước khi chúng ta chính thức bắt đầu, tôi xin cảm ơn những người chủ trì phiên khởi động - Sarah Guo của Conviction, Alfred Lin của Sequoia Capital (nhà đầu tư mạo hiểm đầu tiên của NVIDIA) và nhà đầu tư tổ chức lớn đầu tiên của NVIDIA, Gavin Baker. Ba người này có hiểu biết sâu sắc về công nghệ và có tầm ảnh hưởng rộng rãi đến toàn bộ hệ sinh thái công nghệ. Tất nhiên, tôi cũng xin cảm ơn tất cả các vị khách quý mà đích thân tôi đã mời đến tham dự hôm nay. Cảm ơn đội ngũ toàn sao này.

Tôi cũng xin gửi lời cảm ơn đến tất cả các công ty có mặt ngày hôm nay. NVIDIA là một công ty nền tảng, chúng tôi có công nghệ, nền tảng và hệ sinh thái phong phú. Các công ty ở đây hôm nay đại diện cho gần như tất cả những người tham gia trong ngành công nghiệp trị giá 100 nghìn tỷ đô la này và chúng tôi xin cảm ơn 450 công ty đã tài trợ cho sự kiện này.

Hội nghị này sẽ có tổng cộng 1.000 diễn đàn kỹ thuật và 2.000 diễn giả, đề cập đến mọi cấp độ của kiến trúc "bánh năm lớp" trí tuệ nhân tạo - từ cơ sở hạ tầng như đất đai, năng lượng và phòng máy tính cho đến chip, nền tảng, mô hình và nhiều ứng dụng khác nhau mà cuối cùng sẽ thúc đẩy toàn bộ ngành này phát triển.

CUDA: Hai mươi năm tích lũy công nghệ

Điểm khởi đầu của mọi thứ là ở đây. Năm nay đánh dấu kỷ niệm 20 năm thành lập CUDA.

Trong 20 năm, chúng tôi đã cam kết nghiên cứu và phát triển kiến trúc này. CUDA là một phát minh mang tính cách mạng - công nghệ SIMT (Đa luồng lệnh đơn) cho phép các nhà phát triển viết chương trình bằng mã vô hướng và mở rộng chúng thành các ứng dụng đa luồng với độ khó lập trình ít hơn nhiều so với các kiến trúc SIMD trước đây. Gần đây, chúng tôi cũng đã thêm tính năng Ô xếp để giúp các nhà phát triển lập trình Tensor Core và các cấu trúc hoạt động toán học khác nhau mà trí tuệ nhân tạo ngày nay dựa vào dễ dàng hơn. Hiện tại, CUDA có hàng nghìn công cụ, trình biên dịch, khung và thư viện, hàng trăm nghìn dự án công cộng trong cộng đồng nguồn mở và đã được tích hợp sâu vào mọi hệ sinh thái công nghệ.

Biểu đồ này tiết lộ 100% logic chiến lược của Nvidia và tôi đã nói về slide này ngay từ đầu. Yếu tố cốt lõi và khó đạt được nhất là “công suất lắp đặt” ở cuối biểu đồ. Trong hơn hai thập kỷ, chúng tôi đã tích lũy được hàng trăm triệu GPU và hệ thống máy tính chạy CUDA trên toàn thế giới.

GPU của chúng tôi bao gồm tất cả các nền tảng đám mây và phục vụ hầu hết các nhà sản xuất máy tính cũng như ngành công nghiệp. Công suất lắp đặt khổng lồ của CUDA là lý do cơ bản khiến chiếc bánh đà này tiếp tục tăng tốc. Công suất lắp đặt thu hút các nhà phát triển, các nhà phát triển tạo ra thuật toán mới và tạo ra những đột phá, đột phá tạo ra thị trường mới, thị trường mới hình thành hệ sinh thái mới và thu hút nhiều công ty tham gia hơn, từ đó mở rộng công suất lắp đặt - bánh đà này đang tiếp tục tăng tốc.

Lượt tải xuống của thư viện NVIDIA đang tăng ở mức đáng báo động, trở nên khổng lồ và tăng trưởng với tốc độ ngày càng tăng. Bánh đà này cho phép nền tảng điện toán của chúng tôi hỗ trợ các ứng dụng lớn và những đột phá mới vô tận.

Quan trọng hơn, nó còn mang lại cho những cơ sở hạ tầng này thời gian sử dụng cực kỳ dài. Thật dễ hiểu tại sao: Các ứng dụng chạy trên NVIDIA CUDA vô cùng phong phú, bao gồm mọi giai đoạn của vòng đời AI, các nền tảng xử lý dữ liệu khác nhau và nhiều bộ giải nguyên tắc khoa học khác nhau. Vì vậy, một khi GPU NVIDIA được lắp vào thì giá trị sử dụng thực tế của nó là cực kỳ cao. Đây là lý do tại sao giá đám mây của GPU kiến trúc Ampere mà chúng tôi phát hành sáu năm trước đang tăng lên.

Lý do cơ bản cho tất cả những điều này là:Công suất lắp đặt rất lớn, bánh đà mạnh mẽ và hệ sinh thái nhà phát triển rộng lớn. Khi các yếu tố này kết hợp với nhau và chúng tôi tiếp tục cập nhật phần mềm của mình, chi phí điện toán sẽ tiếp tục giảm. Mặc dù điện toán tăng tốc cải thiện đáng kể hiệu suất ứng dụng, khi chúng tôi duy trì và lặp lại phần mềm trong thời gian dài, người dùng không chỉ có được bước nhảy vọt về hiệu suất ban đầu mà còn tiếp tục được giảm chi phí điện toán. Chúng tôi sẵn sàng cung cấp hỗ trợ lâu dài cho mọi GPU trên thế giới vì chúng hoàn toàn tương thích về mặt kiến trúc.

Lý do chúng tôi sẵn sàng làm điều này là vì cơ sở cài đặt quá lớn - mỗi khi chúng tôi phát hành một bản tối ưu hóa mới, nó có thể mang lại lợi ích cho hàng triệu người dùng. Sự kết hợp năng động này cho phép kiến trúc NVIDIA tiếp tục mở rộng phạm vi phủ sóng và đẩy nhanh tốc độ tăng trưởng của chính mình trong khi liên tục giảm chi phí điện toán, cuối cùng là kích thích tăng trưởng mới. CUDA là trung tâm của tất cả.

Từ GeForce đến CUDA: 25 năm phát triển

Hành trình của chúng tôi với CUDA thực sự đã bắt đầu từ 25 năm trước.

GeForce - Tôi tin rằng nhiều bạn ở đây đã lớn lên cùng GeForce. GeForce là chương trình tiếp thị thành công nhất của NVIDIA. Chúng tôi bắt đầu nuôi dưỡng những khách hàng tương lai khi bạn không đủ tiền mua sản phẩm - chính cha mẹ bạn là những người thay mặt bạn sớm nhất trở thành người dùng NVIDIA sớm nhất, mua sản phẩm của chúng tôi năm này qua năm khác, cho đến một ngày bạn trở thành những nhà khoa học máy tính xuất sắc và trở thành khách hàng cũng như nhà phát triển theo đúng nghĩa.

Đây là nền tảng mà GeForce đã đặt ra cách đây 25 năm. Hai mươi lăm năm trước, chúng tôi đã phát minh ra bộ đổ bóng có thể lập trình—một phát minh hiển nhiên nhưng sâu sắc giúp cho các bộ tăng tốc có thể lập trình được—và bộ tăng tốc có thể lập trình đầu tiên trên thế giới, bộ đổ bóng pixel. Năm năm sau, chúng tôi tạo ra CUDA—một trong những khoản đầu tư quan trọng nhất mà chúng tôi từng thực hiện. Nguồn tài chính của công ty vào thời điểm đó có hạn nhưng chúng tôi đặt cược phần lớn lợi nhuận của mình vào việc này và cam kết mở rộng CUDA từ GeForce sang mọi máy tính. Chúng tôi quyết tâm như vậy vì chúng tôi tin tưởng sâu sắc vào tiềm năng của nó. Bất chấp những khó khăn ban đầu, công ty đã giữ đúng niềm tin này trong 13 thế hệ và hai thập kỷ, và ngày nay CUDA có mặt ở khắp mọi nơi.

Chính pixel shader đã thúc đẩy cuộc cách mạng GeForce. Và gần tám năm trước, chúng tôi đã ra mắt RTX—một bản cải tiến hoàn chỉnh về kiến trúc cho kỷ nguyên hiện đại của đồ họa máy tính. GeForce đã đưa CUDA ra thế giới và vì điều này mà Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton, Andrew Ng và nhiều học giả khác đã phát hiện ra rằng GPU có thể là một công cụ mạnh mẽ để tăng tốc độ học sâu, từ đó khơi dậy sự bùng nổ của trí tuệ nhân tạo cách đây mười năm.

Mười năm trước, chúng tôi đã quyết định kết hợp tính năng tạo bóng có thể lập trình với hai ý tưởng mới: dò tia phần cứng, một ý tưởng rất khó khăn về mặt kỹ thuật; và một ý tưởng mang tính tiên tiến vào thời điểm đó - khoảng mười năm trước, chúng tôi đã thấy trước rằng AI sẽ cách mạng hóa đồ họa máy tính. Giống như GeForce đã đưa AI đến với thế giới, AI giờ đây sẽ định hình lại toàn bộ cách triển khai đồ họa máy tính.

Hôm nay, tôi muốn cho các bạn thấy tương lai. Đây là công nghệ đồ họa thế hệ tiếp theo của chúng tôi, mà chúng tôi gọi là Kết xuất thần kinh—sự kết hợp sâu sắc giữa đồ họa 3D và trí tuệ nhân tạo. Đây là DLSS 5, xem.

Kết xuất thần kinh: Sự kết hợp giữa dữ liệu có cấu trúc và AI sáng tạo

Điều này thật ngoạn mục phải không? Đồ họa máy tính trở nên sống động.

Chúng ta đã làm gì? Chúng tôi kết hợp đồ họa 3D có thể điều khiển (nền tảng thực sự của thế giới ảo) với dữ liệu có cấu trúc của chúng, sau đó kết hợp AI tổng hợp và tính toán xác suất. Một cái hoàn toàn mang tính xác định, cái còn lại mang tính xác suất nhưng có tính thực tế cao - chúng tôi kết hợp hai khái niệm này thành một, đạt được khả năng kiểm soát chính xác thông qua dữ liệu có cấu trúc trong khi tạo ra nó trong thời gian thực. Kết quả là nội dung vừa đẹp mắt vừa hoàn toàn có thể kiểm soát được.

Khái niệm hợp nhất thông tin có cấu trúc và AI tổng hợp sẽ tiếp tục được lặp lại trong hết ngành này đến ngành khác. Dữ liệu có cấu trúc là nền tảng của AI đáng tin cậy.

Nền tảng tăng tốc cho dữ liệu có cấu trúc và phi cấu trúc

Bây giờ tôi muốn cho bạn xem sơ đồ kiến trúc kỹ thuật.

Dữ liệu có cấu trúc - SQL, Spark, Pandas, Velox quen thuộc cũng như các nền tảng quan trọng như Snowflake, Databricks, Amazon EMR, Azure Fabric, Google BigQuery, v.v., đều là các khung dữ liệu xử lý (Data Frame). Những khung dữ liệu này giống như những bảng tính khổng lồ, chứa tất cả thông tin trong thế giới kinh doanh và đóng vai trò là nền tảng cho điện toán doanh nghiệp.

Trong kỷ nguyên AI, chúng ta cần để AI sử dụng dữ liệu có cấu trúc và đạt được khả năng tăng tốc cực độ. Trước đây, việc tăng tốc xử lý dữ liệu có cấu trúc nhằm mục đích giúp các doanh nghiệp hoạt động hiệu quả hơn. Trong tương lai, AI sẽ sử dụng các cấu trúc dữ liệu này với tốc độ vượt xa tốc độ của con người và các tác nhân AI cũng sẽ thực hiện các cuộc gọi quy mô lớn đến cơ sở dữ liệu có cấu trúc.

Về mặt dữ liệu phi cấu trúc, cơ sở dữ liệu vectơ, PDF, video, âm thanh, v.v. chiếm phần lớn các dạng dữ liệu trên thế giới - khoảng 90% dữ liệu được tạo ra hàng năm là dữ liệu phi cấu trúc. Trước đây, dữ liệu này gần như hoàn toàn không thể khai thác được: chúng tôi đọc nó, lưu nó vào hệ thống tệp và thế là xong. Chúng tôi không thể truy vấn và khó truy xuất vì dữ liệu phi cấu trúc thiếu các phương pháp lập chỉ mục đơn giản và phải hiểu ý nghĩa cũng như ngữ cảnh của nó. Giờ đây, AI có thể làm được điều đó—với công nghệ hiểu và nhận thức đa phương thức, AI có thể đọc tài liệu PDF, hiểu ý nghĩa của tài liệu đó và nhúng tài liệu đó vào một cấu trúc lớn hơn có thể truy vấn được.

NVIDIA đã tạo hai thư viện cơ bản cho mục đích này:

· cuDF: để xử lý nhanh các khung dữ liệu và dữ liệu có cấu trúc

· cuVS: để xử lý lưu trữ vectơ, dữ liệu ngữ nghĩa và dữ liệu AI phi cấu trúc

Hai nền tảng này sẽ trở thành một trong những nền tảng cơ bản quan trọng nhất trong tương lai.

Hôm nay, chúng tôi đã công bố hợp tác với một số công ty. IBM, nhà phát minh ngôn ngữ SQL, sẽ sử dụng cuDF để tăng tốc nền tảng Dữ liệu WatsonX của mình. Dell và chúng tôi đã cùng nhau xây dựng nền tảng dữ liệu Dell AI, tích hợp cuDF và cuVS, đồng thời đạt được những cải tiến hiệu suất đáng kể trong các dự án thực tế tại NTT Data. Về phía Google Cloud, chúng tôi hiện đang tăng tốc không chỉ Vertex AI mà còn cả BigQuery và hợp tác với Snapchat để giảm gần 80% chi phí điện toán.

Những lợi ích mà điện toán tăng tốc mang lại là ba trong một: tốc độ, quy mô và chi phí. Điều này phù hợp với logic của Định luật Moore - đạt được những bước nhảy vọt về hiệu suất nhờ tính toán được tăng tốc trong khi liên tục tối ưu hóa các thuật toán để mọi người đều có thể tận hưởng sự giảm liên tục về chi phí tính toán.

NVIDIA đã xây dựng một nền tảng điện toán tăng tốc, tập hợp nhiều thư viện: RTX, cuDF, cuVS, v.v. Những thư viện này được tích hợp vào các dịch vụ đám mây toàn cầu và hệ thống OEM để cùng tiếp cận người dùng toàn cầu.

Hợp tác sâu sắc với các nhà cung cấp dịch vụ đám mây

Hợp tác với các nhà cung cấp dịch vụ đám mây lớn

Google Cloud: Chúng tôi tăng tốc Vertex AI và BigQuery, tích hợp sâu với JAX/XLA và hoạt động tốt trên PyTorch - NVIDIA là công cụ tăng tốc duy nhất trên thế giới hoạt động tốt trên cả PyTorch và JAX/XLA. Chúng tôi giới thiệu những khách hàng như Base10, CrowdStrike, Puma và Salesforce vào hệ sinh thái Google Cloud.

AWS: Chúng tôi tăng tốc EMR, SageMaker và Bedrock bằng khả năng tích hợp sâu với AWS. Điều khiến tôi đặc biệt hào hứng trong năm nay là việc chúng tôi sẽ giới thiệu OpenAI cho AWS, điều này sẽ thúc đẩy đáng kể mức tăng trưởng tiêu thụ của điện toán đám mây AWS và giúp OpenAI mở rộng quy mô điện toán và triển khai trong khu vực.

Microsoft Azure: Siêu máy tính NVIDIA 100 PFLOPS là siêu máy tính đầu tiên chúng tôi chế tạo và là siêu máy tính đầu tiên được triển khai trên Azure, đặt nền tảng quan trọng cho sự hợp tác với OpenAI. Chúng tôi đang tăng tốc các dịch vụ đám mây Azure và AI Foundry, cộng tác mở rộng khu vực Azure và cộng tác sâu sắc về Tìm kiếm Bing.

Điều đáng nói là khả năng "Điện toán bí mật" của chúng tôi - đảm bảo rằng ngay cả người vận hành cũng không thể xem dữ liệu và mô hình của người dùng - GPU NVIDIA là GPU đầu tiên trên thế giới hỗ trợ tính toán bí mật và có thể hỗ trợ triển khai bí mật các mô hình OpenAI và Anthropic trong môi trường đám mây ở nhiều khu vực khác nhau trên thế giới. Lấy Synopsys làm ví dụ, chúng tôi đã tăng tốc tất cả quy trình công việc EDA và CAD của họ và triển khai chúng trên Microsoft Azure.

Oracle: Chúng tôi là khách hàng AI đầu tiên của Oracle và tôi tự hào lần đầu tiên giải thích khái niệm Đám mây AI cho Oracle. Kể từ đó, họ đã phát triển nhanh chóng và chúng tôi cũng đã giới thiệu nhiều đối tác như Cohere, Fireworks và OpenAI.

CoreWeave: Đám mây gốc AI đầu tiên trên thế giới, được thiết kế để lưu trữ GPU và các dịch vụ đám mây AI, có cơ sở khách hàng tuyệt vời và động lực tăng trưởng mạnh mẽ.

Palantir + Dell:Ba bên đã cùng nhau tạo ra một nền tảng AI mới, dựa trên Nền tảng Ontology và nền tảng AI của Palantir. Nền tảng này có thể triển khai AI hoàn toàn cục bộ ở bất kỳ quốc gia nào, trong bất kỳ môi trường cách ly không khí nào - từ xử lý dữ liệu (vector hóa hoặc cấu trúc) đến ngăn xếp điện toán tăng tốc hoàn chỉnh của AI, mọi thứ đều được bao gồm.

NVIDIA đã thiết lập mối quan hệ hợp tác đặc biệt này với các nhà cung cấp dịch vụ đám mây toàn cầu - chúng tôi giới thiệu với khách hàng về đám mây, một hệ sinh thái đôi bên cùng có lợi và đôi bên cùng có lợi.

Tích hợp theo chiều dọc, mở theo chiều ngang: Chiến lược cốt lõi của NVIDIA

NVIDIA là công ty mở theo chiều ngang, tích hợp theo chiều dọc đầu tiên trên thế giới.

Sự cần thiết của mô hình này rất đơn giản: tính toán tăng tốc không phải là vấn đề về chip, cũng không phải vấn đề về hệ thống. Biểu thức đầy đủ của nó phải là khả năng tăng tốc ứng dụng. CPU có thể làm cho máy tính nhìn chung chạy nhanh hơn, nhưng con đường này đã gặp phải tình trạng tắc nghẽn. Trong tương lai, chỉ thông qua việc tăng tốc ứng dụng hoặc miền cụ thể, chúng tôi mới có thể tiếp tục đạt được những bước nhảy vọt về hiệu suất và giảm chi phí.

Đây là lý do tại sao NVIDIA phải đi sâu vào hết thư viện này đến thư viện khác, lĩnh vực này đến lĩnh vực khác và ngành dọc này đến ngành dọc khác. Chúng tôi là một công ty điện toán tích hợp theo chiều dọc và không còn cách nào khác. Chúng ta phải hiểu ứng dụng, hiểu miền, hiểu sâu về thuật toán và có thể triển khai nó trong mọi tình huống - trung tâm dữ liệu, đám mây, cục bộ, biên và thậm chí cả hệ thống robot.

Đồng thời, NVIDIA duy trì tính mở theo chiều ngang và sẵn sàng tích hợp công nghệ vào nền tảng của bất kỳ đối tác nào để cả thế giới có thể tận hưởng lợi ích từ điện toán tăng tốc.

Cơ cấu người tham dự GTC này phản ánh đầy đủ điều này. Trong số những người tham dự lần này, ngành dịch vụ tài chính có tỷ lệ cao nhất - Tôi hy vọng những người đến là nhà phát triển chứ không phải thương nhân. Hệ sinh thái của chúng tôi bao gồm các chuỗi cung ứng thượng nguồn và hạ nguồn. Cho dù một doanh nghiệp đã 50, 70 hay 150 tuổi thì năm ngoái vẫn là năm tốt nhất từ trước đến nay. Chúng ta đang ở giai đoạn đầu của một điều gì đó rất, rất lớn.

CUDA-X: Công cụ điện toán tăng tốc dành cho nhiều ngành khác nhau

Trong nhiều lĩnh vực dọc khác nhau, NVIDIA có bố cục chuyên sâu:

Lái xe tự động: Phạm vi phủ sóng rộng và tác động sâu rộng

Dịch vụ tài chính: Đầu tư định lượng đang chuyển từ kỹ thuật tính năng nhân tạo sang học sâu do siêu máy tính điều khiển, mở ra "Transformer" của nó Moment"

Chăm sóc sức khỏe: đang mở ra "Khoảnh khắc ChatGPT" của riêng mình, bao gồm việc khám phá thuốc được hỗ trợ bởi AI, chẩn đoán được hỗ trợ bởi tác nhân AI, dịch vụ khách hàng y tế và các hướng khác

Ngành:Làn sóng xây dựng lớn nhất thế giới đang diễn ra, với các nhà máy AI, nhà máy sản xuất chip và nhà máy trung tâm dữ liệu lần lượt được ra mắt

Giải trí và Trò chơi:AI thời gian thực Nền tảng hỗ trợ dịch thuật trực tiếp phát sóng, tương tác trò chơi và đại lý mua sắm thông minh

Robot:Với hơn mười năm phát triển, ba kiến trúc máy tính chính (máy tính đào tạo, máy tính mô phỏng và máy tính trên không) đã có sẵn. Tổng cộng 110 robot đã được ra mắt tại triển lãm này

Viễn thông:Trong một ngành có quy mô khoảng 2 nghìn tỷ USD, các trạm cơ sở sẽ phát triển từ một chức năng liên lạc duy nhất sang nền tảng cơ sở hạ tầng AI. Nền tảng liên quan được gọi là Aerial có sự hợp tác chuyên sâu. với Nokia, T-Mobile và các công ty khác

Cốt lõi của tất cả các lĩnh vực trên là thư viện CUDA-X của chúng tôi - đây là nền tảng của NVIDIA với tư cách là một công ty thuật toán. Những thư viện này là tài sản cốt lõi của công ty, cho phép nền tảng điện toán phát huy giá trị thực trong nhiều ngành khác nhau

Một trong những thư viện quan trọng nhất là cuDNN (Thư viện mạng thần kinh sâu CUDA), đã cách mạng hóa trí tuệ nhân tạo và gây ra sự bùng nổ của AI hiện đại

(Chơi bản demo CUDA-X. video)

Mọi thứ bạn vừa thấy đều là mô phỏng - bao gồm bộ giải dựa trên vật lý, mô hình vật lý tác nhân AI và mô hình robot AI vật lý. Mọi thứ đều được mô phỏng mà không cần bất kỳ hoạt ảnh bằng tay hay gian lận chung nào. Đây là năng lực cốt lõi của NVIDIA: mở ra những cơ hội này thông qua sự kết hợp giữa sự hiểu biết sâu sắc về thuật toán và nền tảng điện toán

Các doanh nghiệp có nguồn gốc từ AI và kỷ nguyên điện toán mới

Bạn vừa chứng kiến những gã khổng lồ trong ngành như Walmart, L'Oréal, JPMorgan Chase, Roche và Toyota định nghĩa xã hội ngày nay. Ngoài ra còn có một số lượng lớn các công ty mà bạn chưa từng nghe đến - chúng tôi gọi họ là các doanh nghiệp có nguồn gốc từ AI. Danh sách này cực kỳ lớn, bao gồm OpenAI, Anthropic và nhiều công ty mới nổi phục vụ các lĩnh vực dọc khác nhau.

Lần đầu tiên, ngành này đã có sự khởi sắc đáng kinh ngạc. quy mô của một khoản đầu tư đã tăng từ hàng triệu đô la lên hàng trăm triệu hoặc thậm chí hàng tỷ đô la.

Chỉ có một lý do: Lần đầu tiên trong lịch sử, mỗi công ty như vậy đều yêu cầu nhiều tài nguyên máy tính và nhiều mã thông báo. Ngành này đang tạo ra, tạo ra hoặc tăng thêm giá trị cho các mã thông báo từ Anthropic, OpenAI và các công ty khác

Giống như cuộc cách mạng PC, cuộc cách mạng Internet và cuộc cách mạng đám mây di động, mỗi thế hệ đã sinh ra một số công ty tạo nên kỷ nguyên. Những thay đổi về nền tảng điện toán cũng sẽ tạo ra một số công ty có ảnh hưởng lớn và trở thành lực lượng quan trọng trong thế giới tương lai

Ba bước đột phá lịch sử đã thúc đẩy tất cả những điều này

Chính xác thì điều gì đã xảy ra trong hai năm qua?

Đầu tiên: ChatGPT, mở ra kỷ nguyên của AI tổng hợp (cuối năm 2022 đến năm 2023)

Nó không chỉ có thể cảm nhận và hiểu mà còn tạo ra nội dung độc đáo. Tôi đã chứng minh sự kết hợp giữa AI tạo ra và đồ họa máy tính. AI tạo ra thay đổi căn bản cách thực hiện tính toán—điện toán chuyển từ truy xuất sang tạo, ảnh hưởng sâu sắc đến kiến trúc, triển khai và ý nghĩa tổng thể của máy tính

Thứ hai: AI suy luận (AI lý luận), được biểu thị bằng o1

Khả năng suy luận cho phép AI tự phản ánh, lập kế hoạch và phân tích các vấn đề—phân tách các vấn đề mà nó không thể hiểu trực tiếp thành các bước có thể quản lý được. o1 làm cho AI tổng hợp trở nên đáng tin cậy và có khả năng suy luận dựa trên thông tin thực. Để đạt được mục đích này, số lượng mã thông báo đầu vào theo ngữ cảnh và số lượng mã thông báo đầu ra được sử dụng để suy nghĩ đã tăng lên đáng kể và số lượng tính toán cũng tăng lên đáng kể

Thứ ba: Claude Code, mô hình tác nhân đầu tiên

Nó có thể đọc tệp, viết mã, biên dịch, kiểm tra, đánh giá và lặp lại. Claude Code, Codex và Cursor, và không có kỹ sư phần mềm nào không sử dụng AI để trợ giúp

Đây là một bước ngoặt hoàn toàn mới - bạn không còn hỏi AI "làm gì, ở đâu, làm như thế nào" mà hãy để nó "tạo, thực thi, xây dựng", cho phép nó chủ động sử dụng các công cụ, đọc tệp, phân tích vấn đề và thực hiện hành động. computation required for inference has increased by about 10,000 times, and usage has increased by about 100 times. I've always believed that computing needs have increased a million times in the last two years - that's what everyone feels, it's what OpenAI feels, it's what Anthropic feels. If more computing power can be obtained, more tokens can be generated, income will increase, and AI will become smarter. The turning point of reasoning has arrived.

The Trillion-Dollar AI Infrastructure Era

This time last year, I was here to say that we were highly confident in Blackwell and Rubin's demand and purchase orders through 2026, which would be approximately $500 billion.

Today, one year after GTC, I stand here to tell you: Looking ahead to 2027, the number I see is at least $1 trillion. And I'm sure the actual computing needs will be much more than that.

2025: NVIDIA’s Year of Inference

2025 is NVIDIA’s Year of Inference. We want to ensure that excellence is maintained at every stage of the AI lifecycle, beyond training and post-training, so that the invested infrastructure continues to operate efficiently, with a longer effective life and lower unit cost.

At the same time, Anthropic and Meta officially joined the NVIDIA platform, which together represent one-third of the world's AI computing power needs. Open source models are close to cutting-edge and ubiquitous.

NVIDIA is currently the only platform in the world that can run all AI models in all areas of AI - language, biology, computer graphics, computer vision, speech, protein and chemistry, robotics, etc., regardless of edge or cloud, regardless of language. NVIDIA architecture is versatile for all of these scenarios, making us the lowest-cost, highest-confidence platform.

Currently, 60% of NVIDIA’s business comes from the world’s top five hyperscale cloud service providers, and the remaining 40% is spread across various fields such as regional cloud, sovereign cloud, enterprise, industry, robotics, and edge computing. The breadth of AI’s reach is itself its resilience—it’s undoubtedly a new computing platform revolution.

Grace Blackwell and NVLink 72: Bold architectural innovation

When the Hopper architecture was still in its heyday, we decided to completely re-architect the system, expand NVLink from 8-way to NVLink 72, and conduct a comprehensive decomposition and reconstruction of the computing system. Grace Blackwell NVLink 72 is a huge technology bet that has not been easy for all partners, and I would like to express my sincere thanks to all of them.

At the same time, we introduced NVFP4 - not just regular FP4, but a whole new type of tensor cores and compute units. We have shown that NVFP4 enables inference without loss of accuracy while delivering huge performance and energy efficiency gains, and works equally well for training.

In addition, a series of new algorithms such as Dynamo and TensorRT-LLM have emerged one after another, and we even invested billions of dollars to build a supercomputer called DGX Cloud just to optimize the kernel.

The results prove that our inference performance is impressive. Data from Semi Analysis—the most comprehensive measurement of AI inference performance to date—shows Nvidia’s lead in both tokens per watt and cost per token. Originally Moore's Law might have brought a 1.5x performance improvement to the H200, but we achieved a 35x improvement. Dylan Patel of Semi Analysis even said:“Huang was conservative, actually 50x.” And he’s right.

I quote his words here: "Jensen sandbagged (Huang Renxun conservatively reported)."

Nvidia's cost per token is the lowest in the world, and currently no one can match it. The reason lies in Extreme Co-design.

Take Fireworks as an example. Before NVIDIA updated its full set of software and algorithms, its average token speed was about 700 per second; after the update, it was close to 5,000 per second, an increase of about 7 times. This is the power of ultimate collaborative design.

AI Factory: From Data Center to Token Factory

The data center used to be a place where files were stored, but now it is a factory that produces tokens. Every cloud service provider and every AI company will use "token factory efficiency" as its core operating indicator in the future.

This is my core argument:

· Vertical axis: Throughput - the number of tokens generated per second under fixed power

· Horizontal axis: Interaction speed (Token Speed) - the response speed of each inference. The faster the speed, the larger the model that can be used, the longer the context, the smarter the AI

token is a new commodity that, once mature, will be priced in tiers:

· Free tier (high throughput, low speed)

· Mid-tier (~$3 per million tokens)

· Premium tier (~$6 per million tokens)

· High-speed tier (~$45 per million tokens) USD)

·Ultra-fast tier (~USD 150 per million tokens)

Grace Blackwell increases throughput by 35x in the highest value tier compared to Hopper and introduces a new tier. Using a simplified model estimate, with 25% power allocated to each of the four tiers, Grace Blackwell could generate 5x more revenue than Hopper.

Vera Rubin: Next-generation AI computing system

(Play Vera Rubin system introduction video)

Vera Rubin is a complete, end-to-end optimized system designed for agent (Agentic) workloads:

· Large language model computing core: NVLink 72 GPU cluster, pre-processing fill (Prefill) and KV Cache

· New Vera CPU: Designed for extremely high single-threaded performance, using LPDDR5 memory, with excellent energy efficiency, it is the world’s only data center CPU using LPDDR5, suitable for AI agent tool calls

· Storage system: BlueField 4 + CX 9, a new storage platform for the AI era, 100% of the global storage industry has joined CPO Spectrum X Switch: The world's first co-packaged optical Ethernet switch, now in full mass production

· Kyber Rack:A new rack system that supports 144 GPUs to form a single NVLink domain, front-end computing, and back-end NVLink switching to form a giant computer

· Rubin Ultra:Next-generation supercomputing node, vertical plug-in design, combined with Kyber rack, supports larger scale NVLink interconnect

Vera Rubin is 100% liquid cooled, reducing installation time from two days to two hours, and uses 45°C hot water cooling to significantly reduce data center cooling stress. This time Satya (Nadella) has issued a document confirming that the first Vera Rubin rack is now running on Microsoft Azure, which I am very excited about.

Groq integration: the ultimate extension of inference performance

We acquired the Groq team and licensed its technology. Groq is a deterministic dataflow processor that uses static compilation and compiler scheduling. It has a large amount of SRAM and is optimized for single workload reasoning. It has extremely low latency and extremely high token generation speed.

However, Groq has limited memory capacity (500MB on-chip SRAM), making it difficult to independently carry the parameters and KV Cache of large models, limiting its large-scale application.

解决方案正是 Dynamo——一套推理调度软件。我们通过 Dynamo 将推理管线解聚（Disaggregate）：

· 前填充（Prefill）及注意力机制的解码（Decode）：在 Vera Rubin 上完成（需要大量算力和 KV Cache 存储）

· 前馈网络解码（Feed-Forward Network Decode）：即 token 生成部分，在 Groq 上完成（需要极高带宽和低延迟）

两者通过以太网紧密耦合，借助特殊模式将延迟减少约一半。在 Dynamo 这一「AI 工厂操作系统」的统一调度下，整体性能提升 35 倍，并开辟了 NVLink 72 此前无法触及的全新推理性能层级。

Groq 与 Vera Rubin 的组合建议：

若工作负载以高吞吐为主，使用 100% Vera Rubin 若大量工作负载为代码生成等高价值 token 生成

可引入 Groq，建议比例约为 25% Groq + 75% Vera Rubin Groq LP30 由三星代工，目前已进入量产，预计 Q3 开始出货。感谢三星的全力配合。

推理性能的历史性飞跃

将此前技术进步量化：在 2 年时间内，1 吉瓦 AI 工厂的 token 生成速率将从 2,200 万 token/秒提升至 7 亿 token/秒，提升 350 倍。这就是极致协同设计的力量。

技术路线图

· Blackwell：当前在产，Oberon 标准机架系统，铜缆扩展至 NVLink 72，可选光学扩展至 NVLink 576

· Vera Rubin（当前）：Kyber 机架，NVLink 144（铜缆）；Oberon 机架，NVLink 72 + 光学，扩展至 NVLink 576；Spectrum 6，全球首款 CPO 交换机

· Vera Rubin Ultra（即将推出）：新一代 Rubin Ultra GPU，LP35 芯片（首次集成 NVFP4），进一步提升数倍性能

· Feynman（下一代）：全新 GPU，LP40 芯片（由英伟达与 Groq 团队联合打造，集成 NVFP4）；全新 CPU——Rosa（Rosalyn）；BlueField 5；CX 10；同时支持铜缆和 CPO 两种扩展方式的 Kyber 机架

路线图明确：铜缆扩展、光学扩展（Scale-Up）、光学扩展（Scale-Out）三条路线并行推进，我们需要所有合作伙伴在铜缆、光纤和 CPO 方面持续扩产。

NVIDIA DSX：AI 工厂的数字孪生平台

AI 工厂越来越复杂，但组成它的各类技术供应商过去从未在设计阶段相互协作，直到在数据中心才「相遇」——这显然不够。

为此，我们创建了 Omniverse，以及基于其上的 NVIDIA DSX 平台——一个供所有合作伙伴在虚拟世界中共同设计和运营吉瓦级 AI 工厂的平台。 DSX 提供：

· 机架级机械、热学、电气、网络仿真系统

· 与电网的连接，实现协同节能调度

· 数据中心内基于 Max-Q 的动态功耗和冷却优化

保守估计，这套系统可将能源利用效率提升约 2 倍，在我们谈论的规模上，这是非常可观的收益。 Omniverse 从数字地球开始，将承载各种规模的数字孪生，我们正与全球合作伙伴共同构建人类历史上最大的计算机。

此外，英伟达正在进军太空。 Thor 芯片已通过辐射认证，正在卫星中运行。我们正与合作伙伴开发 Vera Rubin Space-1，用于建设太空数据中心。在太空中只能依靠辐射散热，热管理是核心挑战，我们正集结顶尖工程师攻关。

OpenClaw：智能体时代的操作系统

Peter Steinberger 开发了一款名为 OpenClaw 的软件。这是人类历史上最受欢迎的开源项目，在短短几周内便超越了 Linux 三十年的成就。

OpenClaw 本质上是一个智能体系统（Agentic System），能够：

· 管理资源，访问工具、文件系统和大型语言模型

· 执行调度、定时任务

· 将问题逐步分解，并调用子智能体

· 支持任意模态的输入输出（语音、视频、文字、邮件等）

用操作系统的语法来描述，它确实就是一个操作系统——智能体计算机的操作系统。 Windows 让个人计算机成为可能，OpenClaw 让个人智能体成为可能。

每一家企业都需要制定自己的 OpenClaw 战略，正如我们都需要 Linux 策略、HTML 策略、Kubernetes 策略一样。

企业 IT 的全面重塑

OpenClaw 之前的企业 IT：数据和文件进入系统，流经工具和工作流，最终变成供人类使用的工具。软件公司创建工具，系统集成商（GSI）和咨询公司帮助企业使用这些工具。

OpenClaw 之后的企业 IT：每一家 SaaS 公司都将转变为 AaaS（Agentic as a Service，智能体即服务）公司——不只是提供工具，而是提供专精特定领域的 AI 智能体。

但这里有一个关键挑战：企业内部的智能体可以访问敏感数据、执行代码、与外部通信。这在企业环境中必须得到严格管控。

为此，我们与 Peter 合作，将安全性融入企业级版本，推出了：

· NeMo Claw（参考设计）：基于 OpenClaw 的企业级参考框架，集成 NVIDIA 的全套智能体 AI 工具包

· Open Shield（安全层）：已集成至 OpenClaw，提供策略引擎、网络护栏、隐私路由，确保企业数据安全

· NeMo Cloud：可下载使用，并与所有 SaaS 企业的策略引擎对接

这是企业 IT 的文艺复兴，一个原本 2 万亿美元规模的产业，即将成长为数万亿美元规模，从提供工具转向提供专业化的 AI 智能体服务。

我完全可以预见：未来，公司里的每一位工程师都将拥有年度 token 预算。他们年薪可能是几十万美元，我会额外给他们相当于薪资一半的 token 配额，让他们的产出放大 10 倍。「入职附带多少 token 配额」已经成为硅谷的新晋招聘话题。

每一家企业未来都将既是 token 的使用者（供工程师使用），也是 token 的生产者（为其客户提供服务）。 OpenClaw 的意义不可低估，它和 HTML、Linux 一样重要。

NVIDIA 开放模型倡议

在自定义智能体（Custom Claw）方面，我们提供了 NVIDIA 自研的前沿模型：

模型领域 Nemotron 大型语言模型 Cosmos 世界基础模型（World Foundation Model）GROOT 通用人形机器人模型 Alpamayo 自动驾驶 BioNeMo 数字生物学 Phys-AIAI 物理

我们在每一个领域都处于技术前沿，并承诺持续迭代——Nemotron 3 之后有 Nemotron 4，Cosmos 1 之后有 Cosmos 2，Groq 也将迭代到第二代。

Nemotron 3 在 OpenClaw 中名列全球三大最佳模型之列，处于前沿水平。 Nemotron 3 Ultra 将成为有史以来最强的基础模型，支持各国构建主权 AI。

今天，我们宣布成立 Nemotron 联盟，投资数十亿美元推进 AI 基础模型研发。联盟成员包括：BlackForest Labs、Cursor、LangChain、Mistral、Perplexity、Reflection、Sarvam（印度）、Thinking Machines（Mira Murati 的实验室）等。

一个又一个企业软件公司加入，将 NeMo Claw 参考设计和 NVIDIA 智能体 AI 工具包整合到自身产品中。

物理 AI 与机器人

数字智能体在数字世界中行动——撰写代码、分析数据；而物理 AI 则是具身化的智能体，也就是机器人。

本次 GTC 共有 110 款机器人亮相，几乎囊括了全球所有机器人研发企业。英伟达提供三台计算机（训练计算机、仿真计算机、机载计算机）和完整的软件栈及 AI 模型。

自动驾驶方面，自动驾驶的「ChatGPT 时刻」已经到来。今天，我们宣布四家新合作伙伴加入英伟达 RoboTaxi Ready 平台：比亚迪、现代、日产、吉利，合计年产量 1,800 万辆。加上此前的奔驰、丰田、通用，阵容进一步壮大。我们同时宣布与 Uber 达成重大合作，将在多个城市部署并接入 RoboTaxi Ready 车辆。

工业机器人方面，ABB、Universal Robotics、KUKA 等众多机器人企业与我们合作，将物理 AI 模型与仿真系统相结合，推动机器人在全球制造产线的落地。

电信方面，卡特彼勒（Caterpillar）和 T-Mobile 也在其列。未来，无线基站将不再只是一个通信节点，而是一个 NVIDIA Aerial AI RAN——能够实时感知流量、调整波束成形，实现节能增效的智能化边缘计算平台。

特别环节：Olaf 机器人亮相

（播放 Disney Olaf 机器人演示视频）

黄仁勋：雪人登场！ Newton 运行正常！ Omniverse 也运行正常！ Olaf，你好吗？

Olaf：见到你我真的太开心了。

黄仁勋：是的，因为是我给了你计算机——Jetson！

Olaf：那是什么？

黄仁勋：就在你的肚子里。

Olaf：太神奇了。

黄仁勋：你是在 Omniverse 里学会走路的。

Olaf：我喜欢走路。这比骑驯鹿仰望美丽的天空好多了。

黄仁勋：这正是因为物理仿真——基于 NVIDIA Warp 运行的 Newton 求解器，这是我们与 Disney 和 DeepMind 联合开发的，让你能够适应真实的物理世界。

Olaf：我正想说这个。

黄仁勋：这就是你聪明的地方。我是雪人，不是雪球。

黄仁勋：你能想象吗？未来的迪士尼乐园——所有这些机器人角色在园区里自由漫步。不过说实话，我以为你会更高一些。我从没见过这么矮的雪人。

Olaf：（不置可否）

黄仁勋：来帮我结束今天的演讲好吗？

Olaf：太棒啦！

主题演讲总结

黄仁勋：今天，我们共同探讨了以下核心主题：

1. 推理拐点的到来：推理已成为 AI 最核心的工作负载，token 是新的大宗商品，推理性能直接决定收入

2. AI 工厂时代：数据中心已从文件存储设施演变为 token 生产工厂，未来每家公司都将以「AI 工厂效率」来衡量自身竞争力

3. OpenClaw 智能体革命：OpenClaw 开启了智能体计算时代，企业 IT 正在从工具时代走向智能体时代，每家企业都需要制定 OpenClaw 战略

4. 物理 AI 与机器人：具身智能正在规模化落地，自动驾驶、工业机器人、人形机器人共同构成物理 AI 的下一个重大机遇

感谢大家，GTC 愉快！

原文链接

Toàn văn bài phát biểu GTC của Jen-Hsun Huang: Nhu cầu thị trường sẽ vượt quá một nghìn tỷ đô la Mỹ vào năm 2027; mọi người nên phát triển chiến lược OpenClaw