DeepSeek là gì? Tìm hiểu quá trình hình thành| sự khác biệt| ảnh hưởng

Trong lĩnh vực trí tuệ nhân tạo, có một quan niệm phổ biến rằng việc phát triển các mô hình ngôn ngữ lớn tiên tiến cần rất nhiều nguồn lực về kỹ thuật và tài chính. Đây là một trong những lý do chính khiến chính phủ Hoa Kỳ quyết định hỗ trợ cho dự án Stargate trị giá 500 tỷ đô la mà Tổng thống Donald Trump đã công bố.

Tuy nhiên, công ty AI của Trung Quốc mang tên DeepSeek đã làm thay đổi suy nghĩ này. Vào ngày 20 tháng 1 năm 2025, DeepSeek đã ra mắt R1 với chi phí chỉ bằng một phần nhỏ so với các nhà cung cấp khác trong quá trình phát triển sản phẩm của họ. DeepSeek cũng cung cấp các mô hình R1 theo giấy phép mở, cho phép người dùng sử dụng miễn phí.

Chỉ sau vài ngày kể từ khi ra mắt, ứng dụng trợ lý AI DeepSeek – một ứng dụng di động cung cấp giao diện chatbot cho R1 – đã nhanh chóng đứng đầu bảng xếp hạng App Store của Apple, vượt qua cả ứng dụng di động của OpenAI. Sự bùng nổ về mức độ sử dụng và độ phổ biến của DeepSeek đã dẫn đến một đợt bán tháo trên thị trường chứng khoán vào ngày 27 tháng 1 năm 2025, khi các nhà đầu tư bắt đầu nghi ngờ về giá trị của những nhà cung cấp AI lớn tại Hoa Kỳ như Microsoft, Meta Platforms, Oracle, Broadcom và nhiều gã khổng lồ công nghệ khác cũng ghi nhận sự giảm sút đáng kể khi các nhà đầu tư xem xét lại định giá trong lĩnh vực AI. Vậy DeepSeek là gì?

DeepSeek là gì
DeepSeek là gì

I. DeepSeek là gì?

DeepSeek là một công ty phát triển trí tuệ nhân tạo có trụ sở tại Hàng Châu, Trung Quốc. Được thành lập vào tháng 5 năm 2023 bởi Liang Wenfeng, người đã tốt nghiệp từ Đại học Chiết Giang. Wenfeng cũng là đồng sáng lập của High-Flyer, một quỹ đầu tư định lượng tại Trung Quốc đang sở hữu DeepSeek. Hiện nay, DeepSeek hoạt động như một phòng nghiên cứu AI độc lập dưới sự hỗ trợ của High-Flyer. Thông tin về số tiền tài trợ và định giá của DeepSeek vẫn chưa được công bố.

DeepSeek tập trung vào việc phát triển các mô hình ngôn ngữ lớn (LLM) mã nguồn mở. Mô hình đầu tiên của công ty được ra mắt vào tháng 11 năm 2023. Công ty đã thực hiện nhiều lần cải tiến trên LLM cốt lõi và đã tạo ra một số biến thể khác nhau. Tuy nhiên, phải đến tháng 1 năm 2025, sau khi phát hành mô hình lý luận R1, công ty mới bắt đầu thu hút sự chú ý toàn cầu.

Công ty cung cấp nhiều dịch vụ cho các mô hình của mình, bao gồm giao diện web, ứng dụng di động và quyền truy cập.

II. 5 điểm khác biệt giữa OpenAI so với DeepSeek

Khác biệt giữa OpenAI so với DeepSeek
Khác biệt giữa OpenAI so với DeepSeek

DeepSeek đại diện cho một thách thức mới nhất đối với OpenAI, công ty đã khẳng định vị thế dẫn đầu trong ngành nhờ vào sự ra mắt của ChatGPT vào năm 2022. OpenAI đã đóng góp quan trọng trong việc thúc đẩy ngành công nghiệp này với các mô hình GPT và lớp mô hình lý luận.

Mặc dù cả hai công ty đều đang phát triển các chương trình LLM về AI tạo sinh, nhưng họ lại có những cách tiếp cận khác nhau.

Tiêu chí OpenAI DeepSeek
Năm thành lập 2015 2023
Trụ sở chính San Francisco, California, Mỹ Hàng Châu, Trung Quốc
Tập trung phát triển Khả năng AI rộng Các mô hình mã nguồn mở hiệu quả
Các mô hình chính GPT-4o, o1 DeepSeek-V3, DeepSeek-R1
Các mô hình chuyên dụng DALL·E (tạo hình ảnh), Whisper (nhận dạng giọng nói) DeepSeek Coder (lập trình), Janus Pro (mô hình tầm nhìn)
Giá API (trên một triệu token) o1: $15 (đầu vào), $60 (đầu ra) DeepSeek-R1: $0,55 (đầu vào), $2,19 (đầu ra)
Chính sách nguồn mở Giới hạn Hầu hết là mã nguồn mở
Phương pháp đào tạo Điều chỉnh có giám sát và hướng dẫn Điều chỉnh có giám sát và hướng dẫn
Chi phí phát triển Hàng trăm triệu đô la cho o1 (ước tính) Theo công ty, DeepSeek-R1 có giá dưới 6 triệu đô la

DeepSeek đang nổi lên như một đối thủ cạnh tranh đáng gờm trong lĩnh vực AI nhờ vào chiến lược mã nguồn mở và chi phí thấp hơn đáng kể so với OpenAI.

III. Đổi mới đào tạo trong DeepSeek

DeepSeek áp dụng một phương pháp khác biệt để huấn luyện các mô hình R1 của mình so với OpenAI. Quá trình đào tạo diễn ra nhanh hơn, yêu cầu ít bộ tăng tốc AI và giảm chi phí phát triển. Mục tiêu của DeepSeek là đạt được những tiến bộ trong khả năng suy luận, cho thấy sự phát triển đáng kể trong lĩnh vực AI.

Trong một nghiên cứu, DeepSeek đã chỉ ra nhiều cải tiến mà công ty đã thực hiện trong mô hình R1, bao gồm:

  • Học tăng cường. DeepSeek áp dụng phương pháp học tăng cường quy mô lớn, tập trung vào các nhiệm vụ liên quan đến lý luận.
  • Kỹ thuật khen thưởng. Các nhà nghiên cứu đã xây dựng một hệ thống khen thưởng dựa trên quy tắc, giúp mô hình vượt trội hơn so với các mô hình khen thưởng thần kinh thông thường. Kỹ thuật khen thưởng là quá trình thiết kế hệ thống khuyến khích nhằm hướng dẫn mô hình AI trong quá trình học.
  • Chưng cất. Bằng cách sử dụng các kỹ thuật chuyển giao kiến thức hiệu quả, các nhà nghiên cứu của DeepSeek đã thành công trong việc nén khả năng vào các mô hình nhỏ chỉ với 1,5 tỷ tham số.

Mạng lưới hành vi mới nổi. Sự đổi mới trong hành vi mới nổi của DeepSeek cho thấy rằng các mô hình lý luận phức tạp có thể phát triển tự nhiên thông qua học tăng cường mà không cần lập trình rõ ràng.

IV. Mô hình ngôn ngữ lớn DeepSeek

Kể từ khi thành lập vào năm 2023, DeepSeek đã cho ra mắt nhiều mô hình AI tạo sinh. Mỗi thế hệ mới đều mang đến những cải tiến về khả năng và hiệu suất:

  • DeepSeek Coder. Được giới thiệu vào tháng 11 năm 2023, đây là mô hình mã nguồn mở đầu tiên của công ty, được thiết kế đặc biệt cho các nhiệm vụ liên quan đến lập trình.
  • DeepSeek LLM. Ra mắt vào tháng 12 năm 2023, đây là phiên bản đầu tiên của mô hình đa mục đích của công ty.
  • DeepSeek-V2. Phát hành vào tháng 5 năm 2024, đây là phiên bản thứ hai của LLM, tập trung vào việc nâng cao hiệu suất và giảm chi phí đào tạo.
  • DeepSeek-Coder-V2. Xuất hiện vào tháng 7 năm 2024, mô hình này có 236 tỷ tham số và cung cấp cửa sổ ngữ cảnh lên tới 128.000 mã thông báo, được tối ưu hóa cho các bài toán lập trình phức tạp.
  • DeepSeek-V3. Ra mắt vào tháng 12 năm 2024, DeepSeek-V3 sử dụng kiến trúc mới, có khả năng xử lý đa dạng tác vụ. Mô hình này sở hữu 671 tỷ tham số với độ dài ngữ cảnh là 128.000.
  • DeepSeek-R1. Được phát hành vào tháng 1 năm 2025, mô hình này dựa trên DeepSeek-V3 và tập trung vào các tác vụ suy luận nâng cao, cạnh tranh trực tiếp với mô hình o1 của OpenAI về hiệu suất, đồng thời vẫn duy trì chi phí thấp hơn đáng kể. Tương tự như DeepSeek-V3, mô hình này cũng có 671 tỷ tham số với độ dài ngữ cảnh là 128.000.

Janus-Pro-7B. Ra mắt vào tháng 1 năm 2025, Janus-Pro-7B là một mô hình thị giác có khả năng hiểu và tạo ra hình ảnh.

Sản phẩm được tạo bởi Janus-Pro-7B
Sản phẩm được tạo bởi Janus-Pro-7B

V. Tại sao nó lại gây báo động ở Hoa Kỳ

Việc ra mắt DeepSeek-R1 đã tạo ra sự lo ngại tại Hoa Kỳ, dẫn đến tình trạng bán tháo cổ phiếu công nghệ trên thị trường chứng khoán. Vào thứ Hai, ngày 27 tháng 1 năm 2025, chỉ số Nasdaq Composite đã giảm 3,4% ngay khi mở cửa, trong khi cổ phiếu Nvidia giảm 17%, khiến công ty này mất khoảng 600 tỷ đô la vốn hóa thị trường.

DeepSeek đang gây chú ý ở Mỹ vì một số lý do sau:

  • Chi phí phát triển thấp. DeepSeek khẳng định đã phát triển mô hình R1 với chi phí dưới 6 triệu đô la. Việc phát triển với mức chi phí này đe dọa đến mô hình kinh doanh của các công ty công nghệ Mỹ, những đơn vị đã đầu tư hàng tỷ đô la vào lĩnh vực AI. Hơn nữa, DeepSeek cũng cung cấp dịch vụ rẻ hơn cho người dùng so với OpenAI.
  • Thành tựu kỹ thuật bất chấp hạn chế. Mặc dù việc xuất khẩu chip AI và GPU hiệu suất cao từ Mỹ sang Trung Quốc bị hạn chế, DeepSeek vẫn chứng minh rằng có thể phát triển AI tiên tiến mà không cần sử dụng công nghệ tiên tiến nhất từ Mỹ.
  • Đe dọa đến mô hình kinh doanh. Khác với OpenAI, vốn hoạt động theo mô hình độc quyền, DeepSeek lại là mã nguồn mở và miễn phí, điều này thách thức mô hình doanh thu của các công ty Mỹ, những đơn vị tính phí hàng tháng cho các dịch vụ AI.

Lo ngại về địa chính trị. Với trụ sở tại Trung Quốc, DeepSeek đang thách thức sự thống trị công nghệ của Mỹ trong lĩnh vực AI. Nhà đầu tư công nghệ Marc Andreessen đã gọi đây là khoảnh khắc Sputnik của AI, so sánh với bước tiến lớn trong cuộc đua không gian của Liên Xô vào những năm 1950.

VI. Tấn công mạng DeepSeek

Sự nổi bật của DeepSeek đã thu hút sự chú ý từ những kẻ tấn công mạng.

Với lượng người dùng tăng vọt, công ty buộc phải tạm thời ngừng nhận đăng ký mới. Thời điểm xảy ra cuộc tấn công trùng hợp với lúc ứng dụng trợ lý AI của DeepSeek vượt qua ChatGPT để trở thành ứng dụng được tải xuống nhiều nhất trên Apple App Store.

Mặc dù bị tấn công, DeepSeek vẫn tiếp tục cung cấp dịch vụ cho người dùng hiện tại. Sự cố kéo dài cho đến ngày 28 tháng 1, khi công ty thông báo rằng họ đã xác định được vấn đề và triển khai bản vá.

DeepSeek không cung cấp thông tin cụ thể về bản chất của cuộc tấn công, nhưng nhiều đồn đoán từ các báo cáo công khai cho thấy đây có thể là một hình thức tấn công vào API và nền tảng trò chuyện trực tuyến của công ty.

Ở thời điểm hiện tại DeepSeek đã hoạt động bình thường. Tuy nhiên đã kéo theo một số hệ lụy về bảo mật thông tin người dùng.

VII. Dữ liệu DeepSeek bị lộ

Wiz Research, một bộ phận thuộc nhà cung cấp dịch vụ bảo mật đám mây Wiz Inc., đã thông báo vào ngày 29 tháng 1 năm 2025 về việc phát hiện một cơ sở dữ liệu phụ trợ có thể truy cập công khai, dẫn đến rò rỉ thông tin nhạy cảm trên internet. Những thông tin bị rò rỉ bao gồm lịch sử trò chuyện của DeepSeek, dữ liệu phụ trợ, luồng nhật ký, khóa API và các chi tiết hoạt động khác. Ngay sau khi nhận được thông báo, DeepSeek đã đưa cơ sở dữ liệu này ngoại tuyến. Tuy nhiên, thời gian mà cơ sở dữ liệu này bị lộ vẫn chưa được xác định.

VIII. Kết luận

DeepSeek là gì? DeepSeek là một ứng viên trí tuên nhân tạo mới đến từ Trung Quốc và đã nhanh chóng trở thành một đối thủ cạnh tranh đáng gờm trong lĩnh vực trí tuệ nhân tạo, đặc biệt là với chiến lược mã nguồn mở và chi phí phát triển thấp. Việc ra mắt mô hình R1 với giá thành thấp hơn đáng kể so với các đối thủ đã khiến thị trường AI toàn cầu phải xem xét lại chiến lược của mình.

Tuy nhiên, sự trỗi dậy mạnh mẽ của DeepSeek cũng kéo theo nhiều thách thức. Từ tác động tiêu cực lên thị trường chứng khoán Mỹ đến các lo ngại về địa chính trị, DeepSeek không chỉ đe dọa mô hình kinh doanh của các công ty công nghệ lớn như OpenAI mà còn đặt ra nhiều câu hỏi về an ninh dữ liệu và an toàn mạng.

Mặc dù công ty đã chứng minh được tiềm năng vượt trội với những đổi mới trong đào tạo mô hình và khả năng phát triển AI không cần đến các tài nguyên đắt đỏ, nhưng các sự cố như tấn công mạng và rò rỉ dữ liệu nhạy cảm cũng đặt ra những thách thức lớn đối với sự phát triển bền vững của DeepSeek.

Trong tương lai, sự cạnh tranh giữa các công ty AI lớn như OpenAI và DeepSeek sẽ tiếp tục định hình lại ngành công nghiệp AI. DeepSeek có thể là một minh chứng cho việc AI có thể được phát triển với chi phí thấp và hiệu quả cao, nhưng liệu nó có thể duy trì được vị thế của mình trước những thách thức về bảo mật và chính sách quốc tế hay không vẫn còn là một câu hỏi mở.

Theo dõi WISE Business để nhanh chóng cập nhật các xu thế kinh tế – tài chính – công nghệ thế giới!

---------- Đọc full toàn bộ bài viết: https://wisebusiness.vn/deepseek-la-gi/

Nhận xét

Bài đăng phổ biến từ blog này

Brand Positioning Là Gì? Chiến Lược Xây Dựng Chi Tiết 2023

PHÂN TÍCH CHIẾN LƯỢC MARKETING CỦA VIETTEL – ÔNG VUA NGÀNH VIỄN THÔNG ĐẤT VIỆT 

Văn hóa doanh nghiệp của Nestle là gì? Hình thanh  dựa trên các giá trị nào?