Cách lấy dữ liệu từ Tổng cục thống kê (GSO) và tạo  hình động biểu đồ GDP

Cách lấy dữ liệu từ Tổng cục thống kê (GSO) và tạo hình động biểu đồ GDP

Sau một thời gian thực hành với data science, mình bắt đầu thấy thích việc đọc data online và xử lý trực tiếp qua một loạt các dòng lệnh (script) hơn là download một file .csv hay .xls về và load chúng vào chương trình. Hôm nay, mình sẽ chỉ cho các bạn một tip cực kỳ quan trọng để lấy data từ Tổng cục thống kê (GSO) về, xử lý trực tiếp trên chương trình mà không cần thiết phải save về máy, ngoài ra chúng ta sẽ nghich một chút bằng cách tạo file .gif để xem sự phát triển của nền kinh tế Việt Nam. Bài viết sẽ sử dụng Python, thư viện pandas để xử lý dữ liệu, matplotlib, imageio và numpy để vẽ biểu đồ và hình động.

Tiếp tục đọc
Nhật ký Sendai (P21): Suy ngẫm về thuyết tương đối của ngôn ngữ

Nhật ký Sendai (P21): Suy ngẫm về thuyết tương đối của ngôn ngữ

Các bạn có biết người Pirahã sống ở vùng Amazon, Brazil nói một thứ ngôn ngữ không có số không? Một số học giả nói rằng họ không biết đếm từng số một, mà chỉ có từ như “ít” và “nhiều” để phân biệt số lượng. Chính vì thế, những thổ dân này gần như không có khả năng lĩnh hội các khái niệm toán chính xác, chứ đừng nói đến đại số phức tạp. Việc ngôn ngữ chúng ta nói định hình khả năng nghĩ và tư duy của chúng ta được gọi là thuyết Tương đối của ngôn ngữ (linguistic relativity). Cá nhân mình thì rất đồng tình với giả thuyết này. Mình có dịp tiếp xúc với nhiều bạn sinh viên quốc tế ở trường Tohoku, và thường xuyên nói chuyện với họ khiến mình nhận ra nhiều đặc điểm rất thú vị mà chắc chắn có liên quan đến thuyết này.

Tiếp tục đọc
Đi du học có “lời” không?

Đi du học có “lời” không?

Chắc chắn đây là câu hỏi của rất nhiều người, và hôm nay xin phép dùng dữ liệu thu chi và ít vốn liếng data science của mình trong những năm qua để trả lời. Bài viết này sử dụng file data (.csv) của Money Lover , một ứng dụng tuyệt vời mà mình đã sử dụng từ khi sang Nhật để lưu giữ nhật ký thu nhập và chi tiêu hằng tháng. Các bạn sẽ biết cách vẽ một số biểu đồ stacked bar (cột chồng) để xem balance, cũng như income của mình ra sao và làm treemap (là biểu đồ cây hoặc biểu đồ nhiệt) để xem mình chi cái gì nhiều nhất. Chúng ta sẽ code bằng Python.

Tiếp tục đọc
Tự phân tích những gì bạn viết trên WordPress bằng Python

Tự phân tích những gì bạn viết trên WordPress bằng Python

Bạn có bao giờ tò mò là trong quá trình viết blog xem là tần suất sử dụng từ của mình như thế nào không? Bạn viết gì nhiều nhất? Bài viết này sẽ hướng dẫn các bạn cách dùng kiến thức data science để trích xuất và xử lý dữ liệu bài viết trên wordpress. Sau đó chúng ta sẽ vẽ 3 biểu đồ: [bar chart] biểu thị tần suất các từ xuất hiện nhiều nhất trên blog, [word cloud] để visualize chúng thành tạo một đám mây chữ và [histogram] để xem sự phân bố của tần suất các chữ được sử dụng. Ngôn ngữ chúng ta sử dụng là Python, và sẽ có một số bước xử lý ngôn ngữ tự nhiên (NPL).

Tiếp tục đọc