Cách lấy dữ liệu từ Tổng cục thống kê (GSO) và tạo hình động biểu đồ GDP bằng Python

Cách lấy dữ liệu từ Tổng cục thống kê (GSO) và tạo hình động biểu đồ GDP bằng Python

Sau một thời gian thực hành với data science, mình bắt đầu thấy thích việc đọc data online và xử lý trực tiếp qua một loạt các dòng lệnh (script) hơn là download một file .csv hay .xls về và load chúng vào chương trình. Hôm nay, mình sẽ chỉ cho các bạn một tip cực kỳ quan trọng để lấy data từ Tổng cục thống kê (GSO) về, xử lý trực tiếp trên chương trình mà không cần thiết phải save về máy, ngoài ra chúng ta sẽ nghich một chút bằng cách tạo file .gif để xem sự phát triển của nền kinh tế Việt Nam. Bài viết sẽ sử dụng Python, thư viện pandas để xử lý dữ liệu, matplotlib, imageio và numpy để vẽ biểu đồ và hình động.

Tiếp tục đọc
Nhật ký Sendai (P21): Suy ngẫm về thuyết tương đối của ngôn ngữ

Nhật ký Sendai (P21): Suy ngẫm về thuyết tương đối của ngôn ngữ

Các bạn có biết người Pirahã sống ở vùng Amazon, Brazil nói một thứ ngôn ngữ không có số không? Một số học giả nói rằng họ không biết đếm từng số một, mà chỉ có từ như “ít” và “nhiều” để phân biệt số lượng. Chính vì thế, những thổ dân này gần như không có khả năng lĩnh hội các khái niệm toán chính xác, chứ đừng nói đến đại số phức tạp. Việc ngôn ngữ chúng ta nói định hình khả năng nghĩ và tư duy của chúng ta được gọi là thuyết Tương đối của ngôn ngữ (linguistic relativity). Cá nhân mình thì rất đồng tình với giả thuyết này. Mình có dịp tiếp xúc với nhiều bạn sinh viên quốc tế ở trường Tohoku, và thường xuyên nói chuyện với họ khiến mình nhận ra nhiều đặc điểm rất thú vị mà chắc chắn có liên quan đến thuyết này.

Tiếp tục đọc
Đi du học có “lời” không? Tổng kết thu chi hằng tháng bằng Money Lover và Python

Đi du học có “lời” không? Tổng kết thu chi hằng tháng bằng Money Lover và Python

Chắc chắn đây là câu hỏi của rất nhiều người, và hôm nay xin phép dùng dữ liệu thu chi và ít vốn liếng data science của mình trong những năm qua để trả lời. Bài viết này sử dụng file data (.csv) của Money Lover , một ứng dụng tuyệt vời mà mình đã sử dụng từ khi sang Nhật để lưu giữ nhật ký thu nhập và chi tiêu hằng tháng. Các bạn sẽ biết cách vẽ một số biểu đồ stacked bar (cột chồng) để xem balance, cũng như income của mình ra sao và làm treemap (là biểu đồ cây hoặc biểu đồ nhiệt) để xem mình chi cái gì nhiều nhất. Chúng ta sẽ code bằng Python.

Tiếp tục đọc
Tự phân tích những gì bạn viết trên WordPress bằng Python

Tự phân tích những gì bạn viết trên WordPress bằng Python

Bạn có bao giờ tò mò là trong quá trình viết blog xem là tần suất sử dụng từ của mình như thế nào không? Bạn viết gì nhiều nhất? Bài viết này sẽ hướng dẫn các bạn cách dùng kiến thức data science để trích xuất và xử lý dữ liệu bài viết trên wordpress. Sau đó chúng ta sẽ vẽ 3 biểu đồ: [bar chart] biểu thị tần suất các từ xuất hiện nhiều nhất trên blog, [word cloud] để visualize chúng thành tạo một đám mây chữ và [histogram] để xem sự phân bố của tần suất các chữ được sử dụng. Ngôn ngữ chúng ta sử dụng là Python, và sẽ có một số bước xử lý ngôn ngữ tự nhiên (NPL).

Tiếp tục đọc
Căn phòng tiếng Trung

Căn phòng tiếng Trung

là một trong những thought-experiment (thí nghiệm tưởng tượng) nổi tiếng nhất về Trí tuệ nhân tạo. Nó được phát biểu lần đầu tiên vào năm 1980 bởi một nhà triết học người Mỹ – John Searle. Tên tiếng Anh của nó là “The Chinese Room”.

Hãy tưởng tượng: Bạn không hề biết một chút gì về tiếng Trung, bạn ở trong một căn phòng kín mít. Nhiệm vụ của bạn là nhận những câu hỏi bằng tiếng Trung (input), biên dịch chúng và trả về output dưới dạng câu trả lời. Mặc dù không biết tí gì về tiếng Trung, nhưng bằng cách sử dụng các quy tắc quy đổi, so sánh, đối chiếu và biến tấu, v.v.. bạn vẫn có thể đưa ra output một cách hợp lý. Coi như bạn có một cuốn đại cẩm nang về tiếng Trung. Giả sử bạn thực hiện công việc này một cách cực kỳ trơn tru, thì nếu dựa trên kết quả đầu ra, một người bản ngữ hoàn toàn có thể cho rằng có một người bản ngữ đang ở trong căn phòng trên.

Tuy nhiên, câu hỏi thực sự là bạn có được coi là hiểu tiếng Trung không?

Tiếp tục đọc
Dành cho những người thấy việc học là khó, nhưng không muốn từ bỏ …

Dành cho những người thấy việc học là khó, nhưng không muốn từ bỏ …

Đôi khi, chúng ta cần làm điều gì đó để lấy lại động lực làm việc.

Học tiếng Nhật, học môn chuyên ngành, nghiên cứu, lập trình, v.v.. Bất cứ hoạt động nào yêu cầu sự sáng tạo, tích luỹ tri thức đều sẽ có những giây phút khiến bạn muốn bỏ cuộc. Khi đó bạn cần …

Tiếp tục đọc

Kinh nghiệm xin học bổng JSPS DC1&2

JSPS 2023 đã bắt đầu rục rịch nhận đơn rồi.

Link cho những bạn nào quan tâm: https://www.jsps.go.jp/j-pd/pd_sin.html

Hung's Blog

Bài viết này xin chia sẻ với các bạn một số kinh nghiệm nhỏ, hi vọng nó sẽ hữu ích cho các bạn muốn săn học bổng JSPS, hoặc các học bổng khác.

Xin có một lưu ý nhỏ là học bổng JSPS rất rộng, nó trải dài từ DC1, DC2, PD, SPD hoặc RPD. Trong đó DC1 dành cho những bạn nào mới học xong bậc thạc sĩ và chuẩn bị bước vào năm nhất bậc tiễn sĩ. DC2 dành cho những bạn nào đang học năm nhất hoặc năm 2 bậc tiễn sĩ. PD, SPD và RPD dành cho những bạn nào đã hoàn thành bậc tiễn sĩ và muốn đi tiếp tục con đường học thuật. Bài viết này chỉ tập trung vào kinh nghiệm xin học bổng DC1/2 vì cá nhân mình vẫn đang còn là nghiên cứu sinh.

Tại sao lại chọn học bổng JSPS…

Xem bài viết gốc 2 030 từ nữa

Cuộc đời Minamoto no Yoshitsune

Cuộc đời Minamoto no Yoshitsune

phần.0.before.tokugawa.

Nippon Kiyoshi

Minamoto no Yoshitsune (1159 – 1189) là một chiến binh huyền thoại thời Heian, ông là một mắt xích quan trọng đặt dấu chấm hết cho sự cai trị của nhà Taira và giúp cho anh trai mình, Yoritomo, trở thành người đàn ông hùng mạnh nhất nước Nhật thời bấy giờ, đánh giấu sự khởi đầu của chế độ Mạc phủ – Tướng quân kéo dài suốt 7 thế kỉ tại Nhật Bản. Sau đây là cuộc đời và sự nghiệp của ông.

Xem bài viết gốc 2 273 từ nữa

Mạc phủ Tokugawa sụp đổ. Thiên hoàng trở lại nắm quyền.

Mạc phủ Tokugawa sụp đổ. Thiên hoàng trở lại nắm quyền.

phần.2.

Nippon Kiyoshi

Sau hơn 200 năm thái bình dưới sự trị vì của Tướng quân, Mạc phủ Tokugawa rốt cuộc cũng phải đầu hàng trước thời thế. Vào những năm cuối cùng của chế độ Mạc phủ, những nạn chết đói, các lãnh chúa bất mãn với chế độ, sức ép từ các quốc gia phương Tây,… đã làm Mạc phủ suy yếu trầm trọng mà đỉnh cao là Cuộc nội chiến Mậu Thìn (Boshin Senso) hay còn được biết đến nhiều hơn dưới cái tên Cuộc chiến Minh trị duy tân. Kết quả của nó là đưa Hoàng đế (Minh Trị) trở lại ngôi vị cao nhất Nhật Bản. Tuy nhiên, vì sao Mạc phủ Tokugawa, từ đỉnh cao quyền lực tưởng chừng như không có đối thủ lại thất bại và sụp đổ trong nửa cuối những năm 1800s?

Xem bài viết gốc 4 010 từ nữa

Chính trị thời Mạc phủ Tokugawa

Chính trị thời Mạc phủ Tokugawa

phần.1.

Nippon Kiyoshi

Tokugawa là dòng họ Tướng quân (shogun) cuối cùng của Nhật Bản (kéo dài từ 1600 – 1868), trước khi bị phế truất bởi Thiên hoàng Minh Trị, đánh dấu sự sụp đổ của chế độ phong kiến, mở đường cho nước Nhật hiện đại hóa và đi theo con đường “Tây hóa”. Thời kỳ của Mạc phủ Tokugawa cũng là một trong những thời kỳ đỉnh cao và thịnh vượng bậc nhất của chế độ Mạc phủ – người đứng đầu quốc gia và có thực quyền là Tướng quân trong khi Hoàng đế chỉ là người tượng trưng, không có thực quyền. Điều này có được cũng là nhờ tài lãnh đạo và trị nước hiệu quả của gia tộc Tokugawa, mà nổi bật là tộc trưởng Tokugawa Ieyasu. Trong bài viết này, chúng ta sẽ biết được sự hình thành thú vị của gia tộc Tokugawa, và…

Xem bài viết gốc 2 868 từ nữa

Cách chạy trốn/backup khỏi WordPress.com

Cách chạy trốn/backup khỏi WordPress.com

Blog của mình vẫn xài wordpress, nhưng mà có xài lâu mới thấy nó có nhiều nhược điểm và hơi hơi tốn kém. Hiện nay chúng ta có lựa chọn, nhiều host free mà các bạn có thể dùng (điển hình như Jekyll). Bài viết này sẽ giúp các bạn backup lại toàn bộ các bài viết của mình trên wordpress.com, chuyển sang định dạng markdown để các bạn tiện xử lý.

Tiếp tục đọc
Nhật ký Sendai (P20): Tôi bắt đầu nghiện Sci-fi | Nhìn lại những sách đã đọc trong năm 2021

Nhật ký Sendai (P20): Tôi bắt đầu nghiện Sci-fi | Nhìn lại những sách đã đọc trong năm 2021

Thế là mình đã hoàn thành mục tiêu Goodreads của năm 2021 (phew). Một năm qua mình phát hiện ra 3 điều thú vị về sách. Một, như tiêu đề đã đề cập, mình bắt đầu nghiện đọc sci-fi (hay là khoa học viễn tưởng), đặc biệt là loại “hard sci-fi”, tức là nhấn mạnh vào tính đúng đắn của khoa học. Hai, mình không ngại đọc sách/tiểu thuyết dài bằng tiếng Anh nữa. Từ hồi vào Master thì đã hết ngại đọc sách giáo trình tiếng Anh. Ba, Covid-19 thực sự đã giúp mình đọc nhiều hơn, nhờ tiết kiệm thời gian đi chơi với bạn bè và chính sự chán chường gây ra bởi đại djich đã đưa mình đến sci-fi. Bài viết này sẽ tổng hợp lại một số cuốn tâm đắc nhất mình đã may mắn đọc được.

Tiếp tục đọc
Phương pháp học từ vựng và ngoại ngữ

Phương pháp học từ vựng và ngoại ngữ

Mình sẽ chia sẻ cho các bạn một số phương pháp học từ vựng với bất kỳ một ngôn ngữ mới nào, lấy cảm hứng từ nhiều polygots nổi tiếng thế giới.

Tiếp tục đọc
Cách gõ tiếng Việt và tiếng Nhật (Trung, Hàn) trong LaTeX

Cách gõ tiếng Việt và tiếng Nhật (Trung, Hàn) trong LaTeX

Thực ra với các package hiện tại thì gõ tiếng Việt trên LaTeX không khó lắm, vì gói ngôn ngữ babel hỗ trợ khá tốt vấn đề này. Tuy nhiên, gõ tiếng Nhật (hay Trung, Hàn, gọi chung là nhóm ngôn ngữ CJK) thì cần một số thủ thuật để việc nhập liệu của các bạn trở nên trơn tru hơn.

Tiếp tục đọc
Phân tách tăng trưởng kinh tế hiện đại (APG) p.1: Lý thuyết

Phân tách tăng trưởng kinh tế hiện đại (APG) p.1: Lý thuyết

Trong kinh tế học truyền thống, các phương pháp phân tích tăng trưởng kinh tế vĩ mô, cụ thể là tăng trưởng năng suất lao động (productivity growth) chủ yếu dựa vào mô hình Solow. Đầu vào của nền kinh tế là K (tư bản), L (lao động) và A (công nghệ). Năng suất lao động hầu hết được hiểu là nằm ở A. Theo lý thuyết này, mô hình Solow có 2 phiên bản chính rất hay được sử dụng, một là Hicks-neutral (trong đó coi A nằm ngoài K và L, còn gọi là TFP), hai là Harrod-neutral (trong đó A được coi là số nhân của L, và lao động thô L trở thành lao động hiệu quả AL). Một số nền kinh tế phát triển như EU, Mỹ, Nhật Bản đã phát triển một hệ thống dữ liệu niên giám cấp ngành rất đồ sộ, và nhờ vậy, việc phân tích tăng trưởng kinh tế hiện đại đã có một bước tiến lớn. Cụ thể, phương pháp dưới đây phân tích tăng trưởng của năng suất lao động không chỉ dựa trên K, L mà thêm vào đó là II (hàng hoá trung gian) và VA (giá trị gia tăng). Bài viết này sẽ trình bày lý thuyết của mô hình (ở phần 1) và ứng dụng của nó vào phân tích tăng trưởng kinh tế của Vương quốc Bỉ (phần 2).

Paper gốc: Petrin, A. and Levinsohn, J. (2012), Measuring aggregate productivity growth using plant-level data. The RAND Journal of Economics, 43: 705-725. https://doi.org/10.1111/1756-2171.12005

Tiếp tục đọc