應該用乜嘢語言同埋platform做最好?

我要做以下呢幾樣嘢:

1. Web scraping

喺不同嘅網站攞一啲不同嘅資訊同文件(主要係法律文件同埋法律案例)

2. Analysis, arrange and manipulation of the text

跟住做一大輪分析與整合。當中包括一啲natural language processing以及AI嘅嘢要做。

3. Produce a book (with table of contents and index)

做曬分析同埋整理之後寫落一個document度Google Doc 或者 MS Word. 每一個section會有自己唔同嘅number.

A. 請問我係咪可以全程用曬python 嚟做呢一個project?
B.  定還是google doc入面都可以做到?
C. 喺舊雲入面做定還是喺自己部電腦度做比較好?
D. 如果喺舊雲嗰度做請問用邊一個platform最好?

唔該曬大家



via HKEPC Reader for Android

你所描述的專案來說,最好的程式語言是Python。

Python 是一種易於學習和使用的通用程式語言,它擁有大量可用於網頁抓取、資料分析和自然語言處理的程式庫和工具。

網頁抓取和自然語言處理,Python 由於其豐富的函式庫和易用性通常被認為是最好的程式語言。

Python 擁有廣泛用於網頁抓取的 BeautifulSoup 和 Scrapy 等函式庫,以及用於自然語言處理的 NLTK 和 spaCy 等函式庫。

至於平台,您可以使用與最佳程式語言相同的平台,在本例中為 Python。

但是,如果您願意,也可以使用不同的平台。

例如,您可以使用 Google Colab,它是一個基於雲端的平台,提供用於運行 Python 程式碼的 Jupyter 筆記本環境。

根據您的特定專案要求,使用相同的程式語言進行網頁抓取和分析可以有幾個優點。

它允許將抓取的資料無縫整合到分析管道中,從而更輕鬆地操作和分析文字。

在這種情況下,Python 是網頁抓取和分析的合適選擇。

專案是否可以使用Google Docs取決於專案的特定要求。

如果您需要建立具有目錄和索引的文檔,那麼 Google 文件可能不是最佳選擇。

但是,如果您只需要編寫文檔,那麼 Google Docs 可能是一個不錯的選擇。

至於製作一本帶有目錄和索引的書籍,使用 Google Docs 或 MS Word 可能是個方便的選擇。

這兩個平台都提供了組織和格式化文件的功能,包括目錄和索引生成。

您可以將分析結果從 Python 匯出為與這些平台相容的格式,例如 Word 文件或 PDF。

至於雲端做到地表好還是自己電腦做好,就看你的具體需求和喜好了。 如果您需要從任何地方存取資料和工具,那麼雲端可能是更好的選擇。

但是,如果您希望對環境有更多的控制,那麼在您自己的電腦上進行可能是更好的選擇。

如果您決定使用雲,那麼您可以使用許多平台。

一些流行的選項包括 Amazon Web Services (AWS)、Microsoft Azure 和 Google Cloud Platform (GCP)。

在託管專案時,使用雲端可以帶來多種好處。

它提供可擴展性、可靠性和可從任何有網路連線的地方存取。

您可以選擇 Google Cloud Platform 或 Amazon Web Services 等雲端平台來託管您的專案。

這些平台提供各種服務和工具,可以支援您的網頁抓取、分析和文件製作工作流程。

TOP

thank you for your help

TOP

我用 Google Apps Script + Javacript
https://www.hkepc.com/forum/view ... %26amp%3Btypeid%3D6

TOP

不同網站睇人地公開既文件無問題,但係用bot爬人地,確定無問題?
人手search,睇,下載,同用bot爬性質係唔同的。
安全至上呀樓主。
python 確係做呢類易好多,因為太多人地做好既現成script,攞番黎略改就可以用,996就好多人利用python爬人地網站資料。

TOP