標題: 應該用乜嘢語言同埋platform做最好? [打印本頁]
作者: jajalam 時間: 2023-10-1 10:51 標題: 應該用乜嘢語言同埋platform做最好?
我要做以下呢幾樣嘢:
1. Web scraping
喺不同嘅網站攞一啲不同嘅資訊同文件(主要係法律文件同埋法律案例)
2. Analysis, arrange and manipulation of the text
跟住做一大輪分析與整合。當中包括一啲natural language processing以及AI嘅嘢要做。
3. Produce a book (with table of contents and index)
做曬分析同埋整理之後寫落一個document度Google Doc 或者 MS Word. 每一個section會有自己唔同嘅number.
A. 請問我係咪可以全程用曬python 嚟做呢一個project?
B. 定還是google doc入面都可以做到?
C. 喺舊雲入面做定還是喺自己部電腦度做比較好?
D. 如果喺舊雲嗰度做請問用邊一個platform最好?
唔該曬大家
via HKEPC Reader for Android
作者: s20012797 時間: 2023-10-1 11:45
你所描述的專案來說,最好的程式語言是Python。
Python 是一種易於學習和使用的通用程式語言,它擁有大量可用於網頁抓取、資料分析和自然語言處理的程式庫和工具。
網頁抓取和自然語言處理,Python 由於其豐富的函式庫和易用性通常被認為是最好的程式語言。
Python 擁有廣泛用於網頁抓取的 BeautifulSoup 和 Scrapy 等函式庫,以及用於自然語言處理的 NLTK 和 spaCy 等函式庫。
至於平台,您可以使用與最佳程式語言相同的平台,在本例中為 Python。
但是,如果您願意,也可以使用不同的平台。
例如,您可以使用 Google Colab,它是一個基於雲端的平台,提供用於運行 Python 程式碼的 Jupyter 筆記本環境。
根據您的特定專案要求,使用相同的程式語言進行網頁抓取和分析可以有幾個優點。
它允許將抓取的資料無縫整合到分析管道中,從而更輕鬆地操作和分析文字。
在這種情況下,Python 是網頁抓取和分析的合適選擇。
專案是否可以使用Google Docs取決於專案的特定要求。
如果您需要建立具有目錄和索引的文檔,那麼 Google 文件可能不是最佳選擇。
但是,如果您只需要編寫文檔,那麼 Google Docs 可能是一個不錯的選擇。
至於製作一本帶有目錄和索引的書籍,使用 Google Docs 或 MS Word 可能是個方便的選擇。
這兩個平台都提供了組織和格式化文件的功能,包括目錄和索引生成。
您可以將分析結果從 Python 匯出為與這些平台相容的格式,例如 Word 文件或 PDF。
至於雲端做到地表好還是自己電腦做好,就看你的具體需求和喜好了。 如果您需要從任何地方存取資料和工具,那麼雲端可能是更好的選擇。
但是,如果您希望對環境有更多的控制,那麼在您自己的電腦上進行可能是更好的選擇。
如果您決定使用雲,那麼您可以使用許多平台。
一些流行的選項包括 Amazon Web Services (AWS)、Microsoft Azure 和 Google Cloud Platform (GCP)。
在託管專案時,使用雲端可以帶來多種好處。
它提供可擴展性、可靠性和可從任何有網路連線的地方存取。
您可以選擇 Google Cloud Platform 或 Amazon Web Services 等雲端平台來託管您的專案。
這些平台提供各種服務和工具,可以支援您的網頁抓取、分析和文件製作工作流程。
作者: jajalam 時間: 2023-10-5 19:38
thank you for your help
作者: javacomhk 時間: 2023-10-5 21:29
我用 Google Apps Script + Javacript
https://www.hkepc.com/forum/view ... %26amp%3Btypeid%3D6
作者: 電腦盲用戶 時間: 2023-10-5 23:30
不同網站睇人地公開既文件無問題,但係用bot爬人地,確定無問題?
人手search,睇,下載,同用bot爬性質係唔同的。
安全至上呀樓主。
python 確係做呢類易好多,因為太多人地做好既現成script,攞番黎略改就可以用,996就好多人利用python爬人地網站資料。
