來自 AI for Beginners Curriculum 的實驗作業。
在這個實驗中,我們挑戰你使用 Skip-Gram 技術訓練 Word2Vec 模型。訓練一個帶有嵌入層的網絡,來預測
你可以使用任何一本書作為數據集。在 Project Gutenberg 上可以找到許多免費的文本,例如,這裡有 Lewis Carroll 的《愛麗絲夢遊仙境》的直接鏈接。或者,你也可以使用莎士比亞的戲劇,以下代碼可以幫助你獲取:
path_to_file = tf.keras.utils.get_file(
'shakespeare.txt',
'https://storage.googleapis.com/download.tensorflow.org/data/shakespeare.txt')
text = open(path_to_file, 'rb').read().decode(encoding='utf-8')如果你有時間並且想更深入地研究這個主題,可以嘗試探索以下幾個問題:
- 嵌入層的大小如何影響結果?
- 不同的文本風格如何影響結果?
- 選擇幾個非常不同類型的詞及其同義詞,獲取它們的向量表示,應用 PCA 將維度降到 2,並將它們繪製在 2D 空間中。你能看到任何模式嗎?
免責聲明:
此文件已使用 AI 翻譯服務 Co-op Translator 進行翻譯。我們致力於提供準確的翻譯,但請注意,自動翻譯可能包含錯誤或不準確之處。應以原始語言的文件作為權威來源。對於關鍵資訊,建議尋求專業人工翻譯。我們對因使用此翻譯而引起的任何誤解或錯誤解讀概不負責。