Python 中的 jisho.org API 和爬虫。
项目描述
jisho-api
围绕抓取jisho.org(在线日语词典)构建的 Python API。
pip install jisho_api
要求
您可以请求三种类型的信息:
- 字
- 汉子
- 句子
- 标记句子
搜索词直接注入到 jisho 的搜索引擎中,这意味着用于策划搜索的所有过滤器也应该可以正常工作。例如,"水"
将精确查找仅包含该字符的单词。
查看https://jisho.org/docs以了解如何使用搜索过滤器。
jisho search word water
jisho search word 水
jisho search word "#jlpt-n4"
请求回复是Pydantic对象。您可以在 中检查单词请求的结构,jisho/word/cfg.py
对于汉字和句子也是如此。
您也可以通过以下方式以编程方式执行此操作:
from jisho_api.word import Word
r = Word.request('water')
from jisho_api.kanji import Kanji
r = Kanji.request('水')
from jisho_api.sentence import Sentence
r = Sentence.request('水')
from jisho_api.tokenize import Tokens
r = Tokens.request('昨日すき焼きを食べました')
注意:页面中几乎所有可用的东西都被刮掉了。 注意:汉字请求可能带有不完整的信息,因为它在页面中不可用。
刮板
您可以从网站上抓取给定搜索词的列表。向他们提供一个.txt
文件,其中的单词由换行符分隔。
jisho scrape word words.txt
jisho scrape kanji kanji.txt
jisho scrape sentence search_words.txt
jisho scrape tokens sentences.txt
所有结果搜索都将存储在~/.jisho/data
.
如果您想以编程方式进行抓取,您可以:
from jisho_api import scrape
from jisho_api.word import Word
word_requests = scrape(Word, ['water', 'fire'], 'to/path/')
这将返回一个字典,其中键值是搜索词和请求结果。不包括失败的请求。
缓存和配置
如果要启用缓存,只需运行
jisho config
这将使用您的设置创建一个~/.jisho/
文件夹。config.json
如果您再次搜索完全相同的术语,您的所有搜索都将被缓存并访问。
注意事项和注意事项
根据这个帖子,没有官方API,虽然有一种jisho.org提出的API请求,用于刮字。这不适用于 Kanji tho,因为它会将 Kanji 作为单词进行搜索,并且没有任何与字符本身相关的元数据。
在上述线程中也授予了抓取权限。
正如他们的关于页面中所述,jisho.org 使用了一系列著名的电子词典:
该站点使用 JMdict、Kanjidic2、JMnedict 和 Radkfile 字典文件。-jisho.org
数据的致谢和致谢
所有的功劳都在应得的地方给出,并且在 jisho.org 的about page上给出了几个提取的资源。
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。