0. 获取结构化地址数据

(如果项目未提供结构化地址字段)

输入: 待治理的地址文本

输出:address_raw + province + city + district + township + neighborhood + road + house_number + community + …

【程序】knowledge_new/知识库生成前准备/request_split_api.py

1. 确定五级行政区划

输入:项目提供的五级行政区划, 国家统计局的五级行政区划

输出:知识库使用的五级行政区划

可能用到的程序/函数:

【程序】

末尾字符权重降低计算相似度

knowledge_new/知识库生成前准备/public_functions.py calculate_similarity_limit

bi-gram计算相似度:

knowledge_new/知识库生成前准备/public_functions.py compute_bigram_similarity

2. 小区表的构建

输入:结构化的地址数据

工具: 高德的geocoding(企业账号调用量30w/天), 高德place search (企业账号调用量1k/天),高德周边搜索(企业账号调用量1k/天)

2.1 结构化小区列预处理