Закрыто

База организаций России из Яндекс Карты (Яндекс Справочник)

Тема в разделе "Бизнес и свое дело", создана пользователем orka13, 7 мар 2018.

Цена: 10270р.
Взнос: 950р.
32%

Основной список: 40 участников

Резервный список: 1 участников

Статус обсуждения:
Комментирование ограничено.
  1. 21 мар 2018
    #21
    intelligent man
    intelligent man ОргОрганизатор
    @Testimonial
    @htrmaster
    @Mr-Grey
    А вы проверяли полноту собранной базы, то есть открыли ряд компаний на Яндекс.Картах. И потом смотрите, есть ли они в базе организаций от автора. Делали такое, какие результаты?
     
  2. 21 мар 2018
    #22
    Mr-Grey
    Mr-Grey ОргОрганизатор (А)
    Да, конечно. Все было ровно. Я такую базу использую как базу ретаргета. Это пушка!
     
    3 пользователям это понравилось.
  3. 21 мар 2018
    #23
    orka13
    orka13 ЧКЧлен клуба (А)
    @intelligent man
    Перечитал еще раз пост и понял что интересует именно «обратная связь». Попробовал ручками рандомные организации на карте поискать и сопоставить их ID с данными в базе: почти все нашлись, но после длительного кликания (где-то 20 организаций проверил) нашел все же такую, которой в базе нет. Подумал, что может парсер ее пропустил, но потом начал сравнивать со старой сырой базой до того как я ее ручками чистил, и нашел. писал об этой чистке этом в комментах на первой странице:
    Хз что делать, теперь. Там несколько процентов относительно всего размера базы я подчистил. Если кому-то ОЧЕНЬ важно получить абсолютно все организации, то попробую найти те строки с «некорректными адресами», которые я подчистил, но там много организаций реально НЕ из России. Если не получится найти тот мусор, то тогда уже при обновлении базы учту этот горький опыт, и раздам 2 части базы: "Классическую точно только из России", и "мини-базу со спорными адресами, которые сформировались в результате чистки".
     
    1 человеку нравится это.
  4. 21 мар 2018
    #24
    intelligent man
    intelligent man ОргОрганизатор
    @orka13
    Спасибо за честность :)
     
  5. 21 мар 2018
    #25
    intelligent man
    intelligent man ОргОрганизатор
    Это платная программа?
     
  6. 21 мар 2018
    #26
    orka13
    orka13 ЧКЧлен клуба (А)
    Да, но есть полнофункциональный триал, и портативный триал. Ну и на торрентах\варезниках можете расширенную версию поискать :).
    Оставлю здесь цитату с одной темы, где интересовались софтом для работы с крупными текстовыми файлами (чистка дублей, выборка и т.д.):
    **********************************************************************
    Ну раз уж такая пянка пошла.... Опыта у меня много, свои базы ключей собирал, максимальные файлы с которыми работал – ~1 миллиард строк (~100 гиг). Вот мой опыт:

    НЕ используйте:


    "TextPipe PRO" - типа крутой, но чертовски медленно обрабатывает крупные файлы (больше 100 мб). Особенно на функции перемешивания. Он универсален, многофункционален. Но сильно проигрывает другим утилитам в быстродействии, потому уже больше года даже не запускал его. Он был актуален лет десять назад, сейчас говно говном. Его фишка - что можно сохранить сценарий с несколькими етапами обработки файла. Но на той же Зенке + C# блоках быстрее получится сделать подобное. А крупные файли они оба не скушают.

    KWK KeyWordKeeper_5B5 - он на больших файлах режет\ковыряет строки в местах склейки, мне он очень жизнь попортил таким багом скрытым. Старая верия 4.х нормально работала, но с очень большими файлами просто стопорилась в начале обработки.

    Вот актуальный список утилит для обработки txt:


    Penguin - купил несколько лицензий (ПК + сервер), так как фриверсия имеет ограничения по функционалу\обьему файлов. Удаляю дубли, перемешиваю, делаю выборку по регуляркам. Всегда проверяйте им же количество строк в сумме в выходных файлах, а то он у меня на всех последних версиях очень изредка на крупных файлах (пару гб размер, длинные строки) теряет пару строк после любой операции с файлом. Мелочь, но все же предупрежу. Старая 6 версия Пингвина и 4 версия KeyWordKeeper норм срабатывают.


    smf_sortcleaner.bat.exe - самая быстрая чистка на дубли в файлах до ~5-10 гиг у этого батника, все остальные мелкие проги отдыхают (Unified List Manager, Fast_Duplicates_Remover_v0.1, DupKill, truesort, tdk_Text Duplicate Killer). Он все в память грузит. Так что желательно через диспетчер задач смотреть, если память при обработке более чем на 90% заполнена, то он затягивает обработку, может и не закончить. Обычно если файл весил 5 гб, то памяти на него шло ~10 гб.


    gnuwin32 - если файлы очень больше (тестировал на 10-100 гиг, Penguin еще тогда не существовал), то удобно удаление дублей на линуксе делать через команду «sort». Или как я сделал: установил себе на винду юникские консольные команды в пакете - Скрытая ссылка .

    Потом командой в CMD обработал (текстовку в папку «c:\33» закинул) :
    Код:
    sort -u -T c:\33 -o filename_no_dubli.txt filename.txt
    Делает долго, но зато пределов в размере нет. Чистил так собственную базу метрики на 40 гиг (в финале). Где-то сутки вроде обрабатывало. ОЗП не грузить, просто медленно себе копирует файлы частями в пределах HDD, потихоньку чистя дубликаты. Ну и куча других функций там есть, типа выборки по списку регулярок и т.д.

    EmEditor - текстовый редактор для работы с регулярками\автозаменой в больших текстовых файлах. Умеет работать с TXT\CSV таблицами. Есть триал\портабл на 30 дней, или ищите фулл-версию.

    Amazing Keywords - купил лицензию для преобразования в формат AKDB и сверхбыстрой выборки из баз ключей.

    ********************************
     
    4 пользователям это понравилось.
  7. 22 мар 2018
    #27
    intelligent man
    intelligent man ОргОрганизатор
    @orka13
    А можно еще сделать базу по остальным странам?
     
  8. 22 мар 2018
    #28
    Mozgovik
    Mozgovik ЧКЧлен клуба
    Бегло глянул, поэтому спрошу: Там можно отсортировать контакты по региону?
    @orka13
    Заметил, что у вас телефоны городские в одном столбике с мобильными.
    А если мне нужны только мобильные - есть возможность их отсортировать?
    Хорошо бы сразу разбивать их на разные столбцы.
    Мобильные пригодны для работы.
    Городские - бесполезны, на них ничего не пришлёшь и к менеджерам они не привязаны
     
    2 пользователям это понравилось.
  9. 22 мар 2018
    #29
    Mr-Grey
    Mr-Grey ОргОрганизатор (А)
    Я сортировал по типу организации. Пример есть в стартпосте можно поковырять.
     
  10. 22 мар 2018
    #30
    Mozgovik
    Mozgovik ЧКЧлен клуба
    Поправка: к Мессенджерам - WhatsaPP, Telegram и др
    Я новичок и не очень понял, для Ретаргетинга используете номера стационарных/городских телефонов организаций?
     
  11. 22 мар 2018
    #31
    Mr-Grey
    Mr-Grey ОргОрганизатор (А)
    Посмотри по кодам ))
     
    1 человеку нравится это.
  12. 22 мар 2018
    #32
    Mozgovik
    Mozgovik ЧКЧлен клуба
    Файл в старт-посте не открывается. Слишком он тяжёлый, видимо, для блокнота.
    Скажите на словах.

    А вообще, я что-то не понимаю разницы.
    Ещё недавно мы покупали эту базу по цене 100+ рублей,
    а теперь предлагается то же самое по цене 1000- рублей
     
    1 человеку нравится это.
  13. 22 мар 2018
    #33
    intelligent man
    intelligent man ОргОрганизатор
    @orka13
    Реально разделить на два столбца, мобильные и не мобильные номера? Просто видел такое у конкурентов :)
    Мобильные/Немобильные
     
    1 человеку нравится это.
  14. 22 мар 2018
    #34
    intelligent man
    intelligent man ОргОрганизатор
    @Mozgovic
    Как я для себя понимаю, главный плюс этой базы, что можно фильтровать данные по всей России и делать их оперативный экспорт. Тогда как в той, завершенной теме, надо открывать каждый файл, фильтровать, копировать в новый файл.
     
    2 пользователям это понравилось.
  15. 22 мар 2018
    #35
    orka13
    orka13 ЧКЧлен клуба (А)
    хз. Не уверен что будет спрос. Теоретически можно отдельно сделать ветку по России, отдельно по всем остальным странам СНГ, где активны ЯндексКарты.
    Да, столбец №3 "Адрес", но надо быть внимательным, ибо там сам Яндекс изредка может пропускать страну\область в адресе, и начинать строку адреса, например, сразу с города. Я писал это в старпосте.
    Насколько я понял в последнее время Яндекс отдает телефон без указания категории «мобильные», есть просто категория «телефон», и «телефон-факс». Так что здесь уже как-то самостоятельно придется сортировать на основе телефонных кодов.
    Стандартный блокнот не годится для такой работы. Вот без вареза портативная триал-версия EmEditor (я так понял раздавать с варезом сдесь не рекомендовано, ищите сами), мне в ней наиболее удобно было работать. Примеры как открыть файл-базу в форме таблице указаны на скриншотах в предыдущих комментариях этой темы.

    UPD: там же в старпосте есть и ссылка на гугл-драйв, где отрывок базы экспортирован в .xlsx файл. Его там тоже можно по кнопке скачать (справа вверху кнопка). Только в Excel открывайте а не в блокноте :).
    Ну дык здесь свежая версия в авторской складчине. Раньше Яндекс лучше информацию сортировал, сам почты выдавал, был более лоялен к массовому парсингу, а теперь все больше палок в колеса вставляет.
    В той теме не участвовал, складчики оттуда могут лучше поделится инфой.
    ХЗ. Подскажите алгоритм, если он не сильно трудозатратный, то попробую. Теоретически могу на зенке построчно пересобрать базу, сравнивая каждый телефон по каким-то признакам на "мобильную\НЕмобильную" версию. Но как это сделать? Я не резидент РФ, у вас есть где-то точная актуальная база кодов мобильных операторов, чтобы я мог по ней отфильтровать телефон?
     
    Последнее редактирование модератором: 22 мар 2018
    2 пользователям это понравилось.
  16. 22 мар 2018
    #36
    intelligent man
    intelligent man ОргОрганизатор
    Я участвовал, поэтому и пишу :)
    Да, так и делается, парсер фильтрует по признакам мобильных операторов. Всё что мимо, то переносит в Немобильные. Тут не нужны конкретные коды, просто надо вводить маски на количество символов, на начало +79 или 89 и с 8900 до 8999. 8800 это уже Немобильные, всё понятно, просто надо поэтапно отфильтровывать и дополнять парсер.
     
    1 человеку нравится это.
  17. 22 мар 2018
    #37
    orka13
    orka13 ЧКЧлен клуба (А)
    ок, попробую вечером сделать шаблон на зенке для постобработки, скажу если получится переделать.
     
  18. 22 мар 2018
    #38
    intelligent man
    intelligent man ОргОрганизатор
    @orka13
    Ты главное внедри такое в свой парсер организаций :)
     
  19. 22 мар 2018
    #39
    orka13
    orka13 ЧКЧлен клуба (А)
    @Mozgovic , @intelligent man :
    Дайте подсказки насчет телефонов. Я вот с того примерочного файла что в старпосте вытянул все телефоны в столбец, чтобы понять в каком формате их яндекс выводит. и закинул случайные строки в этот файл (вторая вкладка), и по алфавиту (первая вкладка).

    Я так понял, что мобильные телефоны это в первой вкладке строки с № 6503 по № 9466 (выделил их зеленым).
    То есть с кодом (900-999), или есть еще какие-то признаки для такого формата телефонов как в таблице? Гуглил долго, но там в основном статьи о том, что теперь и мобильные операторы в крупных городах предоставляют услугу выдачи городского номера (в качестве дополнительного к мобильному). Надеюсь их не надо тоже искать…

    П.С. Очередная подсказка по работе с базой: чтобы вот так вывести каждый номер в новую строку:
    Скрытая ссылка
    надо через EmEditor скопировать столбец с телефонами в новый документ (двойной клик над полем нужного столбца выделит весь столбец, потом банально Ctrl+C, Ctrl+V), и там сделать замену разделителя между мультителефонами ( | ) на символы «переноса строки», на языке регулярок это типа заменить:
    Код:
     \| 
    На
    Код:
    \r\n
    Если тоже самое надо для столбца с почтами сделать, где разделитель между почтами «запятая с пробелом», то заменить:
    Код:
    , 
    На
    Код:
    \r\n
    Но на крупных объёмах EmEditor тут почему-то очень медленно такое делает, я честно говоря использовал платный Penguin. Но это можно и в его бесплатной (без ограничения срока) старой шестой версии сделать, проверил. Ссылка:
     
    Последнее редактирование модератором: 22 мар 2018
    1 человеку нравится это.
  20. 22 мар 2018
    #40
    Mozgovik
    Mozgovik ЧКЧлен клуба
    Я не могу подсказать.
    Но если фильтруется, то это хорошо. :)
    Если фильтруется по регионам - ещё лучше.
     
Статус обсуждения:
Комментирование ограничено.